Lucene用Rosette言語処理プラットフォーム
Lucene とは?
Lucene は Apacheソフトウェア財団の後援で開発されているオープンソースの検索ツールキット・ライブラリです。

Apache Solr とは?
Apache Solr はApacheソフトウェア財団が後援するオープンソースのソフトウェアで、Lucene上で動作するWebベースの検索サービスです。スキーマ、管理ツール、キャッシュ管理、レプリケーション、ファセット閲覧などがあります。


費用効果が高く、信頼性の高い、多言語検索を容易に実現

Basis Technologyの言語テキスト処理技術がオープンソースの検索ソリューション Apache Lucene, Solrで利用できるようになりました。

使い方は簡単

Basis TechnologyのRosette言語処理プラットフォーム (RLP) を Lucene に組み込むことで、精度の高い多言語検索を、ウェブサイト、イントラネット、ローカルネットで実現できます。 この組み合わせにより、低コストで高性能の検索ソリューションが実現できます。

高い信頼性

パフォーマンスの高いオープンソース検索ツールキット Lucene は、IBM, CNET, Wikipedia など 3,000 以上の導入実績がある人気の高い検索ソリューションです。またRLPは、検索エンジンやテキストマイニング分野のユーザー企業からの、精度やパフォーマンス上の厳しい要求に応えてきた10年間の実績があります。

本格的な企業内検索が可能

  • 言語判別と54言語での全文検索
  • 日本語、朝鮮語、中国語、主要欧米語、アラビア語を含む19言語で優れた検索 (詳細はこちら)
  • 12言語での固有表現抽出とファセット分析
  • スケーラブルでパフォーマンスの高いアーキテクチャ (詳細はこちら)

評価版のお申し込みは、下記までご連絡ください。
info@basistech.jp

必要な操作

RLPの SDKもしくはランタイムパッケージをダウンロードし、インストールしますLucene はRLPに、インデックスすべき文書の位置などの情報を伝えます。Lucene用Rosette言語処理プラットフォームモジュールにより、RLPをLuceneで利用することが可能となります。また、RLPがサポートする言語すべてのテキストを検索できます。

RLPの言語処理機能:

  • 言語判別: 文書の記述言語を判別
  • 言語固有の処理: 形態素解析は検索用索引生成やクエリー解析の出発点です。優れた言語処理機能は検索結果の適合率、再現率を改善します。
  • 分節とトークン化: テキストを単語トークンに分節します。特に、日本語や中国語のように単語の間にスペースを入れずに記述される言語に必要です。
  • 基本化: 活用する語を基本形(辞書の見出し形)に変換します。再現率が向上します。
  • 複合語分割: 複合語(日本語やドイツ語)を単語に分割します。再現率が向上します。
  • 品詞タグづけ: 適合率、再現率が向上します。
  • 固有表現抽出 (キーワード抽出): 固有表現抽出は重要な名前や検索結果のキーワードによるファセット検索を可能にします。

Apache Lucene のパフォーマンスとスケーラビリティ

  • スレッドセーフ
  • クロス・プラットフォーム
  • マルチコアのサポート
  • 少ないRAMで動作
  • バッチ索引生成と同じくらいに高速な追加索引生成
  • 索引のサイズは元テキストの20~30%
  • パワフルな検索アルゴリズム

詳細は http://lucene.apache.org/ をご覧ください。