Rosette固有表現抽出システム
高度な言語学技術を駆使した、キーワード検出・抽出システム

REXの言語学技術
REXは膨大なコーパスからパターンを抽出します。これらのパターンは REXの言語モデルに組み込まれているので、ユーザはパターンをプログラムしたり、学習させたりする必要はありません。また、新しい言語モデルも簡単にREXに対応させることができます。

[このような方にお勧め]
  • 収集した情報の概要を瞬時に把握し、敏速に処理したい
  • 特定の地域・人物・企業などの情報を抽出したい  

Eメール、文書ファイル、あるいはインターネット経由で入手される、大量のデータを処理するシステムにおいて、人名、地名など、特定の単語やフレーズ(句)などの固有表現の抽出ができると効率よいテキスト処理ができます。

Rosette® 固有表現抽出システム(REX) は、抽出すべき語の「文脈パターン」を事前学習させて抽出させるシステムで、情報検索、CRM、ビジネスインテリジェンスなどのアプリケーションに使用されます。REXのパターンがすでに組み込まれているので、ユーザーによるプログラミングや学習の必要はありません。

抽出できる語句は以下のとおりです。

  • 固有名詞 
    抽出すべき語の「文脈パターン」を事前学習し、抽出。
    人名、地名、組織名、施設名、国籍、役職など。
  • 特定パターンの語句
    与えられた正規表現と一致するパターンの文字列を抽出。
    日時、電話番号、URL、Eメールアドレス、クレジットカード番号、通貨、製品型番など。  
    ※ ユーザー定義のパターン抽出も可能。
  • 用語辞書(ガゼティア)
    ユーザーが指定した語句と一致したものを抽出。

出力サンプル: