Rosette固有表現抽出システム高度な言語学技術を駆使した、キーワード検出・抽出システム
[このような方にお勧め]
|
Eメール、文書ファイル、あるいはインターネット経由で入手される、大量のデータを処理するシステムにおいて、人名、地名など、特定の単語やフレーズ(句)などの固有表現の抽出ができると効率よいテキスト処理ができます。
Rosette® 固有表現抽出システム(REX) は、抽出すべき語の「文脈パターン」を事前学習させて抽出させるシステムで、情報検索、CRM、ビジネスインテリジェンスなどのアプリケーションに使用されます。REXのパターンがすでに組み込まれているので、ユーザーによるプログラミングや学習の必要はありません。
抽出できる語句は以下のとおりです。
- 固有名詞
抽出すべき語の「文脈パターン」を事前学習し、抽出。
人名、地名、組織名、施設名、国籍、役職など。 - 特定パターンの語句
与えられた正規表現と一致するパターンの文字列を抽出。
日時、電話番号、URL、Eメールアドレス、クレジットカード番号、通貨、製品型番など。
※ ユーザー定義のパターン抽出も可能。 - 用語辞書(ガゼティア)
ユーザーが指定した語句と一致したものを抽出。
出力サンプル:

