Rosette 日本語形態素解析システムキーワード抽出や索引生成に欠かせないツール
「Basis Technologyの日本語形態素解析システムを組み込むことで、ユーザの望むコンテンツを容易に探し出すことが可能となり、ひいてはインターネット全体の発展に繋がるものと確信しています。」
楽天株式会社 様
[このような方にお勧め]
|
「形態素解析システム」 とは、日本語テキストデータ(自然文)からのキーワード抽出のため、文を単語に分割「分節処理(分かち書き)」する自然文解析ライブラリです。
Basis Technology の Rosette® 日本語形態素解析システムは、優れた処理性能をはじめ、 豊富な語彙を収録した標準辞書と、絵文字の登録も可能な柔軟で使い勝手のよいユーザー定義辞書などを特長としています。また、JIS第3、第4水準の文字も扱えます。 充実したサポート体制もご好評いただいており、主要検索エンジンなどで幅広くご活用いただいています。
各種商用検索エンジンのほか、 オープンソース全文検索エンジン Lucene 等にもご利用いただけます。
主な特長:
- 分節(分かち書き)/トークン化 :
標準辞書:収録語数は約50万語(人名・地名、 企業名等) - ユーザー定義辞書:
- ユーザー側で新語・複合語登録可 (用語辞書等)
- 複数辞書使用可
- トークンに辞書IDを付与 (フィルタリングやキーワード検出に利用可)
- 品詞情報の付与 、タグ付け
- 複合語の抽出・分解
- キーワード抽出、名詞句抽出
- 基本化(動詞・形容詞などの活用語の基本形を出力)
- ストップワード(「が」「を」「に」等)の検知
- JIS第3、第4水準の文字に対応
- ユーザー定義辞書に、顔文字などの特殊文字を含む語句の登録可能
- カタカナ表記ゆれ対応
例: ダンスセラピー ← ダンスセラピ/ダンステラピー
ファミコン ← ファミリーコンピュータ/ファミリーコンピューター
ベネチア ← ベニス/ベネツィア/ヴェネチア/ヴェネツィア 等 - 漢字の旧字体サポート
例: 渡辺 ← 渡邊
大学 ← 大學
高島 ← 髙島 等
出力例:


