Rosette 日本語形態素解析システム
キーワード抽出や索引生成に欠かせないツール


「Basis Technologyの日本語形態素解析システムを組み込むことで、ユーザの望むコンテンツを容易に探し出すことが可能となり、ひいてはインターネット全体の発展に繋がるものと確信しています。」


楽天株式会社 様

[このような方にお勧め]
  • 自社で利用している検索システムのキーワード抽出精度を改善したい。
  • 形態素解析を自社処理しているが、未知語処理などメンテナンスに手間がかかり困っている。

「形態素解析システム」 とは、日本語テキストデータ(自然文)からのキーワード抽出のため、文を単語に分割「分節処理(分かち書き)」する自然文解析ライブラリです。

Basis Technology の Rosette® 日本語形態素解析システムは、優れた処理性能をはじめ、 豊富な語彙を収録した標準辞書と、絵文字の登録も可能な柔軟で使い勝手のよいユーザー定義辞書などを特長としています。また、JIS第3、第4水準の文字も扱えます。 充実したサポート体制もご好評いただいており、主要検索エンジンなどで幅広くご活用いただいています。

各種商用検索エンジンのほか、 オープンソース全文検索エンジン Lucene 等にもご利用いただけます。

主な特長:

  • 分節(分かち書き)/トークン化 :
    標準辞書:収録語数は約50万語(人名・地名、 企業名等)
  • ユーザー定義辞書: 
    • ユーザー側で新語・複合語登録可 (用語辞書等)
    • 複数辞書使用可
    • トークンに辞書IDを付与 (フィルタリングやキーワード検出に利用可)
  • 品詞情報の付与 、タグ付け
  • 複合語の抽出・分解
  • キーワード抽出、名詞句抽出
  • 基本化(動詞・形容詞などの活用語の基本形を出力)
  • ストップワード(「が」「を」「に」等)の検知
  • JIS第3、第4水準の文字に対応
  • ユーザー定義辞書に、顔文字などの特殊文字を含む語句の登録可能

オプション機能:
  • カタカナ表記ゆれ対応
    例: ダンスセラピー ← ダンスセラピ/ダンステラピー
        ファミコン   ← ファミリーコンピュータ/ファミリーコンピューター
        ベネチア   ← ベニス/ベネツィア/ヴェネチア/ヴェネツィア  等
  • 漢字の旧字体サポート
    例: 渡辺   ←  渡邊
        大学  ←  大學
        高島  ←  髙島   等

出力例: