Rosette アラビア語形態素解析システムアラビア語の非構造化テキストの形態素解析システム
アラビア語は、この言語が「話し言葉」として発達してきた背景から、通常の「書き言葉」をベースにした自動解析技術に適していません。アラビア語は、一般的に動詞的要素を組み合わせて動詞の相である、目的、活用、人称、数、性などを表現します。例えば、英語は前置詞「or」や「and」が名詞の前に置かれるのに対して、アラビア語の前置詞は属する名詞の一部となります(「Their house」をアラビア語で書くと、「بُيُوتُهُمْ」 と1つの単語になる)。また、アラビア語は、一貫性のない母音の使用や母音の欠如によるあいまいな部分もあります。そのため、アラビア語テキストを正確に索引付け、検索あるいはテキスト操作するためには、有効な前処理が必要となります。
Rosette® アラビア語形態素解析システム(ARLA)は、アラビア語文書を解析するためのマルチプラットフォーム対応の高性能形態素解析エンジンです。主要なサーチエンジンあるいはデータマイニング製品に直接導入できるように設計されており、アラビア語の綴りおよび語彙の正規化を行います。
特長:
- 単語の語幹を作成
- 品詞の判別
- 母音およびアラビア語特有な記号の削除、ハムザ(独立した子音)の統合、カシダ(アラビア語の引伸ばし記号)の削除など、綴りの正規化を行う
- 複数形を適切な単数形へと正規化する( “broken plurals” )
- アラビア語数字をラン点後の数字表記へと正規化する
- ストップワードのユーザー定義が可能
形態素解析はそれぞれの単語の品詞を判別し、単語の原形を出力します。

