[2003年3月4日US発プレスリリース日本語訳]

Basis Technology、アラビア語形態素解析システムを発表

— 米国政府機関におけるアラビア語文書の情報検索用に開発 —

ソフトウェア国際化ならびに多言語情報処理技術・サービスのトップ企業であるBasis Technology (ベイシス・テクノロジー、本社:米国マサチューセッツ州、CEO:Carl Hoffman. URL:www.basistech.com)は本日、Rosette® アラビア語形態素解析システム(ARLA: Arabic Language Analyzer)を発表しました。ARLAは、Basis TechnologyのRosette形態素解析システムシリーズの一つで、このシリーズには日本語、中国語、朝鮮語、欧州語版があります。今回発表のアラビア語版はアメリカ政府諜報機関の要請に応じて開発されたもので、アラビア語で書かれた情報検索を円滑に行うために、主要なサーチエンジンあるいはデータ・マイニング製品に直接導入できるよう設計しました。

アメリカ国防総省のAssistant Director Intelligence Policy (Language), Glenn Nordin 氏は以下のように述べています。「現在、諜報機関が直面している課題の一つは、外国語情報の識別、分析、抽出を敏速かつ正確に行うことです。アメリカ政府で使用しているコンピュータシステムの大半は、アルファベットおよびアメリカの文字セットを扱うよう設計されているので、アラビア語での情報処理は困難を強いられます。外国語の場合、その発音から判断して書き下したテキストデータの場合、その書き下し方に特にルールがないため、様々なパターンが生まれてしまい、データの誤りや検索ミスが生じる原因となる可能性があります。したがって、諜報機関アナリストが、原文のままの情報を抽出し回覧するためのソリューションの模索は非常に重要と言えます。」

ARLAは、アラビア語文書を解析するためのマルチプラットフォーム対応の高性能形態素解析エンジンです。情報検索を複雑にする文法的な接辞(動詞の語形変化、前置詞、代名詞)の削除、そして綴りおよび語彙の正規化を行います。また、不規則複数形を単数形に変換するために高度なコンピュータ言語学技術および特殊な辞書を利用しています。

この新製品は、多言語情報処理ソフトウェア製品、Rosette グローバリゼーション・プラットフォームの一部です。このプラットフォームには、今回発表製品のほか、Unicode化およびUnicodeとローカルな文字コードの相互変換ツールであるRosette Unicode対応ライブラリ(RCLU)、入力テキストの言語および文字コードを自動的に判別する Rosette 言語判別システム(RLI)等があります。 RLIは現在、40種類以上の言語に対応しています(アラビア語・ペルシア語、字訳アラビア語、字訳ペルシア語を含む)。

US Patriot Act によりFBIとCIAの後援を受けている団体 National Virtual Translation CenterのDirector, Everett Jordan氏は次のように述べています。「国家安全保障を確保するために、言語技術の重要性は高まりつつあります。膨大な量の多言語情報資料を限られた人数で分析しなくてはならないので、重要な情報のふるい分け、分類、検索を支援する技術は、危険をできるだけ早く発見するために必要不可欠です。米国政府は1つの製品を支持するわけにいかないので、民間企業がこれらの問題解決のために政府の呼びかけに応じてくれるのはありがたいことです。」

Unicode コンソーシアム, Technical Director Emeritus, Glenn Adams氏(Unicode Standard co-author)も次のように述べています。「アラビア語文書における情報検索はかなり複雑です。アラビア語では、接辞と挿入辞を組み合わせて、語形変化、前置詞または代名詞などの文法的要素を表現します。そのため文書中の特定の言葉のみを検索しても、該当の情報すべてがヒットするわけではありません。 例えば、英語の"book"に相当するアラビア語"Kitaab"で検索しても、この語は英語の"the books"に相当する"alkutub"をヒットしません。ARLAは、このようなアラビア語特有の問題を解決し、わずかな文法的違いに影響されずに、関連情報をより正確に、かつ広い範囲で検索できるようにしています。」

ARLAはRosetteグローバリゼーション・プラットフォームのその他の製品と併用するとさらに効果的です。英語のアルファベットに書き換えられている言葉の検索もできるため、諜報機関等においては、外国語で発信された情報の発見や監視を充実させることができます。

Basis Technology のCEO, Carl Hoffman は以下のコメントを述べています。「アラビア語テキストの検索で問題となるのは、多くの同じアラビア語の人名が何通りもの英語の綴りに変換されていることです。リビア指導者の名前を例に挙げると、アラビア語では1つしか綴りの存在しない彼の名は、英語では30通り以上もの綴りで一般的に利用されています。弊社のソフトウェアを利用していただくことにより、アラビア語の綴りに関しての知識がなくとも"phonetic approximation(音声学近似法)"(発音される音声のまま文字を書き下すこと)でアラビア語情報の検索ができるアプリケーションが構築できます。これにより、アラビア語を母国語としない人にもより確実な情報検索が可能となります。」

ARLAのプラグインは現在のところ下記製品対応をリリース(あるいは開発)しています。 Convera RetrievalWare®, FAST Data Search®, Microsoft® SQL Sever™, Oracle® Text/interMedia

Basis Technology について

Basis Technologyはグローバル企業向けのソフトウェア国際化ならびに多言語情報技術・サービスのトップ企業です。相互運用性を持つ製品シリーズRosetteR グローバリゼーション・プラットフォームを通じ、国際化に伴う様々な問題に対処する高性能なソフトウェアコンポーネントを提供。さらに国際化のためのソースコードの事前評価、プロジェクト管理、ソフトウェア・リエンジニアリングおよび品質保証等のエンジニアリングサービスを迅速に提供します。

主要なソフトウェア開発企業、ウェブ企業、多国籍企業、政府系機関などで、その国際化展開戦略の基盤として弊社のUnicode化対応、言語判別、多言語検索、正規化、Eメール解析等の技術が採用されています。顧客には、Amazon.com、America Online、Convera, FAST Search & Transfer(FAST)、Google、Hewlett-Packard、IBM、L.L.Bean、Overture Services、PeopleSoft、Siebel Systems、Software AG、Verity等が含まれます。

本社を米国マサチューセッツ州ケンブリッジに構え、サンフランシスコ、ワシントン D.C. にもオフィスがあるほか、日本には現地法人を設立しています。詳細は www.basistech.co.jp をご覧下さい。