[2003年10月8日US発プレスリリース日本語訳]
Basis Technology、固有表現抽出システムを発表
— 人名、日付、地名、名詞句などの固有表現を抽出 —
Basis Technology(ベイシス・テクノロジー、本社:米国マサチューセッツ州、CEO:Carl Hoffman URL:www.basistech.com)は本日、Rosette® 固有表現抽出システム(REX)を発表しました。REXは、人名、地名、日付、あるいはある文脈の中で意味をなす特定の単語やフレーズ(句)などを正確に抽出・タグ付けをするためのソフトウェア製品です。情報検索、コンテンツ/ナレッジ・マネジメント、データウェアハウス、ビジネスインテリジェンス、およびその他の情報アプリケーション用のソフトウェアに統合されることにより、人名、地名、団体名、その他の特定語を正確にタグ付け・判別し、アプリケーションの機能強化をはかることができます。優れた言語学知識を駆使し、Eメール、ドキュメントファイル、ウェブページ等の構造化されていないデータの分類、管理、解析、およびマイニング等に役立ちます。
大量のテキストデータを処理、解析、あるいは分類しなければならないアプリケーションにおいて、固有表現の抽出は不可欠です。REXは、以下のような固有表現を確認することによって、テキストをより詳しく解析します。
- 人名 - George Bush
- 地名 - The White House
- 組織名 - the Republican Party
- 名詞句 - President of the United States
- 日付 - October 8, 2003
REXはまた、各固有表現に品詞情報(名詞や副詞など)をタグ付けし、また文の区切り位置を検出します。今回のリリースでは英語、ドイツ語版が用意されており、日本語版ほかの主要言語版も近々発表の予定です。
ConveraのVice President of Product Management and Product Marketing、Mushtaq Khan氏は次のように述べています。「膨大なテキストデータから適切な概念を検索および抽出するための優れた技術は、弊社の顧客である一般企業および政府機関のどちらにも重要です。これらの技術は、ビジネス情報分析あるいはテロ防止対策などといった機能をさらに効果的にする、次世代情報検索における要となると考えます。Basis Technology がこのような最新の言語技術を市場に提供していることを嬉しく思います。」
Basis Technologyの Vice President of Product Development、Steve Cohenは次のよう述べています。「REXは、現在市場に出まわっているテキスト処理ソフトウェアが柔軟性に欠ける点にご不満の方々のニーズを満たすために開発された製品です。設計においては、柔軟性に富み学習機能のある言語処理ソフトウェアを必要とする開発者のニーズを考慮に入れ、またRosette製品シリーズを、非構造化データ管理および情報検索における一流企業に長年提供してきたこれまでの経験を活かし、高度な言語学技術を駆使した固有表現抽出システムを開発しました。」
またREXに加え、今回Rosette形態素解析システムに、英語、フランス語、イタリア語、ドイツ語、スペイン語などの欧米言語版を新たに追加しました。単に統計に基づいたアルゴリズムを用いる方法とは対照的に、言語学に基づいており、また各言語独特の構造に基づくコード体系からなるため、より正確な解析結果をもたらします。
IDCのResearch Vice President of Content TechnologiesのSue Feldmanさんは次のようなコメントを述べています。「多言語を含むデータや、構造化されていないデータがさらに増えていくにつれ、これら情報収集・解析のビジネス需要も急速に成長しています。2000年には353万ドル規模の市場でしたが、ソフトウェア全体の成長率を上回り、来年には600万ドルを超える規模になると予想しています。情報検索の次なる大きな進歩には、今日のような統計処理以上のことが求められています。検索、分類、およびテキストマイニングの分野では単語の意味を理解するための技術を取り入れる必要がでてきます。どんなコンテンツ・アクセス・ツールでも、特定の人名、地名などを判別できるようになることによって機能を向上させることができます。こういった市場状況において、Basis Technologyの新しい固有表現抽出システムの需要が高まることを期待しています。」
Basis Technology について
Basis Technologyはグローバル企業向けのソフトウェア国際化ならびに多言語処理技術・サービスの主要企業です。相互運用性を持つ製品シリーズRosette® グローバリゼーション・プラットフォームを通じ、国際化に伴う様々な問題に対処する高性能なソフトウェアコンポーネントを提供。さらに国際化のためのソースコードの事前評価、プロジェクト管理、Unicode化実施、ソフトウェア・リエンジニアリングおよび品質保証等のエンジニアリングサービスを迅速に提供します。
