Rosette 言語・文字コード判別システム
「Basis Technologyの言語・文字コード判別システムの導入により、インターネット上のテキストデータの記述言語を明確に判別することにより、最適な自然言語処理をおこなうことが可能になり、検索の効率と精度の向上に大変役立っています。また、膨大な量のテキストデータも瞬時に処理することができる処理速度、高い言語判別の精度など、この製品のパフォーマンスにとても満足しています。」
— NTTレゾナント、ポータル事業本部
技術マーケティング部担当部長
竹野浩氏
プレスリリース
顧客事例
|
[このような方にお勧め] 文字コードを正確に判別し、文字化けをなくし、適確に 処理したい |
Internet の世界的普及につれ、世界各国から発信されるWebページがますます増加し、その情報収集や利用が進んでいますが、その一方で、それら各国語Webページの情報が文字化けして困ることがあります。 それはそのWebページのデータの文字コード(*注1)が、ユーザーの使用するブラウザで正しく認識されないときに生じます。
Rosette®言語・文字コード判別システムは、言語と文字コードをすばやくかつ正確に判別します。これにより、文字コードが不明なために適切に処理されずに文字化けしてしまう事態が解消し、また言語ごとにデータを仕分けできるため、その後のアプリケーションでの処理において、言語別の処理が効率的におこなえます。
Rosette®言語・文字コード判別システムは世界の主要54言語ならびに45種の文字コード (*注2) を判別できます。 (詳細は対応言語および文字コードをご参照ください。)判別精度は 平均99.45%(*注3)と高い精度を誇ります。これは学術的なサンプルデータだけではなく、実在する多くのWebデータを利用して長年研究・改良をかさねてきた成果です。
Rosette®言語・文字コード判別システムは辞書データを必要とせず、言語・文字コードごとにあらかじめ組み込まれたプロファイルと入力テキストを比較して判別するという統計学的な手法を用いています。それゆえメモリ消費が少なく、多種類の言語・文字コードをすばやく判別できます。
Rosette® 言語・文字コード判別システム (ver.5.1 以降) では、中国語対応に必須な GB18030 の検出が可能になりました。
※ GB18030 は、中国国家規格の文字コードで、中国のすべての文字情報処理製品に採用が義務付けられています。そのため、日本からの輸出製品についても対応が求められています。
詳しくは下記までお問い合わせください。
Tokyo.Marketing@basistech.com
*注1:文字コードとは、コンピュータで文字を扱うために、特定の文字集合を定めてその各文字に一意な数値を割り当てたものです。日本語テキストには ISO-2022-JP, Shift-JIS, EUC-JP などの文字コードが使用されます。同じ文字でも文字コードによって割り当てられている数値が異なります。たとえば、Shift-JISでは「あ」のコードは「82A0x」ですが、EUC-JP では「A4A2x」です。そのため、Shift-JIS データを誤ってEUC-JP, JIS-2004(JISX0213) として処理してしまうと文字化けが生じます。
*注2: 中国語の簡体字・繁体字は 2 語としてカウント
*注3: 1KBのデータを使用して計測
(ご要望により、限定言語・文字コードサポート版も承ります。)

