Rosette 中国語形態素解析システム
中国語テキスト処理に欠かせないソリューション

「 Basis Technology 中国語形態素解析システムおよび中国語字体変換システムの導入により、多言語対応の機械翻訳サービスにおいて、益々ニーズが高まる中国語の機械翻訳の精度を向上することができました。また、これまで課題であった複雑な2つの中国語字体体系の処理も容易にできるようになりました。」 


- 株式会社インパルスジャパン
システム開発本部
部長 横尾 健一 様


プレスリリース

中国語テキストはスペースなしで書かれているため、キーワード検索、索引づけといったテキスト処理の前に分節【単語分割】処理が必要となります。 Rosette®中国語形態素解析システムは、これらのテキストの分節処理をおこなうためのアルゴリズムを持ち、さらに品詞情報およびピンインによる読みデータを収録した 辞書に基づき、中国語テキストを正確に分節します。ウェブページ、電子メール、各種データベース文書など、どのような種類の文書にも威力を発揮します。

中国語テキストの正確な分節を素早くおこなうために、統計的な技法を利用し、さらに詳細辞書をベースとしています。統計的技法には、語の頻度情報等 が含まれており、システムのより高精度な自然言語処理を可能にしています。中国本土で使用される簡体字、そして香港、台湾で使用される繁体字をサポートしており、それぞれの字体の辞書には60万語を越える語彙を収録しています。Rosette中国語形態素解析システムはGoogle, Inktomi, Verity様等ですでにご利用いただいており、その性能は高く評価されています。

Rosette 中国語形態素解析システムのポータブルで高性能なC++ライブラリは、軽量型のデスクトップPCから高速マルチCPUウェブサーバーまで幅広く利用されています。またクライアントタイプの組み込み型も開発中です。

Rosette 中国語字体変換システム

中国語の簡体字と繁体字の変換処理に欠かせないソリューション

中国語には「簡体字」と「繁体字」という二つの文字体系があります。簡体字は中国本土およびシンガポール、繁体字は台湾および香港で使用されていますが、これらの文字体系には互換性がありません。Basis TechnologyのRosette®中国語字体変換システムはこの、簡体字と繁体字の二つの中国語字体体系の変換処理に優れた効果を発揮します。

Rosette中国語字体変換システムは、簡体字と繁体字間を素早く変換するために、分節、辞書、規則をベースとした技術を利用しています。正しい語分節、品詞情報を伴った辞書、詳細なマッピングテーブル等により、システムの高精度を実現しています。

中国語市場での成功には、簡体字と繁体字の相違点を把握することが重要です。例えば、通常使われている簡体字の20% 以上は複数の繁体字にマッピングされています。特に複合語の場合は、こうした問題がさらに複雑になります。また、一つの言語からこのような二種類の文字が作りだされたのは、地理的要因と政治的要因が大きく影響しています。Rosette中国語字体変換システムは、その複雑な綴りなどに関するあらゆる情報を利用することによって、正確な字体変換を行います。

Rosette 中国語字体変換システムは、その複雑な綴りなどに関するあらゆる情報を利用することによって、簡体字と繁体字の正確な変換を行います。