会社概要:
NTTレゾナントは、平成16年よりインターネットポータルサイト「goo」を提供開始し、月間4780万のユニークユーザがアクセスしています。また近年、シームレスなサービス提供に力を入れており、インターネットユーザの幅広いニーズに応える利便性の高いサービスを提供しています。
Basis Technology 製品導入背景:
NTTレゾナントが昨年実施した調査によると、モバイル検索の利用頻度は年々増加傾向にあるものの、そのうち満足な検索結果を得られていると回答した人は半数以下に留まっているとの結果でした。それを踏まえ、新しい検索エンジンの導入によるパフォーマンスの向上と新たな機能の追加により、モバイルでもPCと同様の検索結果を提供することをねらいとしました。トランスコーダの利用によりPCサイト内に存在する検索キーワードを抽出し、関連情報を優先順位の高いものから表示します。PCサイトにおける膨大な情報の中から必要な情報に的確かついち早くアクセスするために、自然言語処理技術において実績と信頼のある、Basis TechnologyのRosette日本語形態素解析システムを採用しました。
Basis Technology の Rosette® 日本語形態素解析システムは、日本語テキストデータからのキーワードを抽出するために、文を単語に分割(分かち書き)する自然文解析ライブラリです。豊富な語彙を収録し、タイムリーに新語の追加される標準辞書、および優れた複合語処理や使い勝手のよいユーザー定義辞書などを特長としており、検索・テキスト処理の精度向上に欠かせないツールです。日本市場向けに提供されている主要情報検索エンジン等で幅広く利用されています。
導入効果:
Basis Technology のRosette日本語形態素解析システムを導入することにより、より多くの情報の中から適切な情報を的確に提供することが可能になりました。モバイル検索の最大の魅力は、場所や状況を問わずに必要な時に必要な情報へ気軽にアクセスすることができる点です。優れた言語処理技術の導入により、より精度の高い検索を実現し、ユーザビリティーをさらに向上しました。
コメント:
NTTレゾナント株式会社、サーチ事業部ビジネス推進部門、担当課長浜屋氏は次のように述べています。 「現在弊社で力を入れているモバイル検索の機能拡充に際し、Basis Technologyの日本語形態素解析システムを導入した主な理由は、安定したシステムの開発・運営に欠かせない、優れた技術力による品質のよさとサポートの充実です。また今回は、開発を海外のパートナー企業の協力のもとに進めたため、形態素解析関連について、英語等での対応が可能であったことも大変助かりました。今後も、ユーザーのニーズに応えるべく、さらなるサービスの拡充をおこなって参ります。」
会社概要:
株式会社トゥーバイツは、インターネットを中心とした情報過多な社会において、革新的な技術を駆使した各種口コミマーケティングをおこなうための製品およびサービスによって、情報を有効活用できる環境を提供しています。
事例概要:
株式会社トゥーバイツが提供する口コミマーケティング「CGM BUZZR(シージーエム バズアール)」 は、インターネット上に飛び交っている口コミ情報を企業のマーケティングに活用するためのASP(アクティブサーバーページ)のソリューションです。 従来の手法に比べて消費者の本音やニーズをリアルタイムに知ることができるため、その情報の傾向分析結果により、いち早くアクションを起こすことが可能となります。 また、近年日本でも注目されはじめている、大規模なデータを手軽に複数のマシンに分散して処理・管理することのできるオープンソースのプラットフォーム Apache Hadoopと 検索システムApache Lucene を組み合わせて利用しています。 またさらに、Basis TechnologyのLucene用Rosette日本語形態素解析システムをLuceneに組み込むことで、精度の高いテキスト処理を低コストで実現しました。現在、1ヶ月に約4千記事(1年間で5億記事)にのぼる情報を収集しています。
Basis Technology 製品導入背景:
日々更新され増え続ける情報の中から必要な情報だけを効率よく収集するには、日本語テキストを適切に処理する必要があります。特に、情報源の大半が個人から発信されたブログなどを処理するには、新語や口語へのタイムリーな対応が欠かせないうえ、大量のデータを処理しなければなりません。 それを実現するには、日本語テキストを的確かつ有効に処理するシステムの導入が必要でした。 Basis TechnologyのRosette®日本語形態素解析システムは、分ち書きや正規化をはじめとする優れたテキスト処理性能をはじめ、豊富な語彙を収録した標準辞書と、新語や略語などの登録も可能な柔軟で使い勝手のよいユーザー定義辞書などを特長としています。 また、行き届いたサポート体制や、今後、韓国語や中国語対応も視野に入れているため、多言語に対応した拡張性の高いBasis Technology の製品が魅力でした。
導入効果:
Basis TechnologyのRosette日本語形態素解析システムを導入することにより、日本語テキスト処理のカギともいえる単語分節(分かち書き)と正規化機能を支える辞書の作成と管理において、時間とコストを著しく節約することができました。特に、複合語の対応については、「ダーリンは外国人」など、名詞句だけではなく助詞を含むフレーズがとれるため、多くの口語が含まれる文章の処理には非常に役立ちました。そして敏速かつ充実したサポート体制により、安定したシステムを維持・提供することができています。 また、オープンソースシステムであるLuceneとの組み合わせが可能なため、Luceneにおける唯一の懸念材料であった日本語処理精度に対する不安も解消されました。
コメント:
株式会社トゥーバイツ、取締役技術統括本部部長兼営業企画部長の村山氏は以下のとおり述べています。「以前は形態素解析エンジンとしてMeCabを利用していたのですが、弊社システムに組み込む形態素解析エンジンを再検討している際に、MeCabでは特に日々新しく出現する新語への対応で適切な出現スコアを付与することが難しかったことから、ユーザー辞書のハンドリングが容易なソリューションを探していました。Rosetteは複合語のユーザー辞書登録の際に、その構成最小単位までをも登録できること、大量のテキストを扱うシステムへの組み込みモジュールとしての処理速度の速さといった点から最終的な採用を決定しました。更に通常のRLPからRLP for Luceneへの変更をお願いした際にも、モジュールをアップデートするような簡単な作業でLuceneへの対応が可能になり、非常にスピード感の高い開発ができ、感謝しています。 」
構成図:
会社概要:
株式会社ウェブドゥジャパンは、モバイル総合サービス企業として携帯電話向け検索エンジン「CROOZ!」の開発および運営をはじめ、モバイルSNSサイト「プチゲーフレンズ」など、エンドユーザー向けに各種サービスを提供しています。
事例概要:
株式会社ウェブドゥジャパンが提供する、携帯電話向けコンテンツ連動型広告サービスは、携帯電話用Webページ(携帯サイト)の内容を分析し、携帯サイトのキーワードと関連のある広告を自動的に配信するものです。携帯サイトに関連の高い広告を表示することにより、より関心の高いユーザーをその広告に誘導することが可能です。ウェブドゥジャパンのコンテンツ連動型広告では、約270の提携サイトに広告を配信します (月間広告露出数70億ページ以上)。 膨大な量の携帯サイトを正確に素早く分析するために、自然言語処理の高度な技術と豊富な実績を誇るBasis TechnologyのRosette®日本語形態素解析システムが採用されました。
Basis Technology製品導入背景:
携帯サイトの内容に適した広告を配信するコンテンツ連動型広告では、キーワード抽出が重要となり、そのためには日本語特有のテキスト処理である「分かち書き」(分節処理)の精度が決め手となります。日本語は通常、スペースなしで書かれているうえ、漢字・ ひらがな・カタカナ(全角・半角)・ローマ字などの表記が混ざり合っているため、分節処理が容易ではありません。Basis Technology のRosette®日本語形態素解析システムは、この問題を解決し適切な分節処理をおこない、また全角⇔半角変換などの正規化も行います。例えば、「ブルガリキーリング」 などの複合語の場合、「ブルガリキーリング」のままで分節してしまうと、このキーワードに該当するものがほとんどありません。しかし、Rosette®日本語形態素解析システムはこの複合語を「ブルガリ」と「キーリング」に内部要素の単語に分割することもできるので、これにより、「ブルガリ」ブランドに関連するものや、別ブランドの「キーリング」についてなど、関連情報を幅広くユーザーに提供することができます。また、入力が全角カタカナのものを半角カタカナに統一して処理するなどの正規化処理もおこないます。
導入効果:
Basis Technology のRosette®日本語形態素解析システムの導入により、各種コンテンツに適切な広告を効率よく配信することが可能となりました。 タイムリーに新語が追加される標準辞書や、使い勝手のよいユーザー定義辞書の利用により、より高精度のキーワード抽出が可能です。また、Basis Technologyの日本語形態素解析システムは、製品の柔軟性と充実したサポート体制を誇っており、常に進化が求められるコンテンツ連動型広告配信システムの多様な要求に迅速に対応します。
ウェブドゥジャパン、モバイル広告事業部プロジェクトマネジャー添田氏の
コメント:
「今後更に拡大が予想されるモバイル市場において、特にコンテンツ連動型広告ビジネスへの新規参入企業が増えています。 弊社は、これまでにモバイル業界で独自に培った技術と経験を土台に、より多くのユーザーに、適切な情報をいち早く提供してゆく必要があると考えています。 そのため、Basis TechnologyのRosette®日本語形態素解析システムがもつ柔軟性と充実したサポート体制の存在は非常に心強いです。」
コンテンツ連動型広告システム構成 概要図

会社概要:
NTTレゾナントは、インターネットポータルサイト「goo」の運営のほか、Eラーニングサービス、映像コミュニケーションサービスなど、インター ネットユーザの幅広いニーズに応える利便性の高いサービスを提供しています。
事例概要:
NTTレゾナントが運営するインターネットポータルサイトgooは、2005年12月に、インターネット上の画像、動画、音楽データを任意のキーワードで検索できる「画像・動画・音楽検索」サービスを開始しました。本サービスでは、ウェブ上に公開された画像、動画、音楽をキーワードで検索できます。検索DBは常時、追加・更新され、いつも最新の情報を検索できます。
Basis Technology製品導入背景:
「画像、動画、音楽検索」は画像などにつけられた説明文をキーワードで検索します。適切な検索結果を提供するためには、画像などが掲載されたWebページの言語に合った処理を行って索引を生成しなければなりません。それには、対象ページの言語、文字コードの正確な判別が求めらます。この課題を解決するために、ほぼ100%という高い精度で判別を行うBasis Technology の Rosette®言語・文字コード判別システム(RLI:Rosette® Language and encoding Identifier) が採用されました。 さらに、ユーザに常に最新の情報を提供するために、「画像・動画・音楽検索」の索引も、日々、更新していく必要があります。こういった用途には何よりも安定性と処理速度が求められますが、Rosette®言語・文字コード判別システムはこの点でも高く評価されています。
導入効果:
Rosette®言語・文字コード判別システムの利用により、対象ページの言語や文字コードを正しく認識することが可能となり、最適な自然言語処理を行なうことができ、効率的で精度の高い検索が可能になりました。 Rosette®言語・文字コード判別システムは処理速度が速く非常に安定しているので、サービス開始後の継続的な検索DBの追加・更新も効率的かつ順調に進められており、ユーザに常に最新の情報を提供しています。
NTTレゾナント、ポータル事業本部技術マーケティング部担当部長の竹野浩氏のコメント:
「Basis Technologyの言語・文字コード判別システムの導入により、インターネット上のテキストデータの記述言語を明確に判別することにより、最適な自然言語処理をおこなうことが可能になり、検索の効率と精度の向上に大変役立っています。また、膨大な量のテキストデータも瞬時に処理することができる処理速度、高い言語判別の精度など、この製品のパフォーマンスにとても満足しています。」

会社概要:
日販コンピュータテクノロジイ株式会社は、出版業界へのコンピュータ・ソリューション導入実績 No.1を誇り、戦略的なシステム構築とサービス提供をしています。
事例概要:
日販コンピュータテクノロジイ株式会社が手がける、株式会社日販図書館サービス様の書籍情報サイト「本やタウン図書館便」の会員向け書誌情報検索機能の強化に、Basis TechnologyのRosette®日本語形態素解析システム(JLA)を採用。 IBM社のリレーショナルデータベースDB2の標準検索システムであるNet Search Extender (NSE)を標準利用し、JLAによる分かち書き結果をNSEに登録することで、形態素解析ベースの全文検索を実現し、精度の高い書誌情報検索を実現しました。
Basis Technology製品導入背景:
「本やタウン図書館便」は図書館向けの会員用サイトであり、ユーザーは主に図書館司書や図書の管理者であるため、書誌情報の検索機能に対する要求がかなり高いことが予想されました。 そこで、図書館司書の方々のご意見をもとに、本システムの構築をおこなうことになりました。書誌情報検索では、該当するものを絞って表示できるのかどうかが重要となるため、形態素解析システムの採用が必須と判断されました。
導入効果:
JLAの導入により、書誌情報を的確に検索することが可能になりました。JLAは他の日本語形態素解析システムと比べ、分かち書きがより柔軟に制御できる機能が用意されているので、カタカナやひらがな等による様々なパターンの書誌情報にも対応できるようになりました。また、JLAには、Java I/F がサポートされているので、NSEへの組み込みが非常に簡単で、短期間でシステム構築できました。
日販コンピュータテクノロジイ様のコメント:
「導入時および導入後の技術サポートも迅速・的確であり、安心して利用できるソフトであると思います。今回のシステム導入においても充実したサポートの下で安心して行う事が出来ました。又、機能面も充実しており、特にユーザー定義辞書への「語」追加登録機能については登録が簡単でコンパイルが不要、すぐに利用できるといった便利な機能でありユーザーニーズに迅速に対応する事が出来ました。」
プロジェクト概要:
2003年度から実施している文部科学省リーディングプロジェクト「e-Society 基盤ソフトウェアの総合開発」の研究開発課題「インターネット上の知識集約を可能にするプラットフォーム構築技術」(研究代表者:早稲田大学理工学部 村岡洋一教授)では、Web情報の大規模な収集ならびにこ
れらの情報を対象としたマイニング技術の開発がおこなわれています。2003年度には10億URLのデータ収集ならびにそれらWebデータのリンク情報の解析がおこなわれ、2005年度までに約120億規模のWebデータを収集し、
必要情報抽出のための知識フィルタリング技術の開発に取り組みます。
Basis Technology製品導入背景:
Web上のデータは、言語および文字コード情報が不明なものや、文字コードが指定されていても間違っているものがあり、結果として文字化けを生じてしまい適切に利用することができなくなるものが多くあります。本プロジェクトでは、膨大な多言語情報の収集および解析をおこなうため、データの言語ならびに文字コードの正確な判別と文字化けをなくすことが大前提でした。そこで、Basis Technology のRosette® 言語・文字コード判別システム(RLI) は世界の主要40言語および29種類の文字コードに対応しており、本プロジェクトのニーズにかなう製品であることから採用となりました。
導入効果:
RLIの導入により、広範囲にわたるWebデータ収集・解析をより正確におこなうことが可能となりました。
早稲田大学理工学部 山名早人助教授のコメント: 「本プロジェクトで扱うデータの量は膨大となり、またいろいろな国からの情報を収集し解析するものですから、データの言語および文字コードの判別をおこなうシステムは必要不可欠でした。Webページの記述言語を判別してくれるこのRosette®言語・文字コード判別システムは主要なサーチエンジン、さらには、Webデータを扱う世界の多数の製品で使用されているデファクト的なものであり、本プロジェクトで採用することにしました。ベイシステクノロジー様とは、本言語判定システムの性能をさらに上げることを目標に共同して研究を進めています。」
会社概要:
サイボウズ株式会社(以下サイボウズ)は1997年に設立。オフィスでの情報共有を目的としたEIP (Web)型グループウェアを提供するほか、WebナレッジベースならびにCRM製品を提供しています。
事例概要:
グループウェアの製品展開において、その製品特性から、海外に拠点を持つ企業では多言語対応が必要とされます。その対応ができるようサイボウズでは国際版グループウェア「サイボウズShare360」をリリースしました。その開発に際し、重要課題となったのは「文字コード」でした。世界各国で使用される文字コードがそれぞれ異なり、たとえば日本で通常使用されるShift-JIS という文字コードで作成したメッセージを、GB2312という文字コードを使う中国のPCで開くと文字化けしてしまいます。サイボウズではこのような文字化けを防止するために、
世界共通の文字コードであるUnicode 対応が必須であるといち早く判断し、そのUnicode 化作業を簡便・確実におこなうことのできる外部ツールとしてBasis Technology の Rosette®Unicode対応ライブラリを採用しました。
- 一番のメリットは国際版の開発コストを節約できること。
- 一本の(同一の)バイナリ・コードで多言語対応が可能なため、従来のように各言語版ごとにコード開発が必要となるものにくらべ、プログラマの負担が軽減し、テスト工程も削減できる。
- 管理も容易でメンテナンスコストが大幅に削減。
- 使い勝手の点からみても、Rosette® Unicode 対応ライブラリはC runtime library と等価な文字列処理関数を提供しているので、ソースコードのわずかな変更で、single byte char から Unicode への移行ができ便利。
- 内部コードに採用しているUCS-2 は2バイト固定長のため、Shift-JIS, EUC などのマルチバイト・コードに比較して非常に扱いやすく、プログラミングが容易。
サイボウズ様のコメント:
「当社の国際展開に際し、Basis Technology とパートナーを組むことができて大変嬉しく思います。日本で注目されている弊社のグループウェア製品を、米国をはじめ、他国市場でもどんどん展開していく予定です。その製品の国際化に際し、Basis TechnologyのRosette Unicode対応ライブラリを利用することにより、常にUnicodeの最新標準に追従し、また同時に高品質の製品を提供していくことができます。」


