blog.fuktommy.com

Google大規模日本語データについて

Google: 大規模日本語データ公開に関する特別セッションに参加してきました。いずれ公式な発表(どこに意見を送ればいいか等も含めて)があるとは思いますが、個人的なメモとして:

すでに英語版がある。圧縮してDVD6枚？
数十億文の日本語文からデータを作る。
もとの文が再現できないような、統計的情報のみを公開する。例えば「今日は-楽しかったが100回出てきました」とか、「今日-は-楽し-かっ-たが100回出てきました」みたいな感じ。どんな形式になるかは未定(意見募集中)。
2007年夏の公開を目指す。
DVD数枚になると予想。
オープンソースソフトか、特許ではないアルゴリズムに基づいたソフトで処理を行う。例えば ChaSen が考えられる(意見募集中)。
全て自動で行い、手順は公開する。誤りがあっても人手で直さない(全自動ではなくなってしまうから)。

カテゴリー

リンク

つながり

Atom Feed

Powered by blogch3.

Copyright© 1998-2014 Fuktommy. All Rights Reserved.
webmaster@fuktommy.com (Legal Notices)