Google大規模日本語データについて
Google: 大規模日本語データ公開に関する特別セッションに参加してきました。 いずれ公式な発表(どこに意見を送ればいいか等も含めて)があるとは思いますが、個人的なメモとして:
- すでに英語版がある。 圧縮してDVD6枚?
- 数十億文の日本語文からデータを作る。
- もとの文が再現できないような、統計的情報のみを公開する。 例えば「今日は-楽しかった が100回出てきました」とか、 「今日-は-楽し-かっ-た が100回出てきました」みたいな感じ。 どんな形式になるかは未定(意見募集中)。
- 2007年夏の公開を目指す。
- DVD数枚になると予想。
- オープンソースソフトか、 特許ではないアルゴリズムに基づいたソフトで処理を行う。 例えば ChaSen が考えられる(意見募集中)。
- 全て自動で行い、手順は公開する。 誤りがあっても人手で直さない(全自動ではなくなってしまうから)。