嫌な季節がやってきた
よその分野のことは知らないが、 自然言語処理の研究で一番しんどいものの1つが正解データの作成である。
自然言語とは人間の言葉のことで、 プログラミング言語などと対比して自然言語と呼ぶ。 自然言語処理とは自然言語を計算機で扱う研究分野である。 そこから生まれるアプリケーションは 自動要約、機械翻訳、かな漢字変換、情報抽出、検索などなど。
わかりやすい例として、文章から人名を抽出することを考える。 何らかの理論を考え、システムを作ったとする。 研究として完成させるには、そのシステムの性能を調べなければならない。 文章中に人名が100個あったとしたら、そのうち何個を見つけられるのか(再現率・recall)、 人名じゃないものを間違えて人名としてしまうのはどのくらいあるのか(適合率・precision)、 この2つである。
調べるには、予め用意した正解データと比較すればよい。 これは自動的にできる。 パラメータを変えながら、あるいは複数の手法を組み合わせたりして実験ができる。
だが、正解データだけは人手で作らなければならない。 例えば「市川新之助は大河ドラマ「武蔵」で宮本武蔵を演じた」 という文を読んで、
- 「市川新之助」は人名である
- 「武蔵」は作品名であるから人名とはしないことにする
- 「宮本武蔵」は人名である
などと考え、マークするのだ。 これを例えば新聞1日分の全ての記事について行う。
やりたくないので先延ばしにしてきたのだが、 どうしてもやらなければいけない時期になってしまった。 やだなあ。