重要語は自分の日記から
自然言語処理で古くから使われている原理にTF(Term Frequency)法がある。
- 頻出する単語は重要語とみなす
- 重要語を多く含むモノは重要なものだとみなす
ここ最近考えている、Webを探索して、自動で面白い記事を表示するシステムでは、 TF法を利用しようとしている。 ところが、単語の出現頻度から重要語を決めるときに、 対象となる記事を制限しておかないと、うまく機能しないという問題があった。 いわば、あらかじめ「面白い記事」を用意しておいて、 システムに「これが面白い記事なのだ」と学習させるのである。
しかし、あらかじめ記事を用意するのは大変なので、 どうしたものかと困っていた。
P2PWebより:
現在僕が妄想しているシステムは ユーザーの日記などの記述を元に ブログやはてなのキーワード空間のような物を作って さらにそれを元にインターネットを介して収集できるデータを 自動でとってきてアーカイブしたり検索用にインデックスするシステム
自分の書いた日記には、自分の興味のある単語が含まれているだろうから、 自分の日記を学習データとすればよいのではないか。 ちょっとやってみよう。
やってみた
Googleで検索すると期待していたようなページに行く。 http://ping.bloggers.jp/ から一覧を得るといまいち。
それはシステムの方でも数値化されていて、 Googleで検索したときのトップの重要度は180点、 bloggersのときは55点。