blog.fuktommy.com

重要語は自分の日記から

自然言語処理で古くから使われている原理にTF(Term Frequency)法がある。

  1. 頻出する単語は重要語とみなす
  2. 重要語を多く含むモノは重要なものだとみなす

ここ最近考えている、Webを探索して、自動で面白い記事を表示するシステムでは、 TF法を利用しようとしている。 ところが、単語の出現頻度から重要語を決めるときに、 対象となる記事を制限しておかないと、うまく機能しないという問題があった。 いわば、あらかじめ「面白い記事」を用意しておいて、 システムに「これが面白い記事なのだ」と学習させるのである。

しかし、あらかじめ記事を用意するのは大変なので、 どうしたものかと困っていた。

P2PWebより:

現在僕が妄想しているシステムは ユーザーの日記などの記述を元に ブログやはてなのキーワード空間のような物を作って さらにそれを元にインターネットを介して収集できるデータを 自動でとってきてアーカイブしたり検索用にインデックスするシステム

自分の書いた日記には、自分の興味のある単語が含まれているだろうから、 自分の日記を学習データとすればよいのではないか。 ちょっとやってみよう。

やってみた

Googleで検索すると期待していたようなページに行く。 http://ping.bloggers.jp/ から一覧を得るといまいち。

それはシステムの方でも数値化されていて、 Googleで検索したときのトップの重要度は180点、 bloggersのときは55点。

Copyright© 1998-2014 Fuktommy. All Rights Reserved.
webmaster@fuktommy.com (Legal Notices)