Introduction to Information Retrieval #18 の復習資料

Introduction to Information Retrieval 輪読会 18章の復習資料を以下にアップロードしました。

http://bloghackers.net/~naoya/iir/ppt/iir_18.ppt

18章のテーマは "Matrix decompositions and latent semantic indexing" で、行列の特異値分解と Latent semantic indexing (LSI, 潜在的意味インデキシング) でした。ベクトル空間モデルの核である単語文書行列を特異値分解を用いて低階数近似し、計算量を下げながらも*1適合度を向上させるという LSI についての解説の章です。LSI に関しては http://d.hatena.ne.jp/naoya/20090212/latent_semantic_indexing にて先日少し言及しました。

過去の章の復習資料 ppt は同 URL のディレクトリ (http://bloghackers.net/~naoya/iir/ppt/) から一覧可能です。

IIR 輪講が終わりました

1年と2ヶ月ほど続いた IIR 輪講は今回で最終回でした。最終回は、19, 20, 21章を一日で読み終えて、その後はたつをさんをはじめとする参加者のみんなで打ち上げに行きました。この輪講に参加して本当に良かったと思います。一年前は情報検索分野はド素人だった自分も、なんとか入門はできたかな、と思います。詳しくはまた後日にでも書きたいと思います。

19, 20, 21 の復習資料は時間が空いたときにでも作りたいと思います。21 章はリンク解析の章で面白いので、優先度高めで作れればと思います。なお、HITS に関して少し書いてみたいことがあるので別記事にします。

Introduction to Information Retrieval

作者: Christopher D. Manning,Prabhakar Raghavan,Hinrich Schuetze
出版社/メーカー: Cambridge University Press
発売日: 2008/07/07
メディア: ハードカバー
購入: 7人クリック: 115回
この商品を含むブログ (37件) を見る

*1:近似後の行列は小さくなっているので計算量が下がりますが、実は近似に必要になる SVD の計算量がかなり大きいので超巨大な行列に使うのは難しい