Introduction to Information Retrieval #6 の復習資料

Introduction to Information Retrieval の6章の復習資料を以下にアップロードしました。

6章はスコアリング(重み付け)がテーマです。スコアリングの基本として、文章の属性毎に重みを与えてスコアを計算する Weighted zone scoring が最初に紹介されています。次に、文書に含まれる単語に重みを与える方法として tf-idf が話題に挙がります。tf-idf などで各単語に数値を与えられたドキュメントは、各単語の重みを成分とする M 次元 (M は辞書の単語数) のベクトルとみなすことができます。このドキュメントベクトルをM次元空間に展開しベクトル計算でドキュメント間の相関(類似性)を算出する手法として Vector space model の解説があります。

Vector space model では cos 類似性(wikipedia:相関係数)を使った相関度の計算が行われます。この計算に関しては id:hiroyukikojima 氏による ゼロから学ぶ線形代数 でとても分かりやすくずばりそのものが解説されていましたので、輪読会中にも軽く紹介させていただきました。

ゼロから学ぶ線形代数

ゼロから学ぶ線形代数

次回の輪読会は 6/22 予定です。次章の内容は、Vector space model を正直に計算すると計算量が大きすぎるところ、さまざまなヒューリスティクスを使ってその計算時間を現実的な量まで減らす手法などについてです。

過去の章のアーカイブは同 URL のディレクトリ (http://bloghackers.net/~naoya/iir/ppt/) から一覧可能です。