Introduction to Information Retrieval #11 の復習資料

Introduction to Information Retrieval 輪読会 11章の復習資料を以下にアップロードしました。

11章は、は "Probabilistic information retrieval" すなわち確率的検索モデルです。

IIR 10章までにあつかった検索モデル

IRシステムをどのような概念を用いて実現するかが「検索モデル」であり、IIR ではここまで以下の2つのモデルを扱いしました。

ブーリアンモデルは比較的単純な検索モデルで、ブール代数を基礎とした論理式によりクエリを組み立て、検索するモデルです。基本的にスコアリングは行いません。

ベクトル空間モデルは、クエリや文書を索引語の重みベクトルで表現して、クエリベクトルと文書ベクトルの類似度により適合度判定を行い、検索を行うモデルです。重み付けには tf-idf、類似度計算にはコサイン類似度などが利用されます。

11章は確率モデルの話

11章では確率論を基礎に置いた検索モデルである確率モデルを扱いました。「ある文書が検索質問に対して適合かどうかは確率的に決定される」という原理に基づいた検索モデルです。

具体的には、文書 d がクエリ q に対して適合かどうかを表す確率変数を R としたとき適合性の推定確率 P(R=1|d, q) の値を推定し、その値により順位付けを行う検索モデルの組み立てを行います。

確率的基準を用いた検索モデルでは、この P(R|d, q) をどのように定義するか、またその推定のためにどのような仮定を用いるかがポイントになります。ここでは適合/非適合を二値判定で行い、また単語や文書間の独立性を仮定する Binary Independence Model (BIM) を扱います。P(R|d, q) の式から出発し、ベイズ規則で条件付き確率を反転させたあと、BIM のいくつかの仮定を用いて数式を近似します。これによりパラメータを減らしていき、最終的には P(R|d, q) を、「クエリベクトルに対して適合/非適合な文書それぞれに索引語が出現する確率を推定する問題」へと帰着させます。

BIM は仮定が大胆すぎるところ、Okapi BM25 というモデルは BIM に単語の出現頻度や文書長などを加味して性能を改善したモデルです。BM25 についても少し、解説がありました。

確率モデルによる検索モデルは、やろうとしていることはベクトル空間モデルと同じようなモデルとなるのですが、モデルに対し確率論による理論的な正当性が与えられるのが長所だそうです。

理論的背景がしっかりしているモデルによって、それまでヒューリスティクスだと思われていた手法に理論的な正当性が与えられるという話などはとても面白いです。(例えば きまぐれ日記: キーワード抽出: tf-idf の意味づけ では tf-idf に対して、言語モデルが理論的な正当性を与える話が紹介されています。)

それ以外の検索モデル

ブーリアンモデル、ベクトル空間モデル、確率モデル3つ以外の検索モデルとしては

などのモデルもあるそうです。この辺りの全体の俯瞰は IIR ではあまり行われていないところ、情報検索と言語処理 (言語と計算) の第2章が参考になりました。

情報検索と言語処理 (言語と計算)

情報検索と言語処理 (言語と計算)

次回輪講ほか

続く今日の輪読会、第12章は言語モデル (Language Model) を応用した検索についてでした。これまた復習資料の作成が大変そうです。がんばります。次回の輪読会は 9/28 (日) 予定。次回輪読会後、いつも通り復習資料をアップします。

過去の章の復習資料 ppt は同 URL のディレクトリ (http://bloghackers.net/~naoya/iir/ppt/) から一覧可能です。

Introduction to Information Retrieval

Introduction to Information Retrieval

追記

本日の輪読会の様子 → http://chalow.net/2008-09-07-2.html (たつをさん)