Introduction to Information Retrieval #10 の復習資料

Introduction to Information Retrieval 輪読会 10章の復習資料を以下にアップロードしました。

10章は、は "XML retrieval" です。XML が題材になっては居ますが、実際には XML がどうこうというよりも、構造化されたドキュメント (structured document) に対して IR システムを拡張しようとすると、どのような困難があるか、それをどのように解決すべきか、拡張された IR システムはどう評価されるべきか、という話が主だったところです。

対象が structured な物である場合「その構造の中のどの部分を検索結果として返却すれば良いか」など、自明でない点が出てきます。XML retrieval であれば、XML document のどのサブツリーを返却するのが良いのかはケースによって異なります。

この辺りの問題を Vector space model の次元を拡張することで対応します。具体的には、ベクトルの成分をフラットな辞書の単語のリストから、XML path と term の pair である structured term に拡張します。ベクトル成分が拡張されたところで、内積計算も、単語の構成が似ているかどうかに加えて、構造が似ているかどうかが加味されるよう Context resemblance 関数で拡張します。

XML retrieval システムの評価では、文書の内容が relevant であるかどうかに加えて、返却された検索結果が構造的に期待したものとどの程度一致しているかも考慮します。そのため、これまで relevant or non-relevant の二値判断であった評価軸に、構造を評価する軸を加えた評価関数 (relevance-coverage combinations) を利用して recall, precision, F measure などを算出します。

次章の内容は、Probabilistic information retrieval です。確率的情報検索、つまり確率統計を応用した検索システムについて、その基礎固めの章です。例によって数式が盛りだくさんで勾配がきつくなってきましたが、ここを乗り越えられるかどうかで差がつきそう。がんばりたいところ。

次回の輪読会は少し間を置いて 9/7 (日) 予定。たつをさんから夏休みの宿題もでました。次回輪読会後、いつも通り復習資料をアップします。

過去の章の復習資料 ppt は同 URL のディレクトリ (http://bloghackers.net/~naoya/iir/ppt/) から一覧可能です。

Introduction to Information Retrieval

Introduction to Information Retrieval