Introduction to Information Retrieval #7 の復習資料

Introduction to Information Retrieval 輪読会 7章の復習資料を以下にアップロードしました。

7章の前半は、6章に引き続きスコアリングの話題です。Vector space model での内積計算を真面目にやろうとすると計算量が膨大になるため、いくつかのヒューリスティクスを導入して計算量を削減します。cos 類似性算出のアルゴリズムの見直し、idf や tf あるいは静的なドキュメントの何かしらのスコア (例えば PageRank のようなもの) を使って計算対象のドキュメントを足切りする、Impact ordering により cos 類似計算のループ回数を削減する、などの手法が紹介されています。

後半では、7章までに紹介されてきた各種コンポーネントを統合して、検索エンジンシステムとしての全体図を俯瞰します。その全体図を用意するに前に、段階的インデックス、構文解析、スコアリングの統合、単語の近接度によるスコアの調整などについても触れています。

次回の輪読会は 7/5 予定です。次章の内容は、検索結果の評価方法について。検索システムによって得られた検索結果が妥当なものかどうかを判定する幾つかの数学的評価手法についての検討です。数式が色々と出てきて苦しい章でしたが、7/5 までにまとめられるよう頑張ります。

過去の章のアーカイブは同 URL のディレクトリ (http://bloghackers.net/~naoya/iir/ppt/) から一覧可能です。

余談

今日の輪読会会場は渋谷はマークシティ IBM Software Center of Competency でした。IBM のサーバー製品が展示されていたので、見学させていただきました。こんなことならデジイチを持参すればよかったと後の祭り、ケータイの画質で失礼します。

みんな興味津々。

オープンメインフレーム z サーバー。メモリ 256GB、CPU 12発とのこと。