Introduction to Information Retrieval #9 の復習資料

Introduction to Information Retrieval 輪読会 9章の復習資料を以下にアップロードしました。

9章は、検索結果の適合性を改善するするための二つのアプローチ、Relevance Feedback (RF) とクエリ拡張についての話です。

検索結果のドキュメントに対してユーザーから追加の入力 (Relevant か Non-relevant か) を受け取るのが RF です。受け取ったフィードバックは、ベクトル空間でベクトルの重心を使ってクエリベクトルを最適化することに利用できます。最適化のアルゴリズムとして Rocchio アルゴリズムを利用します。ただし、特に Web 検索などにおいては、ユーザーは明示的なフィードバックを好みません。そこで、ユーザーからの入力なしにフィードバックを行う Blind relevance feedback、クリックストームやリンク構造など外部の情報をフィードバックとみなして利用する Indirect relevance feedback などが紹介されています。

クエリ拡張は、Yahoo! Japan での検索結果で見られる追加の検索クエリのリスト、Google の「もしかして」機能などに代表される、クエリに対する追加の入力です。人手で辞書やシソーラスを作って利用する方法、ドキュメント中の単語の共起からシソーラスを自動で構築する方法、クエリログを解析する方法などの概論が紹介されています。(スペルミスの校正については3章で解説済みです。)

次章の内容は、XML retrieval。XML で構造化されたテキストドキュメントに対する検索の話です。次回の輪読会は 8/3 予定ですので、その後いつも通り復習資料をアップします。

過去の章の復習資料 ppt は同 URL のディレクトリ (http://bloghackers.net/~naoya/iir/ppt/) から一覧可能です。

余談

今日の輪読会の会場は東工大大岡山キャンパスでした。大岡山キャンパスでは 「光で拡がるネットワーク」と題した展示会が開催されていて、面白そうだったので待ち合わせの時間前に少し見学してきました。

光通信に利用される原理を理解するための様々な装置が展示されていました。発光ダイオード半導体レーザーの波長の違いを実際に見学できる装置、ファイバの中を光が伝わっていく様子が見られる全反射実験の装置、45年前に出展されたレーザと光ファイバを使ったオーディオ通信装置の復元などが展示されていました。原理は知っていても、実際に動く物を見ると全然違うものですね、とても面白かったです。待ち合わせ時間がきてしまいゆっくり見られなかったのが残念。

余談2

Introduction Information Retrieval の書籍が刊行されたようです。

Introduction to Information Retrieval

Introduction to Information Retrieval

Amazon から発送通知メールが来ていたので、そろそろ届くころでしょう。