KOF 2008 の発表資料
KOF 2008 での発表資料「はてな流大規模データ処理」を以下にアップロードしました。
一部参考文献からの引用 (Introduction to Information Retrieval から Vector space model の図、たつをの ChangeLog から転置インデックスの図) があります。この場を借りて感謝。
環境によってはおそらくフォントの表示がいまいちだと思いますが、ご了承ください。
追記: メモリはディスクの 150 倍について
資料中に記載している「メモリはディスクの 150 倍」ですが、これはデータの転送速度の差を表しています。
一方、これは知人から教えてもらったのですが、ディスクとメモリのシークの差はディスクが ms 単位、メモリが ns 単位でその差は数十万倍にもなるそうです。
情報検索でインデックスをディスクから検索するのとメモリ上で検索するのとではこのシーク速度が支配的になり、結果としてメモリ上で計算できると数十万倍以上高速である、と言えるそうです。(CPU の L1, L2 キャッシュがあるので、更に差がつきます。)
大変勉強になりました。