Google Sitemaps

Google Sitemaps is an easy way for you to help improve your coverage in the Google index. It's a collaborative crawling system that enables you to communicate directly with Google to keep us informed of all your web pages, and when you make changes to these pages.

GoogleGoogle Sitemaps というサービスを公開しました。サービスというより、Googleサーチのための補助ツールといった感じで、自分のサイトのサイトマップを決められた XML フォーマット(あるいはシンプルなテキスト)で用意しておけば Googlebot がそこをクロールしてインデクシングしてくれますよ、といったところです。

より詳細な話は

Googleサイトマップ(Sitemaps)という新しいツールのβ版を公開した(今のところ英語版のみ)。これは、Googleがウェブページを巡回するときに「取りこぼし」のないよう、サイト管理人側でURLの一覧を提供できるというものだ。

と松永さんが全訳とともに掲載してくださっているのでそちらを参照。

インデクシングされにくかったコンテンツを取りに来てもらえる手段ができたのは喜ばしい反面、素直にサイトマップの提供手段として使おうとすると、諸手を挙げてウェルカムという感じでもないなあ、というのが率直な感想。

自分専用のサーバーに Movable Type のようなスタンドアロンCMS をインストールしていて、かつサイトマップファイルをスタティックな HTML として吐き出せる仕組みであればそれほど問題ないのですが、はてなダイアリーのように、何十万人もユーザーがいてさらに動的生成だとどうしても負荷の問題が出てきてしまいます。全ユーザーの全記事を動的にデータベースからサイトマップファイルへのアクセス毎に読み込んで表示、というのは結構きつい。(TypePad の archives.html は MT と異なりデフォルトでは全件出力ではなく月別リンクの表示しかしないのも、ASP タイプで全記事を毎度読み込むことに負荷がかかるためなんでしょう。)

といった感じで、全件表示のサイトマップとしては微妙だな...と思うのですが

Q: My site has tens of millions of URLs; can I somehow submit only those that have changed recently?
You can list the updated URLs in a small number of Sitemaps that change frequently and then use the lastmod tag in your Sitemap index file to identify those Sitemap files. Search engines will then incrementally crawl only the changed Sitemaps.

とあるように、インクリメンタルにクロールしてくれるそうなので、最新の数記事のリンクを含めたサイトマップファイルを用意してやって、それを登録するという使い方がいいのかなとも思います。つまり、過去のアーカイブを全部インデクシングしてもらうために使うというより、新しいエントリを確実にクロールしてもらうために使うといった感じかな。ユーザー全員に Google Sitemaps に登録してもらうとかは大変ですが、HTTP GET でサイトマップファイルのありかを通知できるので、そこも自動化できそう。

なんとなく、この使い道なら RSS + weblogUpdates.ping みたいな既存の仕組みでできちゃうっぽい。blog のみを想定した仕様じゃないので、独自の XML 文書(とはいっても RSS から XSLT で簡単に変換できそう) + HTTP GET でほげほげ、というものになってますが、そこは Blogger も持ってる Google さんが足並み合わせてくれてたら楽だったのになあ、とも思いました。