?ref=rss とか ?rss とか

ページへのアクセスが、RSSフィードからのアクセスかどうかを判定するためにフィード中の Permalink (link エレメント)の末尾に ?ref=rss や ?rss といったクエリパラメータを追加しているサイトがあります。

はてなブックマークのように、URLをキーにして同じページをほげほげしている人の数を数える、なんてことをしているアプリケーションにとっては、この ?ref=rss や ?rss が少し曲者で、?ref=rss つきのブックマーク、そうでない方のブックマークは、本来同一のコンテンツなのに別のページとみなされてしまうからです。

同様の問題にリダイレクタの問題があります。リダイレクト元とリダイレクト先、最終的には同じコンテンツなのですが、URLをキーにすると別物として扱われてしまう。ただ、リダイレクトはリダイレクトが完了した最後のURLを扱えばこの問題は回避できます。(はてなブックマークのリダイレクタ対応は今日完了しました。)

?ref=rss や ?rss への対応ですが、ad hoc に cnet.co.jp では ?rss を取る、みたいなフィルタをメンテしていくという手もあるのですが、いずれ対応しきれなくなるのは目に見えているので、なんとかシステマティックに解決したいところ。パラメータ名のデファクトみたいなのを決めて、それを strip しちゃうというのがいいのか、どうなのか。そんなものを勝手に決められたらたまらん、という見方もあるでしょうし。