Googlebotはリファラーを渡さない、常にダイレクトにURLにアクセスする

[レベル: 上級]

Googlebot はリファラーを渡しません。
常に、URL に直接アクセスしてきます。
したがって、参照元に基いて Googlebot のアクセスをコントロールすることはできません。

ウェブページにアクセスするときには Googlebot はリファラーを送らない

Googlebot がリファラーを送出しないことは、以前にも説明したことがあります。

しかし、5年以上も前であること、また Google から直接聞いた情報ではありませんでした。

この情報が正しいことを確認する必要が出てきたため、Google の John Mueller(ジョン・ミューラー)氏に、「Googlebot はリファラーを送らないと理解しているが、正しいか?」と尋ねてみました。

次のような回答を得られました。

ウェブページに対してはそのとおりだ。埋め込みコンテンツ(スクリプトやCSSなど)に対しては、リファラーを含んでいたのではないと思う(ログを調べてみてほしい)

ということで、Googlebot はリファラーを渡さないということが確かめられました。
ただし、CSS や JavaScript などの埋め込みコンテンツの場合は渡すようです(僕は自分ではまだ調べてないのですが、知人に聞いたところではジョンが言うとおりになっているようです)。

Googlebot はリンクをたどらない

「Googlebot がリンクをたどって……」という表現をしばしば耳にします。
僕もよく使います。

しかし、僕たちがネットサーフィン(死語?)するように、文字どおりにリンクをたどるわけではありません。

Googlebot は、ウェブページの HTML をクロールして取得したときに、リンクの情報も取得します(厳密に言えば、リンク情報を解析するのは Googlebot ではなく Caffeine)。

そして、クロールすべきリンクのリスト(のようなもの)を作成します。
リンクリストに基づいて、Googlebot は各 URL に直接アクセスします(通常は、米マウンテンビューから出動)。

つまり「Twitter から来た Googlebot」や「はてなブックマークから来た Googlebot」というものは存在しません。
いつでもダイレクトにやって来ます。

したがって、参照元サイトに基づいて Googlebot を制御するのは不可能ということになります。

なおクロールする URL の優先順位は ”crawl rate” や “crawl demand” などの状態によって変わってきます(詳細は、“クロールバジェット”の公式解説記事を参照)。

この記事で説明したことはおそらく、普段のサイト管理では意識する必要がない情報です。

それでも参照元、言い換えればリファラーに基いて Googlebot のアクセスをコントロールしたいと考えるサイト管理者がいるかもしれません(実際にいたのでジョンに確認したわけです)。
残念ながら、その要望は実現できません。