検索エンジンのクローラーはrobots.txtに従うのか?
クローラビリティ「検索エンジンのクローラーはrobots.txtに従うのか?」と聞かれると何となく「従う」と回答するのではないでしょうか? その通りではあるのですが、決して「命令に従う」訳ではありません。「指示に従う」のです。例えば自社サイトの特定ページをクロールしないようにrobots.txtに記述をします。検索エンジンはrobots.txtの指示に従うのでしょうか?
検索エンジン(といっても代表的なものがGoogleなのでGooglebotを意味します)がrobots.txtについてどう考えているのかはこちらをご覧ください。
▼robots.txt ファイルについて
https://support.google.com/webmasters/answer/6062608
robots.txt ファイル内の指示は、サイトにアクセスするクローラの動作に対し強制力はなく、サイトにアクセスするクローラへのディレクティブとして機能します。Googlebot などの信頼できるウェブクローラは robots.txt ファイルの指示に従いますが、他のクローラも従うとは限りません。そのため、ウェブクローラから情報を継続して保護するには、サーバー上の非公開ファイルをパスワードで保護する方法など、他のブロック方法を利用することをおすすめします。
ディレクティブというのは「指示」という意味です。自社管理のドメインに対する指示ではあるのですが、絶対ではないと。例えば、他のサイトからリンクがあると指示を無視してクロールします。
Google のクローラが robots.txt でブロックされているコンテンツをクロールしたりインデックスに登録したりすることはありませんが、ブロックされている URL をウェブ上の他の場所で検出してインデックスに登録する可能性はあります。その結果、URL アドレスや、場合によっては、サイトに対するリンクのアンカーテキストといった他の公開情報が、Google の検索結果に表示される可能性があります。サーバー上のファイルをパスワードで保護する方法や noindex メタタグまたはレスポンス ヘッダーの使用など、他の URL ブロック方法を使用することで、URL が確実に検索結果に表示されないようにすることができます。
このように明記されています。パスワード制限もなく公開しているページなら検索エンジンのクロールを防ぐことはできません。
クローラーはrobots.txtをきちんと見ているのか?
さてここで私は疑問がありました。実際にrobots.txtをクローラーは見ているのか? robots.txtに記載されている指示を見ていなければ、そもそも用意する必要がありません。結果は調査中なのでまだ不十分な状況ですが、特定の日だけ見るともっと調べてみたくなる数字でした。各検索エンジンのクローラーはこちら。
次に検索エンジン以外のクローラーです。
少し工夫をしてrobots.txtへのアクセスをGoogle Analyticsで計測できるようにしました。とある当日中のものなのですが、robots.txtを見ていないクローラーもいました。行儀が悪いですね。Googlebotはウェブ検索用がアクセスし、スマートフォン用はアクセスしていません。この点はもう少し調べてみたいという欲求が起きました。続きます。
- 執筆者:西部俊宏
- 株式会社Webの間代表取締役。上場企業でのSEOやWebサイト構築実績多数。ECサイトのカスタマイズ経験も多数あり。
- 会社概要はこちら
「ECサイトをより便利にしたい」「もっと集客したい」ECカスタマイズはお任せください