[SEOクローラー対策]どのクローラーがrobots.txtの指示を無視しているのか?
クローラビリティインターネットの世界では検索エンジンを始め、SEOツールなど多種多様な目的でクローラーが徘徊し情報を収集しています。法律の専門家ではないので正しい解釈ではないかもしれませんが、ウェブ上でクローラーがコンテンツを収集するスクレイピング自体は問題ありません。以前、某図書館の蔵書検索システムを使いやすくするためのシステムを開発した方が逮捕されるという事件もありましたが、最終的に不起訴となりました。
ウェブ運営者がクローラーへ向けた対策としてrobots.txtというものがあります。robots.txtにクロールを拒否する命令を記述するというものです。しかし、robots.txtの内容はあくまで指示にしか過ぎません。クローラーによってはrobots.txtの指示に従いません。参考までにGoogleのヘルプにも注意が記載されています。
robots.txt ファイル内の指示は、サイトにアクセスするクローラの動作に対し強制力はなく、サイトにアクセスするクローラへのディレクティブとして機能します。Googlebot などの信頼できるウェブクローラは robots.txt ファイルの指示に従いますが、他のクローラも従うとは限りません。そのため、ウェブクローラから情報を継続して保護するには、サーバー上の非公開ファイルをパスワードで保護する方法など、他のブロック方法を利用することをおすすめします。
▼robots.txt ファイルについて
https://support.google.com/webmasters/answer/6062608
感情的に考えると「おかしいではないか」と思います。法律的な解釈として正しくないかもしれませんが、robots.txtに従わないといけないという法的な根拠はないようです。(会員制コンテンツは利用規約に従います。また、パスワードで制限しているページは作者の許諾が必要となるようです)
そもそもクローラーはrobots.txtを見ているのか?
前置きが長くなりましたが、robots.txtに従うかどうかという以前に、そもそもrobots.txtを見ているのかどうか気になりました。従う気があるのならrobots.txtを見ないといけません。なので、対策前の情報収拾としてSEOツールをはじめどのクローラーが行儀の良いのかを調べてみました。調査期間は1ヶ月です。わかりやすくするために2017年1月1日〜31日に調査しました。まずは以下準備を施しました。
- robots.txtへアクセスがあった場合に計測できるようにした
- Google Alanyticsで「robots.txt」へアクセスしたセッションとそうでないものをセグメントした
正しい計測ができているはずです(細かくは割愛します)。その結果がこちらです。
robots.txtを見ているセッションと見ていないセッションの差が一目瞭然です。このように多くのセッションでrobots.txtを見ていませんでした。ただし、当日内であれば改めてrobots.txtを見る必要がないかもしれないので、全てのクロールでrobots.txtを見る必要はないかもしれません。この辺はサービスごとに考え方が異なるでしょう。
クローラー別のrobots.txtアクセス
ではクローラー別に見てみましょう。長くなるので上位10位まで公開します。
Googleやbing、米Yahoo!、Yandexなどの検索エンジンは定期的にrobots.txtを見ています。意外だったのはMajesticやAhrefsといったSEOツールがrobots.txtを見ていることです。ルールに従う意思があるのでしょうね。MajesticやAhrefsにはクローラー対策ができそうです。
また、スマートフォン用のGooglebotはrobots.txtを一切見ません。この結果には驚いているのですが、おそらく現状がデスクトップファーストでモバイルはセカンドプライマリだからかと推測します。ただ、だからといってスマートフォン用のGooglebotを拒否できないとは考えづらく、おそらくウェブ検索用のGooglebotを拒否すれば同時に従ってくれるのではないでしょうか。そのための実験をする意思がないので確実なことは言えませんが。ただ、モバイルファーストへ切り替わった場合は動きが入れ替わるように感じます。その時は「スマートフォン用のGooglebotしかrobots.txtを見ないのでは?」と推測します。
- 執筆者:西部俊宏
- 株式会社Webの間代表取締役。上場企業でのSEOやWebサイト構築実績多数。ECサイトのカスタマイズ経験も多数あり。
- 会社概要はこちら
「ECサイトをより便利にしたい」「もっと集客したい」ECカスタマイズはお任せください