クローラー解析

Crawler Analytics
Googlebotを始め各種クローラーのアクセス解析

ウェブサイトへのアクセスは人間以外にロボットによるアクセスも多いです。ウェブページを巡回するロボットをクローラーとかスパイダーと呼びます。ロボットがアクセスする理由は「ページの存在チェック」から「ウェブページの情報取得(ウェブスクレイピング)」、「PV増加」など様々です。Google・Bingなど各検索エンジンのクローラーはウェブ上でクローラーを巡回させ、ページの情報を取得し解析します。その結果を検索順位のランキング・順位付けに使用します。

Googleクローラーのアクセス状況
Googleクローラーのアクセス状況

では実際にどのくらい検索エンジンのクローラーによるアクセスがあるのでしょうか? Google Analyticsでは検索エンジンのクローラーによるアクセスをあらかじめ除外しています(さらに「ボットのフィルタリング」という項目もあります)。そのため検索エンジンのクローラーのアクセス数はわかりません。Search Consoleのクロールの統計情報を見ると直近90日間のGooglebotの情報が表示されますが、細かい動きはわかりません。

ボットのフィルタリング
ボットのフィルタリング
Search Consoleのクロールの統計情報
Search Console > クロールの統計情報

弊社が開発したクローラー解析ツールでは、この各検索エンジンのクローラーのみ収集します。Google Analyticsと連携できるので、普段見慣れたツールでクローラーの動きを追えます。通常サーバーのログを解析するしかなく、非常に手間がかかる作業が不要になります。

Google Analyticsでの表示
Google Analyticsでの表示

参考までに当サイトのクローラーアクセス状況の推移をまとめました。よろしければご覧ください。

Useful
データ活用方法

クローラー解析ツールを使うと以下のことが実現できます。

  1. クロール状況の把握
    検索エンジン及び各種ツール系のクロール数と頻度がわかります。突然クロール数が増えた時は新しいツールからのアクセスの可能性があります。
  2. 特定アクセスをブロックするための検討材料に利用
    SEOツールなど自社サイトに不要なアクセスが多い時は遮断することもできます。アクセス数が多いもののみ対処することで運用負荷を軽減できます。

Deal
対処方法

ウェブサイトにとって検索エンジン以外の情報蒐集を目的としたクローラーは不要なアクセスといえます。しかし、不透明なアクセスを全て遮断することはユーザーのアクセスを遮断してしまう可能性があります。そのため、サイトへアクセス負荷が高いクローラーに対して「迷惑アクセスお断りページ」を用意して誘導するという対処方法が可能です。特にrobots.txtの指示を無視するようなルールを守らないクローラーは対処を検討すべきでしょう。

「迷惑アクセスお断りページ」へ誘導することの利点は「ウェブサイトに存在しない特殊なアプリケーションやログインページなどを狙うアクセス」に不要な情報を与えずに済みます。ページが存在する(ステータスコード200)、ページが存在しない(ステータスコード404)という情報すらアタッカーに与えずに済みます。

▼迷惑アクセスお断りのサンプル
http://kuragane.jp/decline.html

Function
機能

クローラー解析ツールの機能は以下の3つです。

  1. 検索エンジンのクローラーのアクセスを収集
  2. 検索エンジン以外のロボットのアクセスも収集
  3. 収集した情報をGoogle Analyticsへ送信

主な収集クローラーです。下記以外にも多数収集しており、クローラー情報は常にアップデートしています。

検索エンジン
  • Google
  • 米Yahoo!
  • Bing
  • 百度
  • Haosou
  • sogou
  • DuckDuckGo
  • Yandex
その他サービス
  • Apple
  • Twitter
  • IBM
  • Internet Archive
  • Slack
  • Whois
  • ICC(国立研究開発法人 情報通信研究機構のクローラー)
  • Steeler(東京大学 喜連川研究室のクローラー)
  • Uptime(ネットワーク監視ツール)
  • Turnitin(文章の類似性チェックツール)
  • Proximic(Web広告配信サービス)
  • Socialrank(SNS分析ツール)
SEOツール系
  • Majestic
  • Ahrefs
  • WebMeUp
  • SEMrush
  • XOVI
  • MegaIndex
  • Open Site Explorer
  • SEOkicks
  • Linkdex

View
Google Analyticsでの表示

クローラーによるアクセス情報はGoogle Analyticsで確認できます。Google Analyticsを使用することで、日別・月別に分析したり、比較検証もできます。実際にクローラーのアクセス数を見ると、人間よりも多い場合もあります。サイトの規模が大きくなるとサーバー負荷が多くなるので注意が必要です。

検索エンジンなどクローラーのアクセス状況
検索エンジンなどクローラーのアクセス状況
SEOツール系のアクセス状況
SEOツール系のアクセス状況

▼クローラー解析ツール、クローラーの巡回頻度と閲覧ページを分析
https://www.web-ma.co.jp/column/crawlability/112/

Option
オプション

クローラー解析ツールには以下オプションをご用意しています。詳しくはご相談ください。

  1. IPアドレス取得
  2. アラートメール通知