無断複製コンテンツ対策（ウェブスクレイピングを防ぐには）

クローラビリティ

Googleを始め検索エンジン各社は検索対象となるウェブページを集めるためインターネット上にクローラーを巡回させます。クローラーはウェブページの情報を収集し、URLをリスト化します。そして集めたウェブページを解析しコンテンツを分析、ランキング付けをします。このように検索エンジンは自社の検索サービスで使用するためにクロールしますが、この集めたコンテンツを盗用する目的のクローラーもいます。

無断複製コンテンツはGoogleのガイドライン違反

▼無断複製されたコンテンツ
https://support.google.com/webmasters/answer/2721312

コンテンツを盗用されると自社ウェブページのテキストで検索をした時に自社以外のページが表示される可能性があります。自社サイトに対する検索エンジンの評価が高くない時にはコンテンツ評価が逆転する場合もあり得ます。Googleは著作権の侵害を判断はしません。Googleが提供している検索サービスは公共性が高く感じられますが、あくまで営利企業が提供しているサービスです。権利を侵害している場合は別途申し立てる必要があります。

▼Google からコンテンツを削除する
https://support.google.com/legal/troubleshooter/1114905

なお、コンテンツの削除申請は必ずしも通るとは限りません。こちらのページにGoogleが受け取ったコンテンツ削除のリクエストとその結果が例が掲載されています。

▼著作権問題によるコンテンツの削除リクエスト
https://www.google.com/transparencyreport/removals/copyright/

コンテンツの無断複製を未然に防ぐことは可能なのか？

コンテンツを複製するためにはクローラーを利用し自動的に行います。インターネット上をクローラーがコンテンツを自動収集し、それをそのまま、もしくは加工して複製します。普通にウェブサイトを運営しているとこのクローラーによるウェブスクレイピングを防ぐことはできません。検索エンジンから集客したいけれどもコンテンツ盗用を未然に防ぐにはそれなりに準備と対応が必要です。

①トラフィックを調査する: ページの要求履歴をログとして残していれば、そのログを解析します。ウェブサーバーの設定によりますが、一般的にはログファイルを生成しているはずです。そのログから不適切なアクセスを見つけます。
②特定のアクセスを遮断する: 不正アクセスの発信元が判明できれば、そこからのアクセスをブロックできます。.htaccessでIPアドレスやホスト名でアクセスを制限します。
▼ホスト/IP 制限
http://mikeneko.creator.club.ne.jp/~lab/web/htaccess/access.html

①の作業はたくさんのログからどのアクセスが不適切なのかを探し出すことが大変でしょうね。弊社ではウェブアクセス中のクローラーのアクセスのみを抽出し解析するツールを提供しています。Googlebotを始め検索エンジンやSEO目的など、クローラーの動きを解析します。Google Analyticsと連携するので、不適切なアクセスがあった場合にわかりやすいです。日々ウォッチしていると本当に多種多様なクローラーが巡回していることがわかります。

執筆者：西部俊宏: 株式会社Webの間代表取締役。上場企業でのSEOやWebサイト構築実績多数。ECサイトのカスタマイズ経験も多数あり。; 会社概要はこちら

「ECサイトをより便利にしたい」「もっと集客したい」ECカスタマイズはお任せください

ECサイトのカスタマイズについて