クローリングとパース

クローラビリティ
解析

クローラーは主な動きとしては、ページの存在チェックをし存在する場合はHTMLを取得するクローリングと、HTML解析するパースです。
JavaScriptの実行はパースが行い、クローリングの時には実行されません。これはIMGタグの読み込みも同様です。

クローラー(ここではGooglebotを指します)は保有しているWebページの URL リストに基づいてクロールします。クローリング対象とするにはウェブページの URL リストに載ることです。施策としては既にクロール対象のページからリンクを貼る、sitemap.xmlに記載して通知する、など。

▼Google 検索の仕組み
https://support.google.com/webmasters/answer/70897

そしてパースですが、HTMLの解析というのは結構大変なことです。HTMLが文法的に正しくない状況でもブラウザの表示上は大丈夫だったりします。閉じタグがない、入れ子構造が間違っている、とか結構ありがちですよね・・・。こちらの記事にもある通り、HTMLパースは大変そうなことが感じられればと。

▼PHPでHTMLをパースして解析する簡単な方法
http://blog.katty.in/1400

さて、このパースを行うことでWebページについて解析できます。「タイトルタグのテキストは何か」「見出しタグのテキストは何か、いくつあるのか」「画像があるのか、altに設定されている情報は何か」などなど、HTMLタグに記述された情報を取得します。HTMLコーディングが適切かどうかでパースされる情報が変わります。適切かどうかという表現は曖昧な言葉ですが、SEOとして言うとWebページの対策キーワードとマッチしているかということです。読み物として面白いかどうかという視点は外します。

クローラビリティはクローリングとパースに最適化するための施策です。具体的にはHTMLの文法に沿ったコーディングは当然のこと、ページテーマ(対策キーワード)・付加情報のHTMLタグの選定をします。そして読み込み速度を軽減します。読み込み速度はWebページの作り方や画像の用意の仕方に加えてサーバー設定も影響があります。今のサーバーではどこまで対処できるのか、サーバー移転をするならばどのサーバーを選定しどう設定するのか。キーワードとリンク以外にも、現状まだまだいくらでも対策は可能です。

西部俊宏
執筆者:西部俊宏
株式会社Webの間代表取締役。上場企業でのSEOやWebサイト構築実績多数。ECサイトのカスタマイズ経験も多数あり。
会社概要はこちら

「ECサイトをより便利にしたい」「もっと集客したい」ECカスタマイズはお任せください