Web担当者であれば、クローラーについて知っておく必要があります。しかし「クローラーとは何のことかよくわからない」「SEOとどのような関係があるのだろう」と思っているWeb担当者も多いでしょう。
水泳のクロールなら知っていますけど、クローラー・・・?
イメージ的に何か回るものなんですかね?
そこで今回は、クローラーの概要や仕組み、SEOとの関係について詳しく解説します。
この記事のレベル
重要度 | (4) |
---|---|
初心者度 | (4) |
難易度 | (2) |
この記事で学べること
- クローラーの仕組み
- クロール対策5選
- クローラーとSEOの関係性
クローラーとは!?
クローラーとは、インターネット上にあるWebサイトやファイルを巡回してデータを収集し、データベースへの登録を行うロボットプログラムのことです。
マナブくんの回るものというイメージは正解だね!あとはしっかり役割を理解しよう!
GoogleやYahoo!、Bingなど、さまざまな検索サイトに組み込まれています。インターネット上をcrawlする(這い回る)ことから「クローラー」と名付けられました。なお、ロボットやスパイダー、ボットとも呼ばれています。
検索エンジンの仕組みの一つ
クローラーは、検索エンジンの仕組みの一つです。Googleをはじめとした検索サイトのほとんどは「ロボット型検索エンジン」を利用しています。ロボット型検索エンジンとは、おもに以下の3つを自動で行う仕組みを指します。
- インターネット上に存在する情報を収集し、データベースに登録する
- データベースに登録された情報をもとに、ページのランク付けをする
- ランクが決定したら検索結果に反映させる
クローラーは、最初の工程である「情報収集」と「データベースの登録」を担う存在です。
データベースに登録済みのWebサイトからクローリングを開始し、リンクを使って各ページを巡回します。
巡回しながらテキストファイルや画像、PDFなどの情報を収集し、データベースに登録します。
以上の流れを繰り返し行うのがクローラーの役割です。
クローラーの役割、「情報収集」と「データベースの登録」はしっかり覚えておきましょう!
クローラーは検索エンジンごとに存在
クローラーは、各検索エンジンに組み込まれています。以下は一例です。
Googlebot | Google、日本のYahoo! |
---|---|
Bingbot | Microsoft社のBing |
Yahoo Slurp | 海外のYahoo! |
Baiduspider | 中国の百度 |
Sogou Spider | 中国の捜狗 |
Yetibot | 韓国のNaver |
YandexBot | ロシアのYANDEX |
AppleBot | Apple社のSiriやSpotlight |
Googleだけでも画像検索を行う「Googlebot-Image」や、モバイル検索用の「Googlebot-Mobile」など複数のクローラーが組み込まれています。
なお、クローラーというと、Googlebotを指すのが一般的です。Googleは世界でトップシェアを誇る検索エンジンであるため、「SEO対策=Google対策」と考えられています。
Googleのクローラーの仕組みとSEOへの影響
Googleクローラーの役割は、Webサイトを巡回してデータを収集したり、集めたデータをデータベースに登録したりすることです。
役割を果たすため、「クロール」「インデックス」「クエリプロセス」の3工程を繰り返しています。
「クロール」の段階で行うことは、Webサイトの巡回と、巡回先のページを解析して情報を収集することです。
リンクをたどりながらさまざまなWebサイトを巡回し、情報を収集し終えたら、データベースに登録します。
データベースへの登録工程が「インデックス」です。
インデックスでは、Googleが独自で決めているランク付け要因(アルゴリズム)が扱いやすい形にデータを変換し、データベースへの登録を行います。
巡回先のWebページごとにデータ解析と登録を繰り返し、データベース内の情報を増やしていきます。
データベースは、例えると図書館のようなものです。
図書館には数多くの本がカテゴリーごとに本棚に収納されています。クロールの工程で世界中の書店から本を集め、インデックスの工程で集めたものを整理しながら収納すると考えると、クローラーの仕組みをイメージしやすいでしょう。
最後に行うのが「クエリプロセス」です。
クエリとは、検索エンジンで調べ物をする際に入力するキーワードのことです。
インデックスされた情報と検索クエリを照らし合わせて、検索結果に表示します。同時にアルゴリズムに従ってWebページのランク付けも行います。
クエリプロセスの工程は、図書館に設置されている「蔵書検索機」に情報が登録されることをイメージするとわかりやすいでしょう。
図書館の利用者が、蔵書検索機に探したい本の情報を入力すると、必要な情報を表示してくれます。同様に、クローラーがクエリプロセスを行うと、ユーザーの検索クエリに沿ったページが検索結果に表示されるようになります。
以上が、Googleクローラーの仕組みです。クローラーは日々「クロール」「インデックス」「クエリプロセス」の工程を繰り返し、検索結果の表示情報を最新に保てるよう動き続けています。
クロールされるファイル形式
Googleクローラーは、おもに以下のファイルをクロールします。
- HTML
- CSS
- 画像(JPEG/PNG/GIF/WebP/SVG)
- 動画(MP4/WebMなど)
- 音声(MP3/MP4/WMAなど)
- JavaScript
- JSONファイル
- xmlファイル
- 地理データ
- シンジケーション
Googleの公式ページでは「その他のファイル形式」もクロールすると記載されています。そのため、上記以外のファイルがクロールされることもあるでしょう。
参照:https://support.google.com/webmasters/answer/9679690?hl=ja#file_type
SEOとの関係
クローラーとSEOは、極めて深い関係です。
先述のとおり、検索エンジンはデータベース内にある情報と検索クエリを照らし合わせて、適切なものを検索結果に表示させています。
データベースはクローラーがインターネット上を巡回・収集した情報で形成されています。
つまり、自社のWebページにクローラーが巡回しない限り、検索結果に表示されることはないのです。
SEOの評価を受けるためにも、クローラーにクロールされることが重要!
時間をかけて手の込んだコンテンツを作成しても、検索結果に表示されなければユーザーの訪問は見込めず、集客につなげることは難しいでしょう。したがって、第一にクローラーに認知してもらうことは必須です。
なお、クローラーは、一度の巡回でサイト内の情報をすべて収集することはできません。
複数回に分けてサイトを訪れますが、その度にページが更新されていたり、ユーザーにとって有益な情報が常に掲載されていたりすると、「クロールの優先度が高いサイト」と判断されます。
優先度が高いとクローラーの訪問頻度が上がり、コンテンツが評価されやすくなるため、SEO効果が見込めるでしょう。
このようにクローラーは、データベースにWebページの情報を登録したり、コンテンツの評価を行ったりと、SEOにとって重要な役割を果たしています。SEOで成果をあげたいなら、クローラーの巡回を促すことは重要だといえるでしょう。
クロール対策を行おう!
ここからは、SEOへの効果が期待できる具体的なクロール対策を紹介します。
XMLサイトマップを登録する
XMLサイトマップとは、サイト全体のマップ(地図)のことです。おもにクローラーに対してサイトの構造やページの情報を伝えます。
通常クローラーは、内部リンクを使用してサイト内のページを巡回します。
しかし、内部リンクが適切に設定できていないと、うまく巡回ができません。また、内部リンクが設定されていたとしてもサイト内のページ数が多く、見落としが起きて巡回しきれない場合もあります。
そこで行いたいのがXMLサイトマップの登録です。XMLサイトマップなら、サイト内にあるWebページの存在をまとめて知らせられるため、効率的な巡回を促せます。特に以下の条件にあてはまる場合は、XMLマップの登録・送信を行ったほうがよいでしょう。
- 大規模なWebサイト(ページ数が500を超える)
- 立ち上げたばかりのサイト
- 外部リンクが少ない
- 内部リンクを設定できていない
- 画像や動画といったリッチメディアコンテンツが多い
なお、XMLマップの登録は「Googleサーチコンソール」から行えます。具体的な方法については以下のページを参考にしてください。
サイトマップとは!?作り方とSEO効果を徹底解説!
Web担当者の中でも疑問が持たれやすいサイトマップについて、どのような種類があり、目的や役割を持つのか、基本的な内容についてわかりやすく説明します。さらにはSEO対策における効果とおすすめツールを用いた作成についてもお伝えします。
内部リンクを設置する
内部リンクは、クローラーの通り道です。そのため、サイト内に内部リンクを適切に設置し、通り道を作ってあげるとクローラーが巡回しやすくなります。
たとえばサイトのトップページにグローバルメニューを設置して、カテゴリーごとのWebページへ内部リンクを張り巡らせたり、HTMLサイトマップを使ってサイト全体のWebページを一覧で表示したりするのが効果的です。
通り道が増えるとクローラーの巡回範囲が広がり、多くのページを認識してもらえるため、SEO効果も高くなります。
注意したいのは、やみくもに内部リンクを増やしすぎないことです。特に、質の低いページへの内部リンクを増やすと、クローラーは無駄な動きが増えるため、価値のあるページまで巡回できなくなる場合があります。
また、「質の低いページが多いサイト」と判断された結果、クロールの必要性が下がり、クローラーの巡回が減る可能性もあるでしょう。したがって、最適な内部リンクの設置が求められます。
わかりやすいURLを設定する
わかりやすいURLを設定するのも、クロールの促進に効果的です。Googleも、URL構造はシンプルにするよう推奨しています。
複雑なURLだとクロールが消費されるため、クローラーの巡回が行き届かなくなり、ページがインデックスされない可能性があるからです。したがって、文字数が短く簡潔なURLにするよう心がけましょう。
具体的には、英単語での設定がおすすめです。クローラーについて解説するページなら「crawler」などとシンプルにします。
記号を使う場合は「-(ハイフン)」で統一してください。「how-to-seo」といった具合です。
URLをわかりやすくするとクロールをスムーズに行えるため、ページがインデックスされやすくなり、結果としてSEO効果が見込めるようになります。
反対に、日本語のURLは避けましょう。日本語はURL化したときに長く複雑になりすぎるため、クローラーが巡回しにくくなります。
URL(パーマリンク)の設定については以下の記事でも解説しているので、ぜひ参考にしてください。
【初心者必見】パーマリンクとは?特徴とWordPressでの設定方法を徹底解説!
WordPressの重要設定項目の一つである、パーマリンクの設定方法がわからないと、お悩みではありませんか?ここでは、パーマリンクを設定する理由や決め方のポイントの他、設定方法や設定後の注意点についてご紹介します。
階層は3階層目までにまとめる
クローラーはWebサイトのクロール時に、階層が浅いページを優先的にクロールする傾向があります。階層を浅くすると、サイト内にあるすべてのページのクロールが早くなる可能性があるため、ページの構造は3階層までにしましょう。
トップページから2クリックですべてのページにアクセスできるのが理想です。1階層目にトップページ、2階層目にカテゴリーページ、3階層目に記事ページという構造であれば、効率的にクロールできるほか、ユーザーにとっても見やすいサイトになります。
なお、階層が深くなりすぎると、「重要なページでない」と判断されてしまい、クローラーが巡回しない場合があるので注意してください。
Googleサーチコンソールでインデックス申請を行う
Googleサーチコンソールでインデックス申請を行うと、クロールのリクエストができます。
XMLサイトマップの送信と同様、優先的にクロールされやすくなるため、Webサイトを立ち上げたときや、Webページの追加・更新を行ったときには申請を行いましょう。
折を見てクローラーが巡回し、最新の情報を収集してくれます。これによりコンテンツの再評価が行われるため、検索順位が上がる可能性があるでしょう。インデックス申請は、Googleサーチコンソール内の「URL検査」から行えます。
Googleサーチコンソールでインデックス申請のやり方と確認方法
GoogleサーチコンソールをSEO対策に活用したいけれど、インデックスの申請や確認のやり方がわからないとお悩みの方も多いのではないでしょうか?ここでは、インデックスの申請方法だけではなく、確認方法もご紹介します。
よくある質問
クローラーが来ません。いつ頃来ますか?
クローラーが来る明確な時期はわかりませんが、数日〜数週間ほどかかるのが一般的です。
特に、更新頻度が高いWebサイトは、巡回ペースが下がる傾向にあります。
なかなかクロールされないときや、新しいページをインデックスしてほしいときは、Googleサーチコンソールからクロールをリクエストしてください。クロールのリクエストは、インデックス申請の方法と同様です。
また、立ち上げから間もなかったり引っ越したばかりだったりするWebサイトの場合は、XMLサイトマップを送信するのがよいでしょう。自動生成ツールやプラグインを活用すると簡単に設定を行えます。
なお、上記2つの方法はクローラーの巡回を促すのに有効ですが、必ずしも巡回時期が早まるとは限りません。ページが検索結果に表示されない場合もあると理解しておきましょう。
クロールしてほしくないページはどうすればいいですか?
クロールしてほしくないページがある場合は、「robots.txt」を設定してください。
robots.txtとは、クローラーの動きを制御するテキストファイルのことです。正しく設定すると、クロールをブロックすることができます。
まとめ
クローラーは、検索結果に表示する情報を収集したりデータベースに登録したりと、SEOにおいて重要な役割を果たすロボットプログラムです。
自社のサイトがデータベースに登録されないと、検索結果に表示されません。
また、検索結果の表示内容を最新に保ち、検索エンジンからの評価を高めるためにも、クローラーの巡回を促す必要があります。
本記事では具体的なクロール対策を5つ紹介したので、ぜひ実践してください。
クローラーの巡回を促して、SEO効果を高めていきましょう。