クローラーとインデックスの関係

クローラーとインデックスの関係についてお伝えしておきたいと思います。

まずクローラーとは、何?という方に対して簡単に説明します。
クローラーとは、GoogleではメインのクローラーをGooglebotと呼んでおり、ウェブサイト(ウェブページ)を自動的に検出してスキャンするプログラムの事をこのように呼んでいます。主にはリンクをたどる事で、新しいサイトやページを検出しています。

クローラーの巡回状況などは、Googleウェブマスターツールから確認ができますので、ご利用してみて下さい。

そして、インデックスとは、牽引と言う意味ですが、ここでのインデックスとは、Webページがデータベースに格納されるという理解を持って下さい。
データーベースに格納されたWebページが検索エンジンで検索した結果として表示される事になります。

では、クローラーとインデックスの関係について、意外にもクロールされたらインデックスされると思い込んでいる方も多いようですが、必ずインデックスがされる訳ではないという事です。

簡単な順番としては、
□ クローラーが巡回してWebページの情報を集めます。
□ 次に、その情報を一時キャッシュし、インデックスします。

ですが、キャッシュとインデックスは、また別と言われており、キャッシュされたから必ずインデックスされるという事でもないようです。(逆もしかりです)
この辺は、真意と言うか、伝え方が非常に難しいので、こんな感じでスミマセン。

そして、ここから言える事は、クローラーが情報を集めたからといってインデックスがされる訳では無いという事です。
ここの理解を間違えないでほしいと思います。

検索エンジンは、Webページをクロールした上で、、インデックスさせるのか、させないのかを色々な指標によって判断しています。

また、自身のサイトにて“noindex”や“nofollow”タグを入れている場合では、こちらからインデックスを拒否しているのと同じようなことなので、インデックスされないという事になるでしょう。
Wordpressを利用されている場合では、これ以外にも拒否しているケースがありますので、注意して下さい。

クローラーとインデックスの関係については、次回も引き続きお伝えしたいと思います。