Googleでインデックス化されるのに必要な文字数について

インデックス化とは何か?

「インデックス化」とは、Webサイトの情報が検索エンジンのデータベースに登録され、検索結果として表示される(表示される可能性が発生する)ようになることです。

検索結果が表示されるのは、クローラと呼ばれるWeb情報収集プログラムが、様々なサイトを巡回し、「このページにはこんなことが書かれていた」という情報を収集し、分類・格納しているからです。

検索は、この「ウェブ図書館」の司書に本を探してもらうようなものです。集客を目的とするサイト運営者にとって、検索結果の上位に表示される(一押しになる)ことは、来訪者増加に直結するため、インデックス化と順位上げは必須となります。

インデックス化されない主な理由

インデックス化されない、つまりGoogleのデータベースに登録してもらえないページがある場合、主にクロール(情報収集)の段階で問題が発生している可能性があります。

クロールされない理由(Googleガイドより抜粋)

  • サイトがウェブ上の他のサイトから十分にリンクされていない。
  • 新しく立ち上げたばかりのサイトで、Googleがまだクロールできていない。
  • サイトのデザイン上の問題により、Googleがコンテンツを効果的にクロールできない。
  • Googleがサイトをクロールしようとした際にエラーが発生した。
  • ポリシーによって、Googleによるサイトのクロールをブロックしている。

参照元:Googleの「検索エンジン最適化(SEO)スターター ガイド

インデックス化を意図的にブロックする仕様

意図的にインデックス化を拒否し、クローラにページを無視させる方法もあります。これは、テストページや非公開にしたいページで使われます。

クローラにサヨナラする方法(例)

  • メタタグ: `` または `content="none"`
  • robots.txt: サイト全体または特定のディレクトリで `Disallow` を設定
  • Search Console: 「URLの削除」ツールを使用
  • .htaccessなど: HTTPヘッダーで `X-Robots-Tag: noindex` を設定

注意: `robots.txt`でブロックされているページでもクロールされる可能性があるため、機密性の高いページではメタタグやHTTPヘッダーなど、より安全な方法を使用する必要があります。

Googleが「品質が低い」とみなすページの特徴

インデックス化されない背景には、「使いにくくて役に立たないサイトを作ったって、インデックス化するもんか」というGoogleの品質基準があります。以下は、Googleが推奨しない「ダメなページの指標」の一部です。

  • タイトル/description: ページと無関係、キーワード乱用、極端な長さ。
  • 見出しタグ(Hタグ): サイズ変更目的の使用、過度な使用、他のタグで十分な場所での使用。
  • コンテンツ: 他サイトの劣化コピー、内容が重複、キーワード乱用、クローラ用テキストの使用(ユーザー閲覧時には非表示)。
  • 構造/技術: 複雑な構造、iFrame/Flashの使用(特にナビゲーション)、無効なリンク、404ページのインデックス化。
  • テキスト品質: 誤字脱字が多い、文章が下手、レイアウトによる分離をしていない長文。

インデックス化と文字数の考察・検証結果

インデックス化の確認方法

Google検索で `site:xxxx.net` または `site:xxxx.net/~.html` のように検索することで、インデックス化されたページを確認できます。現在は新しい Search Consoleを使う方がより簡単に状況を確認できます。

独自の検証結果と文字数の境界線

約90ページほどの文字数が少なめのページを用意し、被リンクが無い状態でインデックス化を検証した結果、インデックス化されたページのうち、最小文字数は420文字でした(メニュー名などは除く)。

一方で、1,000文字を超えているのにインデックス化されないページも存在しました。この結果から、「400文字以上」が一つのインデックス化の境界線になっている可能性があると考察できます。「800文字は書くように」といった目安が語られることもありますが、インデックス化の最低ラインとしてはそこまで不要かもしれません。

文字数が多いのにインデックス化されない理由

文字数が多いにもかかわらずインデックス化されないページの特徴として、以下の点が挙げられます。

  • コンテンツの重複: 他のページと内容が重複している部分が多い。
  • キーワードの過度な連呼: 意図的でなくても、同じ言葉(例:「バラ科」)が頻繁に繰り返されている。
  • 複数の言語が混在している。

また、クローラはページ内のリンクを辿りますが、多くのリンクがある場合、上から12個目くらいまでがクロール対象の限界になる可能性があるように感じました(被リンク数や階層によって変動)。

※ この検証は広告付き無料ホームページ上で行われたものであり、被リンクが得やすいTwitterのようなプラットフォームとは条件が異なります。