Googleでインデックス化されるのに必要な文字数について

「文字数が多くないページは、インデックス化されない」なんて話を聞いたことはないでしょうか。「つーか、インデックス化って何よ」という人のために説明しますと、ウェブサイトの情報が検索エンジンのデータベースに登録され、検索結果として表示されるようになること。正確には、表示される可能性が発生すること。

検索すると、入力したキーワードに応じてページが表示されるのは、クローラと呼ばれるウェブ情報収集プログラムが、いろんなサイトに行って「このページには、こんなことが書かれていたよ」というのを記録しているからです。

集められた記録は内容ごとに分類され、図書館の本のように格納されます。「検索する」というのは、このウェブ図書館の司書に、「XXの本を探して」と頼むようなもの。本の代わりに、格納されたデータの中から、XX情報が得られるサイトを教えくれます。

よく「XXで検索したら1位に表示されてヒャッホー」とか言っているのは、ウェブ図書館の司書が「XX」分野の一押しにしているから、ということになります。一押しになると来訪者が増えるので、集客したい人は順位上げに必死なのです。

ところが、このウェブ図書館に格納してもらえない本がある。それがインデックス化されないページ……ということで、「どうしてインデックス化されないのか」について思うところを書いていきます。

インデックス化されない理由

【クロールされない理由】
①サイトがウェブ上の他のサイトから十分にリンクされていない。
②新しく立ち上げたばかりのサイトで、Googleがまだクロールできていない。
③サイトのデザイン上の問題により、Googleがコンテンツを効果的にクロールできない。
④Googleがサイトをクロールしようとした際にエラーが発生した。
⑤ポリシーによって、Googleによるサイトのクロールをブロックしている。

上記のことが、Googleの「検索エンジン最適化(SEO)スターター ガイド」に書かれています。その辺の胡散臭いSEO本を読むなら、検索エンジンの開発&提供元であるGoogleのガイドを見た方が良いでしょう。

インデックス化されない仕様

【クローラにサヨナラする方法】
①メタタグで「content="noindex,nofollow"」または「content="none"」
②「robots.txt」で「Disallow」
③「Search Console」で「URLの削除」
④「.htaccess」が使えるようなら「X-Robots-Tag」

※「robots.txt」によってブロックされているページでもクロールされる可能性があるので、機密性の高いページではこれよりも安全な方法を使用する必要があります。ついでに、「content="noarchive"」も書いておきますか。クローラにデータを格納するなと伝えるタグです。

Googleが「やるな」と言ってること

【ダメなページの指標】
①タイトル:ページと無関係、無題、同一タイトルの複数使用、極端に長い、キーワード乱用
②description:ページと無関係、キーワード乱用、一般的過ぎる説明だけ、ページ内容のコピペ、短すぎ&長すぎ、同一内容の複数使用
③見出しタグ:他のタグの方が適している場所で使用、サイズを不規則に変える、過度の使用、非常に長い、書式変更目的、
④コンテンツ:構造が複雑、過度に細分化、iFrameの使用、Flashの使用(特にナビとして)、無効なリンク、ページのリスト、404ページのインデックス化
⑤URL:不必要なパラメータやセッションIDを含んでいて長い、キーワードを詰め込んで長い、サブカテゴリが深い、無関係なディレクトリ名
⑥テキスト:誤字脱字が多い、文章が下手、小見出しやレイアウトによる分離をしていない長文、他サイトの劣化コピー、内容が重複、キーワード乱用、クローラ用テキストの使用(ユーザー閲覧時には非表示)
⑦リンク:「ここをクリック」的なアンカーテキスト、リンク先に関係のないテキスト、無駄に長い、通常テキストと同じ書式、キーワード乱用
⑧画像:一般的なファイル名の使用、極端に長いファイル名、「alt」でのキーワード乱用や本文のコピペ

端的に言えば、「使いにくくて役に立たないサイトを作ったって、インデックス化するもんか」という話。次項からは、インデックス化と文字数の考察が始まります。

インデックス化チェックと文字数の考察

【インデックス化の確認方法】
①サイトのURLをコピー
②「Google」で「site:xxxx.net」といった感じで検索
③インデックス化されたページが表示される。または、ページが表示されない。
※「xxxx.net」までだと、インデックス化されているのに、表示されないページもあります。その際は、「HTML」ファイルだったら「~.html」までアドレスを入れると、インデックス化されているか否かがわかります。
「新しい Search Console」だと、もっと楽に調べられます。BETAって書いてるので、アテにしていいのかアレだけど。何というか、canonicalタグにうるさい子になった印象。

約90ページほど、文字数が少なめのページを用意し、インデックス化を検証してみました。その結果、インデックス化されたページのうち、最小文字数は420文字という結果に。なお、ページリンクの為のメニュー名等は除きます。一方で、1,000文字を超えているのにインデックス化されないページもありました。

どれもHTMLページで、被リンクはありません。ドメイン&ファイルの階層は、このページと同じです。外れ値のようなものは あるかもしれませんが、全体を見て思うに「400文字以上」というのが、ひとつの境界になっていると考えられます。800文字は書くようになんて話を聞きますが、そこまで書かなくてもいいようです。

文字数が多いのにインデックス化されないページの特徴としては、複数の言語で書かれているもの。英語関連のページじゃないのに、「サイト(site)」みたいな書き方が続くのは問題かも。他には、同じ言葉が頻繁に繰り返されている、他ページと重複する内容がある等々。

なので、キーワードの乱用を意図していなくても、分類的に連呼する場合は気を付けましょう。例えば、バラ科の何々という説明が続くとき、何度も「バラ科」と出るのは、よくないかもしれません。

また、クローラはページ内のリンクを辿る性質を持っていますが、幾つもリンクがある場合は上から12個目くらいまでが限界のように感じました。もちろん、被リンク数や階層等にもよるでしょうが……。

これは広告付き無料ホームページでの検証です。Twitterのツイートのように、短い文章でもインデックス化されている場合もあります。そもそも、Twitterの場合、過去ログ系サイトも含め、被リンクが得やすいことが大きいでしょう。