キャッシュのないインデックス

Googleでsite:wantech.ikuto.comを検索すると、日本語のページを検索で130件なのだが、
ウェブ全体から検索だと178件になっている。
別に日本語以外で48ページ作ったわけではない。
これらのページは検索結果にURLしか表示されず、キャッシュを見ることが出来ない。
おそらくGoogleが日本語のページだと判断するためには、
キャッシュに日本語が含まれていることが必要という事で間違いない。
だからキャッシュがなくてURLだけ出るページは、日本語ページと見なされないのだ。

正常に検索結果に表示されるまでのプロセスを細かくわけてみる。

↓別のページからのリンクなどで、URLをGoogleに伝える。
↓そのURLにアクセス可能かどうかを調べられる。
↓ロボットがページをGETする。
↓持ち帰ったページにnoindex等の拒否がないかとか調査される。
↓検索の対象となるため、キャッシュとして蓄積される。
↓他のページとの関連を精査され、順位に影響する計算が行われる。
↓ユーザーの検索と内部の照合で並べ替えられて検索結果となる。

というわけで、ロボット訪問の痕跡があれば即検索結果に出るわけではない。
たとえばnoindexとか書けばURLだけの表示になるし、
rssフィードの様に非HTMLだった場合もURLのみの表示になる。
GETに失敗した場合とかもURLはインデックスされるようだ。
それ以外でURLしか出ないページってのはどんな条件があるのだろうか。
site:wantech.ikuto.comの場合は日別アーカイブがURLのみになっているので、
サイト管理者がどうでもいいと思っているページであることがバレてるんだろうかと。
だが、10月の記事6件がURLになってるのでそうとも限らないし。
URLすら表示されない記事、URLだけの記事、キャッシュのある記事、その違いは?
ロボットは全てのページをGETした上でふるいにかけているのか、
または、GETすらしてないページがあるのか、どちらにしても基準はなにか?

汁ムゴ魚の場合は、先日の改造で全記事が平等に評価されるようにしたし、
ほとんどその改造後のキャッシュに置き換わり、補足結果も出なくなった。
rNoteのアーカイブ
たくさん並べてしまえ
検索結果に出ないページは、その原因となる何らかの障害を取り除くことにより、
全てのページが表示されるであろうと期待して対策したわけだが、
結局ページ数は増えずに、推測不可能な間引きが起こって調節されているようだ。
それで、日別やら月別やらより個別記事のページを優先して貰うべくさらに対策。
まばらキャッシュ
rNoteでGoogleサイトマップ
で、対策が効いているか実験中。
Googleサイトマップに細工
でも、昨日のログではサイトマップに関係なくGooglebotが来ていて、
サイトマップ自体も数時間おきにGETされるがテストページへのアクセスは無し。
良い状況ではないな。

B000ALVX6Y
B000ALVX6Y

たぶん関連のある記事:

コメントは終了しています。