サイトマップをみられた

Googleサイトマップの経過に進展があった。
この話をするために、Googleがサーバーにアクセスする二つUAを区別しておく。
Googlebot/2.1 (+http://www.google.com/bot.html)
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
前者を本物、後者を偽物と呼んでみる。
理由は、本物にクロールされないとインデクスされないから。
Googleサイトマップを作成すると、偽物でのアクセスが増えるが、
偽物でいくらアクセスされても検索結果に表示されることはない。

さて、汁ムゴ魚ではより多くの記事をGoogleの検索結果に表示させるために、
Googleサイトマップに個別記事ページを全部羅列させるように、rNoteを改造した。
羅列しているのは個別の記事で、月別や日別のページ、カテゴリは羅列してない。
記事:rNoteでGoogleサイトマップ
もし、Googleがサイトマップが有効ならば、
月別や日別のページより個別の記事にアクセスするはずだが、ログを取っても気配はなし。
いつも通り、トップからURLをたどったような順番で偽物クロールされている。
そこで、トップからURLをたどっても到達できない、404なページをサイトマップに追加。
記事:Googleサイトマップに細工
サイトマップ本体は毎日数回取得される物の、404ページへのアクセスはなく、
しばらく待って、昨日ようやくこの404ページに偽物クロールが訪れた。
ただし、その他のページと共に一斉にクロールとかはしないらしく、
サイトマップに書いてあるページは少しずつ日を改めながら見ていくらしい。
また、偽物クロールは来たが、本物クロールは来ていない。
これが、今回あったGoogleサイトマップの経過進展の全てだ。

欲しいのは本物のクロールであり、偽物のクロールでは意味がないし、
実際に、検索結果に表示される記事数は増えていない。むしろ徐々に減っている。
今回の偽物でのアクセスも、インデックスのためではなく調査のためかも知れない。
そこで、404でインデックスされないページではなく、実際に隠しページを作成し、
入口からいけないページがインデックスされるか試してみたい。
やり方は、これまでと同様にサイトマップにコッソリ追加して待つだけ。

この実験が成功すれば、それと同時に全記事インデックスも達成出来るはず。

B00016BAMK
B00016BAMK

たぶん関連のある記事:

コメントは終了しています。