アーカイブ
そのサイトマップの件もあって、久しぶりにオロカとイケドリを見てみたんだがね。
イケドリの方はなんか誰かの住所氏名書いてるなぁ。
オロカの方はスクリプト投稿でどっかのサイトの宣伝書き込みだ。
別にさ、管理しようとか秩序を保とうとか思わないので、それで構わないよ。
問題は文字化けね。
人間というか、ブラウザからの投稿なら問題ないのだが、
ブラウザからではなく、自動であちこち投稿するソフトとか利用されると、
こちらが受け付けたい文字コードとは違うコードになっちゃって文字化けしちゃう。
百歩譲って文字化けしてもいいけど、タグに食い込んでサイト壊されちゃってるよ。
Firefoxでは正常に表示されても、IEでデザインが狂ってしまったりしてる。
Yomiの方もそうなんだけど、違法だろうが何だろうが、放置してどうなるか見るのも楽しいから、
基本的に何が書かれても放置するか、自らも荒らしに参加したい気持ちなんだが、
文字化けが原因でタグに食い込んで、マトモに見れなくなるのだけは困る。
ほんで、なぜ文字化けするのかというとブラウザからの投稿ではないからだ。
ブラウザからの投稿でないものを見分けてはじくとか、
根本的に文字化けする書き込みを排除するとか出来ないものかな。
いや、出来ないから書いてるんだけどさ。
ちょっとした対策っぽいことは出来てもイタチごっこになるからな。
そういうことで、rNoteは掲示板書き込み時、
「携帯でもないくせに正常なリファラをつけないヤツは不正投稿だ」と判断するようだ。
それって、携帯を語って不正なリファラなヤツって排除できないじゃん。
ウチは携帯から書き込ませる気は一切ないから、
正常なリファラでも携帯からの書き込みは全員不正投稿という風に改造してみた。
逆に見ると、PCからで且つ正常にリファラをつけないと書き込みできないようなった。
ま、自動での書き込みをする際、適当なリファラをつけることが難しいとは思わないので、
リファラだけ見て不正かどうかを判断するのも賛成出来ないけどな。
ところでrNoteの掲示板ってNGワード指定できないのかな?
スクリプトで来る人はサイトの宣伝目的だから、httpをNGワードにすれば強いんだが。
いや、変なサイトへのリンクって多少は欲しいからそれは出来ないのだがね。
Yahoo!のニュースを見ていたら、Google Sitemapsに新機能追加だって。
で、スパムとかのサイトは検索から削除されるって前から言われてたけど、
その削除されたサイトのオーナーは通知を受けることができるんだってさ。
それ別にたいしたことじゃないんだけど、削除されたら「Google八分」って。
村八分から作った俗語みたいなのが、国際的にやってるGoogleに使って、
そんな言葉がYahoo!のニュースに当たり前に掲載されてることに違和感。
それがキッカケで、忘れてたサイトマップに久しぶりにアクセス。
画面レイアウトは変ったようだが、機能は何か変ったのかよくわからない。
もちろん、Google八分のページがあるのかないのかすら、探し方がわからん。
トップページがPR3かPR4かハッキリしないという怪奇現象も。
そして一つ思い出したのが、例の隠しファイルの件。
このサイトには、通常のサイトマップの他に、隠しサイトマップが存在する。
通常の方は、rNoteに自動生成されたもので、個別記事がリストアップされている。
そのほかに、オーナーとXREAとGoogleしか知り得ないもう一つのサイトマップがあり、
そのサイトマップには、さらに隠しHTMLページが一個書いてある。
よって、この隠しHTMLページがググって出てくるかどうかを根拠に、
Google Sitemapsにサイトマップを登録する意味があるかどうかを判断できる。
コレを仕組んだのは去年の話だが、隠しページは検索結果には表示されない。
ロボットはちゃんと訪問しているということは、鯖のログで確認済みだから、
サイトマップによってロボットを誘導することは出来るとまではわかっている。
で、せっかく来たロボットだが、どこからもリンクのないページは検索されないってことだな。
来たロボットが本物だとか偽物だとか名づけてみても意味はなくて、
数ヶ月経ってもサイトマップに書いた隠しページは検索できないという結果だけが意味を持つ。
サイトマップを登録することによってより多くのページをインデックスさせる事は不可能。
これだけが証明された事実。
じゃぁさ、インデックスするわけでもないのにGoogle Sitemapsって意味あるの?
コレが納得いかないところなんだな。
ベータって書いてあるから、それが取れたときこそインデックスされるんだろうか?
コレなら一応現象の説明は出来る。だってロボは来てるんだもん。あとは結果に出すだけ。
ベータでなくなるときに、サイトマップでの収拾結果を足せばいいんだもんな。
で、それを足したらおかしな変動が起こることのないよう、今は別鯖で試してるとかね。
でも実際にはあり得ない話で、知識のある人だけが結果を操作出来ることになる。
検索に限らず人の手の及ばない自動化だけを追及してきた、Google的な精神とは相反する。
そこで、現実的な推測としては、ロボットを改良するためのサンプル提供、これしかないだろう。
取りこぼさずに回れるようになのか、重要なページほど頻繁に巡回するようになのか、
ゴールはGoogleのスタッフ以外知る由もないが、ともかく彼らの理想に向けて、
一般のサイトではやっちゃいけない、クロール実験のモルモットを募集って事だな。
で、別にモルモットになっても無駄なクロールが増えるだけで死ぬわけじゃないし、
むしろ、奴らの参考になればGooglebotのバージョンアップで有利になるかもしれない。
自動化が好きなGoogleだが、その自動化の思考部分を開発するのは人間なので、
自分のサイトのページをより拾うように自動化されるという有利ならポリシーに反しないし。
自分だけが有利になるのではなく、ロボットに問題があるせいでクロールされない場合、
そのせいでインデックスされなかった全てのサイトが有利になるというか、
むしろ不利だったものが不利でなくなるだけだから、今不利でない人には意味ない。
そうであればこれからも、サイトマップに書いてもリンクがなけりゃインデックスされないし、
通常のクロールではなく実験のための偽クロールであるという説明で現象に合致する。
どっちにしろ、書き方を覚えて設置するのが苦な人だと、やって元を取れるものではない。
そんなもんで何もいいことが起こらないからこそ、広告収入が成り立つんであって、
現実に目を向ければ実験なんかしなくても、はじめからわかっていたことだがね。