アクセス解析、ユーザーエージェント編
ヨタ記事を書いていると、アクセスがどんどん増えてきます。
困ったものです。
アクセスログをどう読むのか、少しお話しておきます。
ちょっと怖い話になるかな。
サーバーはロリポ(Apache)、アナライザーはオープンソースのAnalog
ユーザーエージェントを見るので、画面をスクロールして、
「ブラウザレポート」に行きます。
頭のところに「リクエスト数: ページ数: ブラウザ」が表示されています。
それに続くのが「ユーザーエージェント」です。これは、どのようなブラウザとコンポーネントのパソコンで閲覧しているか、が分かります。見やすくするために、分類したものをキャプチャーしました。
最初にあげるのは、やはり検索エンジンですが、説明不要ですね。

次は、RSSとサイトマップの閲覧です。
このPythonはグーグル用サイトマップを指しています。

次から、ユーザーエージェントを見ていきましょう。
インターネット・エクスプローラは「Mozilla/4.0 (compatible;」と表示されます。モジラについては、最後にまとめて解説します。
最初のユーザーエージェントは、ごく標準的な閲覧者です。
・シングルタブのIE 6を使い、OSはWindows XP( NT 5)を使っています。
・2番目は、.NET CLRというのがIE 6のコンポーネントに加わっています。これは、フラッシュムービーなどを見る場合に必要なマイクロソフトが配布しているランタイムだったと思います。Winアップデートを設定していると、自動的にダウンロードされたりします。
・SV1というのは、サービスパック2のこと。初期のWin XPを使っている、ある程度キャリアのある人、でしょう。
・3番目は、最新鋭マシンですね。IE 7を使い、OSのWindows NT 6.0はVista です。パワーユーザーですね。infopath というのは、Office2003から装備された機能ですが、XML文書の読み書きが出来るようになるものです。

次は、スレイプニールユーザーです。以前アフィリエイトに便利なブラウザとして紹介しましたが、これを使っている人は中級以上の人です。
・最初のブラウザにはAlexa Toolbarがインストールされていますが、メンバーサイトを運営しているサイトオーナーは要注意です。
・Alexa ユーザーが非公開サイトを訪れ、パスワード入力が面倒だからとお気に入りに直リンクを張ったりされると、ia_archiverに侵入されて、インデックスされてしまいます。
つまり、検索エンジンのサイトに行くと、「頭隠して尻隠さず」状態で公開されている、ということになりかねません。
・ia_archiverについては最後に述べます。

次のMozilla/5.0はFirefox です。最近ユーザーが増えているようです。

これはオペラです。データが少ないのでので、説明はなし。
ちなみに、ネットスケープは Mozilla/4.7 と表示されます。
(例) Mozilla/4.7 [ja] (WinNT; I) Mozilla/5.001 (windows; U; NT4.0; en-us) Gecko/
あと、マックのサファリが少数ですが、見られます。

Linuxユーザーです。Firefox のユーザーエージェント変換機能を使っていると思います。

ここからが、問題となるアクセスですね。
ユーザーエージェント変換機能を使ったりして、偽装している疑いがあります。
・Windows XPは、通常ですとWindows NT 5.1と表記されます。ずばりXPですと名乗っているのは、あまり見かけません。
・Internet Explorer 5.xというのも、上で見てきたように通常ではありません。シンプル過ぎます。
・Mozilla/5.0もFirefox のユーザーエージェント変換機能を使っていますね。
・身元を名乗りたくない「検索エンジンのような人」です。
・クローラは、きちんとurlを返しているので、身元ははっきりしています。

次が、うざいトラックバック・コメントスパムの類です。
・最初のは既に紹介済みのトラバです。
・次のトラバ(コメント)は、きちんとurlを入れていますので、正式なやり方ですが、アメリカのサイトですので、スパム判定ですね。アクセスアップ目的だと…。
・内容以前に、言葉が違うのだ。

最後は文字通り迷惑検索です。
☆ia_archiverは、1996年10月以降にインターネット上に存在していたHTMLファイルを保管しているオンライン図書館です。
http://www.archive.org/index.php
ロボット拒否メタタグを無視して、Webページを収集しインデックスします。グーグルのキャッシュと同じです。robot.txtは多少効果があるということですが、
削除、あるいは閉鎖したサイト・ページの昔のコンテンツを見ることができる利点はありますが、
しかし、バックボーンがどうやらAlexa のようです。
http://www.alexa.com/
Alexa は言うまでもなくAmazon.comのWeb戦略を担う最先端部門ですが、Alexa Toolbarをインストールしたブラウザがアクセスすると、その後でia_archiverが縦横無尽にクロールしていく、という報告があります。
何か、データのやりとり、あるいはマーカー付けのようなことがあるのかもしれません。IEのセキュリティホールを、抜け道にするなど、紳士的だがワルな素顔を持っています。
詳細は不明ですが、挙動不審のクローラですね。
Ad-AwareSEなどのスパイウエア駆除ソフトでは、Alexaをスパイウエアと規定しています。これが来たら、非公開サイトを持つ人は要注意です。ダウンロード・サイトの情報がia_archiverにインデックスされて、まる見えなんて…、
…エ”私のダウンロード・ページもまる見え?
Σ( ̄□ ̄;うっそ!!
100行を超えてしまいましたので、後編に譲ります。
関連カテゴリー: 00s SEO,SEM検索エンジン | TB(2)


はてなRSSに追加
