• ベストアンサー

ホームページのログ集計 Google クロールについて

ホームページのログ集計をしています。 純粋な閲覧件数を確認しているのですが、下記ホストの件数が桁違いに 多くなっています。 crawl-66-249-66-***.googlebot.com 自分で調べてみたのですが、Googleのクロールと言われているもの というところまではわかりました。 純粋に人が閲覧した件数を集計する場合は、Googleのアクセス数は 除いた方がいいのでしょうか? よろしくお願い致します。

質問者が選んだベストアンサー

  • ベストアンサー
  • agharta
  • ベストアンサー率52% (54/103)
回答No.1

明らかにロボットと分かるものはロボットとしてカウントすると良いのではないでしょうか。 そもそも、ログ集計を行う理由は『人が閲覧した件数』となっていますね。 どのようにしてロボットか人かを見分ける手段は非常に難しいのです。 例えば、http://www.robotstxt.org/にあるようなUserAgentを集めているサイトもありますが、これらを使用しても100%とはいきません。 なぜなら世界中に勝手にUserAgentを変更してプログラムを世に送り出しているからです。 後は、運用上でその都度見直す必要が出てくる部分で、いつも頭を悩ます部分ではあり…  だんだん、愚痴っぽくなってすいません。

wavewave2
質問者

お礼

ユーザーエージェントを検索していたら、"bot"系のもはGoogleだけではありませんでした。確かに今後頭を悩ますことになりそうです。。。 ありがとうございます。

その他の回答 (1)

  • aqucent
  • ベストアンサー率39% (78/200)
回答No.2

「純粋な閲覧件数」ということなので、googlebotは除外してカウントしてよいのではないでしょうか。 既にご存じかと思いますが、googlebotはクロールが目的なので、実際にWebページを閲覧しているわけではありません。 「Lynx」というブラウザをインストールして、質問者さんのWebサイトを閲覧してみると、違いがわかると思います。 googlebot のリモートホストは非常に分かり易いので、リモートホストが googlebot.com で終わるログは除外してカウントするのがスマートかと思います。 私のサイトではカウンターは設けていませんが、ログを見ると、****.inktomisearch.com はYahooのbotっぽいです。 ログから見て怪しいUser-Agentを見つけて、リモートホストで特定していけば、他のbotも除外できると思います。

wavewave2
質問者

お礼

ユーザーエージェントで”bot”を含むものを除外してみました。 数字的にすっきりしました。とても参考になりました。ありがとうございます。

関連するQ&A