- ベストアンサー
スクレイピングする際のマナー(吸い出すデータ量等
よその会社の運営するサイトからスクレイピングして、 データベースを組もうと思います。 あまり一気にやってしまうと、先方のサーバに負荷がかかってご迷惑をかけてしまうかもしれないので、 どの程度のペースで行うべきかを相談させていただきたくお願い申し上げます。 なお、先方のサイトは月間1000万PVくらいの大きなサイトなので、 サーバもしっかりとしたものを入れていると思います。
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
優先事項としては、相手のサーバがrobots.txtで指定している場合はそれに従うべきでしょう。「Crawl-delay」が指定されていれば、これに基づいてクロール間隔を設定すると良いです。 robots.txtの設定・書き方、アクセス禁止・制限、ロボット・クローラー - Google、Yahoo、Bing、Baidu、Naver、Cuil、DotBot http://memorva.jp/memo/website/robots_txt.php robots.txtが配置されていない場合は、先方に連絡して相談してから決めるというのが最良の方法になると思います。 なお、検索エンジンは結果として自サイトにアクセスを誘導してくれますから大体歓迎されますが、スクレイピングについては歓迎されないかも知れません。マナーを気にされるのであれば、やはり先方に相談するのが一番だと思います。
その他の回答 (1)
- x-1919
- ベストアンサー率52% (91/173)
回答No.2
> 勝手を申しまして誠に恐縮ながら、先方に相談するのは避けたいと存じます。 > というのも、先方に相談すると、先方担当者も仕事を下手に増やしたくないでしょうし、 > 「ご遠慮ください」の一言で終わりそうな気がするためでございます。 それなら無断盗用ですね。
お礼
ご回答ありがとうございます。 robots.txtには、「Crawl-delay」等のクロール間隔を設定する際の参考となる指定はなされていませんでした。 勝手を申しまして誠に恐縮ながら、先方に相談するのは避けたいと存じます。 というのも、先方に相談すると、先方担当者も仕事を下手に増やしたくないでしょうし、 「ご遠慮ください」の一言で終わりそうな気がするためでございます。 ですので、当方でご迷惑にならない範囲を模索し、皆さんに相談させていただいた次第でございます。 アドバイス、感謝いたします。