• 締切済み

Webスクレイピングに適している言語は?

複数のクライアントからサーバー経由で平行してスクレイピングをする場合、適している言語・フレームワークは何でしょうか?

みんなの回答

  • notnot
  • ベストアンサー率47% (4900/10358)
回答No.2

対象ページがJavaScriptを使って作られていないのであれば、言語は何でも良いので、自分の得意な物でいいでしょう。 JavaScriptで作られたページなら、ブラウザを起動してそれをコントロールするということが必要なので、例えばSeleniumライブラルを使うならそれが出来る言語としては、Java/Python/Rubyでしょうか。 フレームワークは何でも良いです。

回答No.1

何が適してるかより、何が使えるかの方が重要かもですね。 抜きポイントが、ピンポイントの場合、 strstrで文字抜きしたほうが、手っ取り早いですし。 DOM再構築まで考えると、階層構造も吸ったほうがいいわけですが。 こちらでは、そのまんまPHPをつかってますよ。 (自作の、HTML分解エンジンで分解してます) ローカルで、Jqueryで分解するのもありかもしれません。 (実際作ったとき、そう感じたので^^) あれなら、最初から分解済みですから、キーとなるIDなりCLASSから 割と簡単に据えますしね。。 で、すい終わったらそれを、サーバーにPOSTするまでを一本化したほうが 早かったかな。。って気持ちはありましたね。。(ここは余談)

関連するQ&A