締切済み

動的なページのスクレイピング

2019/03/08 03:28

動的なページのスクレイピングまず下記のurl御覧ください。 https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q131988243... これで「静的なページの」スクレイピングできるようになったはいいのですが、問題はここからです。 https://sv.j-cg.com/compe/view/entrylist/1489 ↑このような、「ある程度スクロールすると追加でコンテンツが読み込まれるページ」については、正しくスクレイピングできませんでした。「JavaScriptを実行させて、変化後の要素を取得する」ためにヘッドレスブラウザ(phantomjs)を使っているはずなのに、これは腑に落ちなさすぎるんですが。。ググったところ、やっぱり「phantomjsを使う」のは正しい解決法のようなんですが、（これとか→https://ja.stackoverflow.com/questions/19681/nokogiri%E3%81%A7%E5%8...）やっぱり追加後のDOM?については解析できませんでした。 JCGのサイトについてはスクロール時に読み込まれるのはjavascriptの仕様ではないのか、はたまたコードがよくないのか… 教えてください。

ont_rt
お礼率61% (81/132)

Ruby
回答数1
ありがとう数1

みんなの回答 （1）
専門家の回答

みんなの回答

donttalktome
ベストアンサー率83% (10/12)

2019/03/11 07:39 回答No.1

実ブラウザ上でスクロールしないと読み込まれないならヘッドレスブラウザ上でもスクロールしないと当然ダメです。 phantomjs scrolldown くらいの検索語で調べればコードはすぐわかるでしょう。

質問者

お礼 2019/03/11 19:17

あ、なんか調べたいページが出ちゃってますが… スクレイピング対象は特に気にしないでいただけるとありがたいです

質問者

補足 2019/03/11 19:16

rubyのcapybaraを通してphantomjsを動かしているんですが session.visit "https://sv.j-cg.com/compe/view/entrylist/1489" session.execute_script('window.scroll(0,1000);') や session.visit "https://sv.j-cg.com/compe/view/entrylist/1489" execute_script("window.scrollBy(0, window.innerHeight);") を使ってもスクロールされたデータが取れないので今回質問しました調べてもrubyでの書き方はわかりません（こういうのhttps://stackoverflow.com/questions/33484890/how-to-access-elements-from-finite-scroll-with-capybara-poltergeist-and-railsを参考にしても。）正しい表記法を教えてください。