締切済み

Nokogiriスクレイピングがうまくできない。

2018/11/10 04:58

Nokogiriスクレイピングがうまくできない。 RubyのNokogiriを利用して、下記サイトのデータを整理するためにスクレイピングをしようと思っています。 https://sv.j-cg.com/compe/view/entrylist/1274 具体的には、サイト中部の「登録デッキ」の一覧にある使用クラスのデータをまとめるプログラムを組もうと思っています（添付画像参照）。 XPathのサイトを参考にしつつ、試しにこの使用クラスの画像データをテキストで出力するため以下のコードを組んで実行しました。 require 'nokogiri' require 'open-uri' url = 'https://sv.j-cg.com/compe/view/entrylist/1274' charset = nil html = open(url) do |f| charset = f.charset f.read end doc = Nokogiri::HTML.parse(html, nil, charset) p doc.xpath('//img[contains(@src,"clans")]') ですが、 [] と表示されるだけで何も取得できません。 containsの引数を（取得対象のimg要素内の）どの値に変えて試しても、色んな表示が出はするのですが肝心の画像URLの部分が取得できません。（ページのソースコードを見た所、使用クラスの判別が画像URLでしか出来ないため、URLをまず取得しないことには目的を達成できないだろう、という前提で話しています。）私の推測では、どうやらURL部分だけjsonファイルらしい（他者には見られない）外部のファイルから引っ張ってきているため、プログラムから読み取ろうとしてもうまくURLを引用できないのだと思ってます。ですが、ブラウザ上の検証ツールではURLが表示されるのにプログラムでは正しく読み込めないのが疑問です。何にせよ、うまく使用リーダーを整理する方法があったら教えていただきたいと思います。（ちなみにスクレイピングで画像URL等を取得した後のうまい整理方法も現段階ではよくわかっていないですが、とりあえずこのURLデータ取得だけでもまず理解してからということで質問をしています。）

ont_rt
お礼率61% (81/132)

Ruby
回答数1
ありがとう数1

みんなの回答 （1）
専門家の回答

みんなの回答

silencezt
ベストアンサー率100% (1/1)

2018/11/23 16:19 回答No.1

別の話ですが、スクレイピングツールを使っています。画像URLの取得が簡単です。

参考URL：: http://jp.octoparse.com/tutorial/extract-data/

質問者

お礼 2019/03/07 01:15

rubyでスクレイピングしたいんですが、まぁ参考にしてみます

Nokogiriスクレイピングがうまくできない。

みんなの回答

お礼 2019/03/07 01:15

関連するQ&A

動的なページのスクレイピング

ウェブページから手軽にスクレイピングしたい

Xpathがわからない。

ruby のプログラムについての質問です。

Ruby初学者です。

Ruby Selenium リンクの取得方法

DOMDocumentの文字化けに悩まされています

スクレイピングPHPにおける複数spanについて

objective-Cについてご相談があります。

スクレイピングで取得した文字を変数表示

removeChildを使っても変化なし　PHP5.0

フレーム内の要素へのXPATHはどのように書けばよいのでしょうか？

xmlにファイル出力

imageタグの画像データを取得するには？

C++で書かれたソースを探しています

Javaで画像パスからImageIconオブジェクトを取得したい

Swiftについて教えてください

AJAXを使用したサイトに対するgetelementsbytagname("td")について

N904iL？

外部サイトから画像情報を取得する方法

注目のQ&A

カテゴリ

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

専門家に質問してみよう

Nokogiriスクレイピングがうまくできない。

みんなの回答

お礼 2019/03/07 01:15

関連するQ&A

動的なページのスクレイピング

ウェブページから手軽にスクレイピングしたい

Xpathがわからない。

ruby のプログラムについての質問です。

Ruby初学者です。

Ruby Selenium リンクの取得方法

DOMDocumentの文字化けに悩まされています

スクレイピングPHPにおける複数spanについて

objective-Cについてご相談があります。

スクレイピングで取得した文字を変数表示

removeChildを使っても変化なし PHP5.0

フレーム内の要素へのXPATHはどのように書けばよいのでしょうか？

xmlにファイル出力

imageタグの画像データを取得するには？

C++で書かれたソースを探しています

Javaで画像パスからImageIconオブジェクトを取得したい

Swiftについて教えてください

AJAXを使用したサイトに対するgetelementsbytagname("td")について

N904iL？

外部サイトから画像情報を取得する方法

注目のQ&A

カテゴリ

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

専門家に質問してみよう

removeChildを使っても変化なし　PHP5.0