• ベストアンサー

WEBページ内該当文字列を取り出す簡単な方法?

書籍販売サイトWEBページ内の商品、ISBN番号を抽出する方法で一番簡単な方法はなんですか? rubyとVBAとJavaとCを少し勉強したことがあるのですが途中で投げたので ほぼ知識はありません。 そういう状態で一番簡単に実装する方法はなんでしょうか? 簡単なスクリプトを組んで取り出したいのですが、 一つ一つ手作業でマウスでコピペするしかないですかね? アドバイスよろしくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • bardfish
  • ベストアンサー率28% (5029/17766)
回答No.4

URLを渡してページ内テキストを取得し正規表現で取り出す。 取り出したら・・・あとはどうするつもりなんですか? 最終的に取得したものをどうしたいのかによっても難易度は変わりますけど。 私だったらperlを使います。 一番慣れているというのもありますが正規表現を使ったインタープリタ言語では実行速度が一番早いと思うし、正規表現を使った言語としては一番歴史があると思ってます。 正規表現を解説した書籍でもサンプルソースはPerlで示されているものが多いのでは・・・ それにCPANを探せばExcelファイルへの直接追加とかできますからね。 覚えれば簡単ですけど覚えるまでが大変なのはどれも一緒ですけどねw

tasukete2018
質問者

お礼

回答ありがとうございます。 とある古書店のオンラインサイトでそのお店の楽天やYahoo!のモールの方は 検索がしやすいのですが、検索結果の書籍の発売日が表示されていません。 そこで、そちらで検索結果からISDNコードを抽出してAmazonや書籍検索サイトで検索して 発売日を調べたいと最終的には考えています。 やりたいことはそれです。(・´з`・)

その他の回答 (3)

  • wormhole
  • ベストアンサー率28% (1626/5665)
回答No.3

あなたにとって一番簡単な方法は 一つ一つ手作業でコピペかと。

tasukete2018
質問者

お礼

(・´з`・)

  • t_ohta
  • ベストアンサー率38% (5243/13715)
回答No.2

正規表現を使ってパターンマッチで取り出す。

tasukete2018
質問者

お礼

回答ありがとうございます。 以前に、この本を購入しているのでこれで勉強したいと考えてます。 反復学習ソフト付き 正規表現書き方ドリル (WEB+DB PRESS plus) 大型本 – 2010/12/22 杉山 貴章 (著), 木本 裕紀 (監修) https://www.amazon.co.jp/dp/4774145092/

noname#239097
noname#239097
回答No.1

簡単なスクリプトを組んで取り出したいのですが、 一つ一つ手作業でマウスでコピペするしかないですかね? はい、そうです

tasukete2018
質問者

お礼

回答ありがとうございます。参考にさせていただきます。

関連するQ&A