ベストアンサー

WEBページ内該当文字列を取り出す簡単な方法？

2019/09/14 17:10

書籍販売サイトWEBページ内の商品、ISBN番号を抽出する方法で一番簡単な方法はなんですか？ rubyとVBAとJavaとCを少し勉強したことがあるのですが途中で投げたのでほぼ知識はありません。そういう状態で一番簡単に実装する方法はなんでしょうか？簡単なスクリプトを組んで取り出したいのですが、一つ一つ手作業でマウスでコピペするしかないですかね？アドバイスよろしくお願いします。

tasukete2018
お礼率86% (7148/8282)

みんなの回答 （4）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

bardfish
ベストアンサー率28% (5029/17766)

2019/09/14 20:23 回答No.4

URLを渡してページ内テキストを取得し正規表現で取り出す。取り出したら・・・あとはどうするつもりなんですか？最終的に取得したものをどうしたいのかによっても難易度は変わりますけど。私だったらperlを使います。一番慣れているというのもありますが正規表現を使ったインタープリタ言語では実行速度が一番早いと思うし、正規表現を使った言語としては一番歴史があると思ってます。正規表現を解説した書籍でもサンプルソースはPerlで示されているものが多いのでは・・・それにCPANを探せばExcelファイルへの直接追加とかできますからね。覚えれば簡単ですけど覚えるまでが大変なのはどれも一緒ですけどねw

質問者

お礼 2019/09/14 21:22

回答ありがとうございます。とある古書店のオンラインサイトでそのお店の楽天やYahoo!のモールの方は検索がしやすいのですが、検索結果の書籍の発売日が表示されていません。そこで、そちらで検索結果からISDNコードを抽出してAmazonや書籍検索サイトで検索して発売日を調べたいと最終的には考えています。やりたいことはそれです。(・´з`・)

その他の回答 (3)

wormhole
ベストアンサー率28% (1626/5665)

2019/09/14 19:37 回答No.3

あなたにとって一番簡単な方法は一つ一つ手作業でコピペかと。

質問者

お礼 2019/09/14 21:19

(・´з`・)

t_ohta
ベストアンサー率38% (5292/13827)

2019/09/14 18:54 回答No.2

正規表現を使ってパターンマッチで取り出す。

質問者

お礼 2019/09/14 21:18

回答ありがとうございます。以前に、この本を購入しているのでこれで勉強したいと考えてます。反復学習ソフト付き正規表現書き方ドリル (WEB+DB PRESS plus) 大型本 – 2010/12/22 杉山貴章 (著), 木本裕紀 (監修) https://www.amazon.co.jp/dp/4774145092/