HTMLからimgのsrcのみを正規表現で抽出する

2014/09/22 21:24

このQ&Aのポイント

Javaの勉強がてら作成しているWebサイトから画像だけをダウンロードするツールで、HTML内のimgタグのsrcを抽出したい。
現在、正規表現を使ってimgタグのsrcを抽出し、一覧を取得するメソッドを作成しているが、うまくできず困っている。
テストHTMLにおいて最後の1件しか取得できず、正規表現が正しくない可能性がある。解決策を知りたい。

HTMLからimgのsrcのみを正規表現で抽出する

Webサイトから画像だけをダウンロードするツールをJavaの勉強がてら作成しており、HTML内に含まれた全てのimgタグのsrc部分のみを抽出したいと考えています。現在、正規表現を使ってHTMLからimgタグのsrcを抽出し、srcの一覧を取得するようなメソッドを作成していますが、私の実力が及ばないばかりに上手く出来ずに困っております。以下のようなHTMLが有った場合の例を挙げます。 <html> <body> <img src="hoge.jpeg"> <img src="./hoge.jpeg"> <img src="./fuga/hoge.jpeg"> <img src="../fuga/hoge.jpeg"> <img src="http://fuga/hoge.jpeg"> </body> </html> 上記のHTMLがString型に格納されてますので、作成した抽出用メソッドの引数に渡すと以下のようなString[]型の文字列を返す想定をしています。 [0]=hoge.jpeg [1]=./hoge.jpeg [2]=./fuga/hoge.jpeg [3]=../fuga/hoge.jpeg [4]=http://fuga/hoge.jpeg しかしながら現在、以下のような結果となり、最後の1件しか取得できていない状況です。 [0]=http://fuga/hoge.jpeg 恐らく正規表現が正しくないせいだとは思いますが、どのようにすれば取得できるのか分からず困っています。もしこの問題についての解決策をご存じの方がおりましたら、ご教示いただけましたら幸いです。よろしくお願いします以下、作成中のテストソースです。 //---------------------------------------------------- import java.util.ArrayList; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern; public class Main { public static void main(String[] args) { String testHtml = "<html><body><img src=\"hoge.jpeg\"><img src=\"./hoge.jpeg\"><img src=\"./fuga/hoge.jpeg\"><img src=\"../fuga/hoge.jpeg\"><img src=\"http://fuga/hoge.jpeg\"></body></html>"; String[] res = extractImgSrc(testHtml); // 結果表示 for (int i = 0; i < res.length; i++) { System.out.println("res[" + i + "]=" + res[i]); } } // imgタグのsrcからurlを抽出 public static String[] extractImgSrc(String html) { List<String> result = new ArrayList<String>(); Pattern p = Pattern.compile("<\\s*img.*src\\s*=\\s*([\\\"'])?([^ \\\"']*)[^>]*>"); Matcher m = p.matcher(html); while (m.find()) { result.add(m.group(2)); } return result.toArray(new String[result.size()]); } }

hiroko_ss
お礼率77% (52/67)

Java
回答数3
ありがとう数10

みんなの回答 （3）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

Ogre7077
ベストアンサー率65% (170/258)

2014/09/24 17:05 回答No.3

正規表現 /<\s*img.*src\s*=\s*(["'])?([^ "']*)[^>]*>/ ですが、非常に危険な /.*/ という指定を含んでいます。これは「可能な限り長く一致させる」挙動となるので、例題の場合なら以下の範囲を纏めて拾ってしまいます。 <img(ここから) src="..."><img src="...">...<img (ここまで)src="ttp://fuga/hoge.jpeg"> なので /.*/ ではなく /[^>]*/ とすれば想定どおりの挙動となるでしょう。余談ではありますが、この種の処理を行うなら HTML パーサーを介して、 DOM なり XPath を使うことをオススメします。

質問者

お礼 2014/09/24 21:51

ご丁寧な解説ありがとうございます。非常に分かりやすく勉強になりました。今回はimgのurlのみが必要でしたので、パーサについてはNo.2の方に返答しておりますとおりのため、私の今後の課題としたいと思います。本当に有難うございました。

その他の回答 (2)

goro123123123
ベストアンサー率8% (1/12)

2014/09/22 23:54 回答No.2

なんでわざわざ正規表現? DOM使った方が良いんじゃないのか?

質問者

補足 2014/09/24 21:49

お返事ありがとうございます。パーサを利用した解析についても調べていた中に入ってはいましたが、理由としては長いプログラムになり初心者の私の頭では追いつかなかったため、今回は選択肢から外しました(^^;) 以下に拝見していたサイトを引用させていただき、後学の課題とさせていただきます。 http://d.hatena.ne.jp/excer/20110410/1302416295