• 締切済み

Javaの正規表現でimgタグのaltとプレーンテキストのみを抜き出し

Javaの正規表現でimgタグのaltとプレーンテキストのみを抜き出したいと思っています。 例えば、 <img src="image.jpg" alt="イメージ" />テキスト <img src="image.jpg" alt="イメージ" class="imgclass" />テキスト <img alt="イメージ" src="image.jpg" />テキスト は、全て「イメージテキスト」になるようにしたいのです。 imgタグが入っていない場合や、プレーンテキストの後ろにimgタグがある場合、 プレーンテキストにimgタグがはさまれている場合、imgタグが複数ある場合など 汎用的に対応したいのですがうまくできず… アドバイスいただけると助かります。

みんなの回答

  • askaaska
  • ベストアンサー率35% (1455/4149)
回答No.1

<[^<]*img[^>]*alt[^>=]*=[^>]*["']?([^>"']*)"'[^>]*>([^<]*) 確認してないけどこんな感じでどうかしら。 たぶん一番間違いないのは DOM使うことだろうけど。

関連するQ&A