- 締切済み
Javaの正規表現でimgタグのaltとプレーンテキストのみを抜き出し
Javaの正規表現でimgタグのaltとプレーンテキストのみを抜き出したいと思っています。 例えば、 <img src="image.jpg" alt="イメージ" />テキスト <img src="image.jpg" alt="イメージ" class="imgclass" />テキスト <img alt="イメージ" src="image.jpg" />テキスト は、全て「イメージテキスト」になるようにしたいのです。 imgタグが入っていない場合や、プレーンテキストの後ろにimgタグがある場合、 プレーンテキストにimgタグがはさまれている場合、imgタグが複数ある場合など 汎用的に対応したいのですがうまくできず… アドバイスいただけると助かります。
- みんなの回答 (1)
- 専門家の回答
みんなの回答
- askaaska
- ベストアンサー率35% (1455/4149)
回答No.1
<[^<]*img[^>]*alt[^>=]*=[^>]*["']?([^>"']*)"'[^>]*>([^<]*) 確認してないけどこんな感じでどうかしら。 たぶん一番間違いないのは DOM使うことだろうけど。