Java正規表現: HTMLタグ以外の文字列を抽出

2014/01/06 12:12

このQ&Aのポイント

Javaの正規表現を使用して、HTMLタグ以外の文字列を抽出する方法について教えてください。
現在、指定した正規表現を使用してHTMLタグを抽出していますが、HTMLタグ以外にもヒットさせたいです。
HTMLタグの否定を表す正規表現についても教えてください。

newtgecko
お礼率88% (150/169)

Java
回答数1
ありがとう数9

みんなの回答 （1）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

tanaka12jp
ベストアンサー率14% (3/21)

2014/01/06 12:53 回答No.1

正規表現でHTMLタグを抜き出せるならその部分を削除すればいいのでは。 http://www.javadrive.jp/regex/replace/index1.html のように正規表現でマッチした部分を""(何もなし)に変換するのはどうでしょうか。

参考URL：: http://www.javadrive.jp/regex/replace/index1.html

質問者

お礼 2014/01/06 13:17

ご回答ありがとうございます。実は、質問文の正規表現は間違っていて、タグだけにヒットしていませんでした。 tanaka12jpのアドバイスどおりに全て""置き換えると、タグ以外の文字が連結してしまうので、困ります。せめて、タグ以外の文字列間に「,」があれば、splitでもできるのですが、、、いまたまたま、"(>)([^<>]+)(<)"のgroup(2)でタグ以外の文字を抽出できる正規表現が作れました。いま、この正規表現で問題がないか、色々なHTMLのソースを使って試してみます。ありがとうございました。