ベストアンサー

正規表現で複数行に渡る範囲を取り出す

2007/05/01 01:34

<html> <div></div> <div class="content"> <b>内容<b/><br /> <img src="#" /> <p>ほげほげほげほげ</p> </div> <div></div> </html> 上のようなHTMLがあるとします。<div>の前後にもhtmlは書かれています。そこから正規表現で<div class="content">～～～</div>の中身を取り出したいのですが、できません。言語はPHPで、 /<div class=\"content\">.*<\/div>/ と書いてみたんですが、改行などがありうまくいきませんでした。どのようにに記述すればうまくいくんでしょうか。

elisleaf
お礼率23% (9/39)

PHP
回答数3
ありがとう数5

みんなの回答 （3）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

Werner
ベストアンサー率53% (395/735)

2007/05/01 04:25 回答No.3

> preg_match(/<div class=\"content\">.*<\/div>/s),$target); > と書いて、divの中身を取り出すことはできたのですが、 > <div class="content">の対の</div>ではなく、html文中にある一番最後の</div>が対象になってしまいました。 * だと最長一致なので代わりに最短一致の *? を使ってみてはどうでしょう。 (/<div class=\"content\">.*?<\/div>/s

質問者

お礼 2007/05/01 06:05

ありがとうございました。うまくいきました！！

ログインすると、全ての回答が全文表示されます。

その他の回答 (2)

sakusaker7
ベストアンサー率62% (800/1280)

2007/05/01 02:07 回答No.2

preg_* なら sオプションを追加してください。 mb_ereg*なら、パターンに埋め込み、かなあ。 "(?s)...."

質問者

お礼 2007/05/01 04:06

http://php.holywar.net/manual/ja/reference.pcre.pattern.modifiers.php すいません。書いてありました。 preg_match(/<div class=\"content\">.*<\/div>/s),$target); と書いて、divの中身を取り出すことはできたのですが、 <div class="content">の対の</div>ではなく、html文中にある一番最後の</div>が対象になってしまいました。 1個目を指定などは可能でしょうか？

質問者

補足 2007/05/01 03:28

preg_matchを使っているんですが、sオプションは何を意味するんでしょうか？マニュアルを見てもそれらしいものが見つからなかったんですが。

ログインすると、全ての回答が全文表示されます。

calltella
ベストアンサー率49% (317/635)

2007/05/01 02:03 回答No.1

最初に全行を取込んでから処理してみては？取込む際に無駄な改行コードを削除してから正規表現でデータを取り出してみてはいかがでしょうか？

質問者

お礼 2007/05/01 04:10

ありがとうございます。 \sで「空白文字（スペース、復帰文字、タブ、改行文字、ラインフィード）」みたいだったので下のように書いたのですが、 preg_replace("/\s/", '', $target); <div class="content">が<divclass="content">のように、タグの中のスペースまで削除されてしまいました。

ログインすると、全ての回答が全文表示されます。