PHPでHTMLソースを解析し、文字を抜き出す方法

2010/08/20 23:19

このQ&Aのポイント

PHPを使用してHTMLソースを解析し、特定の文字列を抜き出す方法について教えてください。
HTMLソースから特定の要素を取得する際に、改行が含まれる場合の対処方法を教えてください。
preg_match関数のmsオプションについて詳しく教えてください。

bou1025
お礼率77% (27/35)

PHP
回答数5
ありがとう数3

みんなの回答 （5）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

okmotokun
ベストアンサー率59% (92/155)

2010/08/21 09:08 回答No.4

結果の用途がわからないので適切な回答かどうか、ですが次のようなのではどうですか。 $content=file_get_contents("xxx.htnl"); $content=preg_replace("/<span[^>]*>|<\/span>|[\r\n]/","",$content); print $content; または、 $content=preg_match_all("/<span[^>]*>[\r\n]*(.+)[\r\n]*<\/span>/",$content,$match); foreach($match[1] as $str){ print $str; }

質問者

お礼 2010/08/22 03:54

ありがとうございます。全容がないのでわからないですよね；結局はできなかったのですが、ご教授いただいた部分をヒントにして色々試行錯誤してみます。ご多忙な中、ご回答ありがとうございました

その他の回答 (4)

nekomikekamo
ベストアンサー率73% (71/97)

2010/08/21 21:20 回答No.5

HTMLから様々な情報を抜き出しているようなので、手頃なHTML Parserを利用する。 PHP Simple HTML DOM Parser等？ http://sourceforge.net/projects/simplehtmldom/

kuzumiHK
ベストアンサー率72% (132/183)

2010/08/21 00:54 回答No.3

こんな感じでいかがでしょうか。 <meta http-equiv="content-type" content="text/html; charset=UTF-8"> <?php $contents = file_get_contents("test.html"); // 改行とタブを削除 $contents = preg_replace("/\n|\r|\t/s", "", $contents); // spanの閉じタグで配列を生成 $content = explode("", $contents); // 配列をループ foreach ($content as $text){ if(preg_match("/<span/i", $text)){ // テキストに<spanが含まれていたら処理 // spanタグの中身だけを抽出 $text = preg_replace("/^.*?<span.*?>(.*?)/", "$1", $text); print "{$text}\n"; } } ?>

質問者

補足 2010/08/21 03:52

ご回答ありがとうございますm(__)m 説明不足で大変申し訳ありません。 に限らず、他の要素抜き出しにも活用しているため、（<img src="(.*?)">など）ご教授いただきました方法では難しいのが現状ですm(__)m その都度、その都度で対応できる形でありますと助かります。申し訳ありません。

memphis
ベストアンサー率40% (975/2395)

2010/08/21 00:02 回答No.2

preg_matchを行う前に、改行を削除すればいいのでは？

yambejp
ベストアンサー率51% (3827/7415)

2010/08/21 00:00 回答No.1

file()ではなくfile_get_contents()で処理してみてください <?php $fname='http://exampe.com/hoge.htm'; $line =file_get_contents($fname); $pattern='/(.*?)<\/span>/mis'; preg_match_all($pattern, $line, $match); print_r($match); ?>

質問者

補足 2010/08/21 03:55

ご回答ありがとうございます。ご教授いただいたとおりにやってみたのですが printにArray()と表示されるだけで抜き出して表示されませんでした。私のやり方が悪いのでしょうか・・・。

PHPでHTMLソースを解析し、文字を抜き出す方法

phpでhtmlソースを解析し、文字を抜き出したいのですが、上手くきま