ベストアンサー

正しい正規表現を教えてください

2012/03/08 12:52

お世話になります。正規表現で次のように指定しているのですが、正確か自信がありませんので正しい表記を教えてください。１．全てのHTMLタグ <.*?> ２．「2012.1.1」または「2012.01.01」のような数字の羅列 (\d{4}).(\d{1,2}).(\d{1,2}) ３．「<img src="～」から始まる部分 <img src=" ４．「<div class="release">」を含む部分 <div class="release"> ５．HTMLタグと文字全て ^.*$ 全て色々なサイトで調べて表記したのですが、処理に時間がかかってて間違っている気がします。 yahoo!pipesのregexモジュールの部分で使用していて、デバッガーのTime takenに時間がかかっている場合、正しくない正規表現が原因らしいのです。どうぞ宜しくお願いします。

tse-sie
お礼率50% (60/120)

PHP
回答数1
ありがとう数0

みんなの回答 （1）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

yambejp
ベストアンサー率51% (3827/7415)

2012/03/08 13:18 回答No.1

＞１．全てのHTMLタグ＞<.*?> タグはつかめますがこれは無意味。 <hoge>fuga</hoge>がつかみたいのではないのですか？またタグではない文字列で使われている可能性もあります。＞２．「2012.1.1」または「2012.01.01」のような数字の羅列＞(\d{4}).(\d{1,2}).(\d{1,2}) (\d{4})\.(\d{1,2})\.(\d{1,2}) としましょう。「.」自体は別の意味をもっています＞３．「<img src="～」から始まる部分＞<img src=" かならずimgの後ろに半角スペース1個、src、イコール、ダブルクォーテーションとなるならそれでもいいですが、必ずしも元htmlがそうなっているとは限りませんねまたimgタグからsrcの内容を抜きたいならやり方を工夫する必要があると思います。＞４．「<div class="release">」を含む部分＞<div class="release"> 上記しましたが何を抜きたいかによります。「<div class="release">」という文字が含まれているかだけがしりたいならpreg_match系の正規表現ではなく、完全一致の str_matchなどを使うよう勧められています。＞５．HTMLタグと文字全て＞^.*$ 複数行にまたがる場合など考慮していますか？単純に考えれば「.*」で十分かと（修飾子などで調整が可能）

質問者

補足 2012/03/08 15:47

ありがとうございます。＞１．全てのHTMLタグ＞<.*?> <hoge>fuga</hoge> を fuga にしたいのです。もう少し調べてみて <("[^"]*"|'[^']*'|[^'">])*> としてみましたがどうでしょうか。＞２．「2012.1.1」または「2012.01.01」のような数字の羅列＞(\d{4}).(\d{1,2}).(\d{1,2}) ありがとうございます (\d{4})\.(\d{1,2})\.(\d{1,2}) としました。＞４．「<div class="release">」を含む部分＞<div class="release"> <div class="release"> から</div>までを抜きたいのです。＞５．HTMLタグと文字全て＞^.*$ yahoo!pipesには「ｇ」「ｓ」「ｍ」「i」のオプションがあり、現在 ^.*$ にｇとｍをつけています。１と２の対応で処理時間が少し短くなりました。

正しい正規表現を教えてください

質問者が選んだベストアンサー

補足 2012/03/08 15:47

注目のQ&A

カテゴリ

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

専門家に質問してみよう