C#で正規表現

2006/12/28 20:16

このQ&Aのポイント

C#で正規表現を使用してHTML形式の文字列から情報を取得する方法について教えてください。
現在はRegex.Replaceを使用して＜＞カッコに囲まれた部分を削除し、残りの文字列を解析していますが、＜td＞＜/td＞で囲まれた文字列を取得するように仕様変更したいです。
具体的に分からなかった点は、（半角のダブルクォーテーション）の扱い・指定方法、＜td＞＜/td＞で囲まれた表現の具体的な書き方、＜td＞＜/td＞内に＜font＞などのさらに＜＞で囲まれた部分がある場合の対処方法です。

mooboogie
お礼率93% (27/29)

C・C++・C#
回答数1
ありがとう数2

みんなの回答 （1）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

sakusaker7
ベストアンサー率62% (800/1280)

2006/12/30 00:24 回答No.1

この種の処理に正規表現(だけ)で処理を行おうとするのはあまりお勧めできません。なぜなら、HTMLのような構造を持ったデータを処理するのには向いていないからです(できないというわけでもない)。 CodeZine：Microsoft C#でのHTML構文解析（.NET Framework, 構文解析, パーサ, HTML） http://codezine.jp/a/article/aid/145.aspx# のような手段を考えることをお勧めします。まあ参考までに書いておきますが、 <td 属性>データ</td> というパターンなら、 <td[^>]*>(.*?)</td> で最初のグループに td の中身が取れます。 >　１．”（半角のダブルクォーテーション）の扱い・指定方法これは \" でいけませんか?

質問者

お礼 2006/12/30 13:31

すべてを見透かされたようで、少し恥ずかしい気分です。というのは、実はそのサイトを見た後、「な、長い」と思い、苦手なくせに正規表現での抽出に逃げようとした経緯があったからです＾＾；１．Perlスクリプトであると簡単にTD属性の情報が取得できるので、それを利用する２．HTML構文解析ルーチンを設けて、それで対応する３．教えていただいた正規表現でとりあえず運用する３で運用しつつ、１での運用を準備し、２を勉強して将来に備える、この流れで、sakusaker7さんのご助言を生かしたいと思います。ありがとうございました。

C#で正規表現

C#で正規表現

質問者が選んだベストアンサー

お礼 2006/12/30 13:31

注目のQ&A

カテゴリ

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

専門家に質問してみよう