ベストアンサー

正規表現で「より前」と「より後」

2009/08/31 17:48

正規表現を使用し、複数のHTMLファイルのテーブルを一括で抜き出そうとしています。ファイルは　本文<table>残す部分</table>本文　となっています。本文は各自異なる為、普通の置換え機能で、一気に削除できません。調べてみた所、正規表現を使い、$`や$'　を使うと、特定の文字列の前や後を選択することができるようなのですが、具体的にどう使うかがよく分からず、試行錯誤してみましたが、失敗してしまいました。正規表現で、「より前」や「より後」を選択し、削除する方法がございましたら、教えて下さい。宜しくお願い致します。

yappaiides
お礼率90% (172/191)

その他（プログラミング・開発）
回答数6
ありがとう数6

みんなの回答 （6）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

fujillin
ベストアンサー率61% (1594/2576)

2009/08/31 19:19 回答No.2

正規表現は、不得手なのですが… まず最初に、使用言語によって、正規表現の記述方法は違いますので、使用する文字が変わってきますし、オプションなども違うでしょう。言語による違いは　http://www.kt.rim.or.jp/~kbk/regex/regex.html なので、ここから後は雰囲気のみで読んでください。 ------------------------------------------------------ 最初の<table>が出てくるまで、最後の</table>以降などは　/^(.*?)<table>/　、　/<\/table>(.*?)$/ などで対応できるかと思います。 <table>タグに属性が設定されている可能性を考慮するなら、「<table」までのほうが良いのかも。また、タグは大文字の可能性もあるりますし、途中に改行が含まれる可能性もあるので、オプション指定した方が良いでしょう。一方で、複数のテーブルがある場合、例えば…（**は文字列）　　　　************** <table>*************</table> 　　　　************** <table>*************</table> とか、　　　　************** <table>************* <table>*************</table> 　　　　**************</table> みたいな場合、あるいはこれらの複合形なども考えるとテーブル以外を消すよりも、テーブルを抜き出した方が良いかも。　/(<table>.*?<\/table>)/ この場合でも入れ子のテーブルをどう処理するのかは、考えねばなりません。（先に、内側を記号などに置き換えてから外側を検索するとか、あるいは一気に全部マッチさせるとか…）さらには、コメント行やスクリプトなどの中に、これらのタグが出てくる可能性まで考えると、なかなか一筋縄ではいかなくなりますね。おまけ　HTMLタグの正規表現及びコメントタグの正規表現　http://www.din.or.jp/~ohzaki/perl.htm#HTML_Tag

質問者

お礼 2009/08/31 23:19

大変詳しいご回答を下さり有り難うございました。まったく無知な状態から、少し正規表現の特徴が分かりました。 Dreamweaver の機能だと、何故かソースに適用／正規表現を使用モードにしても「マッチするデータがありません」となっていました。ので、他のエディタ(jedit X) に変え、構文を Perl の設定にしてみたところ、ご教授頂いた　^(.*?)<table> で、テーブル前を一括削除することができました。テーブル以降の削除には、まだ失敗してしまいす。<\/table>(.*?)$ で検索すると、(前後の/ありでも、) 何も選択されない状態です。今回の作業は、幸い、テーブルが一つあるだけのファイル群なので、削除する方法にしようと思います。でもとても参考になります。引き続き、テーブル以降の選択について、ご教授頂ける方いらっしゃいましたら、宜しくお願いいたします。

ログインすると、全ての回答が全文表示されます。

その他の回答 (5)

kawacchi
ベストアンサー率83% (26/31)

2009/09/01 18:47 回答No.6

こんばんは。 DreamweaverCS3で試してみましたが、 ([\d\D]*<table>)|(</table>[\d\D]*) で置換したところ、tableタグの前後を削除できました。自分もまだ正規表現を勉強し始めたばかりなので、もっとスマートなやり方があるかもしれませんが、置換はできます、ということでご報告します。 tableタグの前の部分はすでに削除されたようですので心配は不要かと思いますが、 #2さんのおっしゃるように、tableタグに属性がある場合は <table>を<tableにすると検索に引っかかってくれます。

質問者

お礼 2009/09/01 21:44

こんばんは、ご回答有り難うございます。おお、無事成功しました！とても助かりました。数百個分のファイルだったので・・正規表現やプログラミング全般は、縁のない世界だと思っていたのですが、皆さんのアドバイスも含め必要性を強く感じる為、私も真剣に勉強をしようと思います。本当に有り難うございましたm(_ _)m

ログインすると、全ての回答が全文表示されます。

fujillin
ベストアンサー率61% (1594/2576)

2009/09/01 18:15 回答No.5

#2です。＞テーブル以降の削除には、まだ失敗してしまいす。え～～っと。　・・・・・・すんません。使用言語にもよりますが、メタキャラの「.」には改行が含まれない可能性もあります。なので、\s*を付け加えないとうまくないかも… ぅんっ？・・・・ってーことは、前半のやつも　[.\s]*? じゃないとダメっつーことかな？むぐぅ・・このあたりがまさに「不得手」な理由ですぅ　^^;ゞ

質問者

お礼 2009/09/01 21:39

再びご回答有り難うございますm(_ _)m 「.」に改行が含まれない場合もあるのですね。参考になります。何故前半だけ成功するのか、私も謎です・・でも相談にのって頂き有り難うございました！

ログインすると、全ての回答が全文表示されます。

noname#182251

2009/09/01 16:51 回答No.4

私も正規表現は苦手なのですが、必要に迫られ同じような処理をするアプリケーションを作成しています。私のアプリケーションは「ＨＴＭＬ文の中で、ユーザーが注目する箇所を監視し、変更時に通知する」ものです。要するにＨＴＭＬ文の特定箇所を切り抜く必要があるわけです。監視するＵＲＬは、例えば「教えて！goo」で http://oshiete1.goo.ne.jp/c260.html を見て、最新の質問をピックアップします。具体的方法は、正規表現で「前置マーク」「ターゲット」「後置マーク」を指定し、最初は「前置マーク」＋「ターゲット」＋「後置マーク」に該当する部分を切り取り、さらに「前置マーク」と「後置マーク」に該当する部分を削除します。正規表現は「前置マーク」：qa[0-9]+\.html"> 「ターゲット」：.* 「後置マーク」：</a> です。今テストしたところ「http GETに混入されるこのデータは何でしょうか」が抽出されました。もちろん対象によりこの正規表現は変更する必要があります。多少参考にならないでしょうか？

質問者