• 締切済み

特定の文字列に囲まれた文字列を複数同時に抽出したい

ホームページのソースの中から特定の文字列(タグ含む)に囲まれた文字を 複数同時にテキストファイルに抽出したいです。 例えば <table><tr><td width="100">い</tr></table> <table><tr><td width="88">ろ</tr></table> <table><tr><td width="55">は</tr></table> <table><tr><td width="100">にほ</tr></table> <table><tr><td width="55">へと</tr></table> とあった場合、「width="100">」と「</tr>」を指定して、 「い」と「にほ」をテキストファイルに書き出したいです。 何か良いソフトはないでしょうか?

みんなの回答

回答No.1

・ファイル数 ・途中改行の可能性(↓のような) <table><tr><td width="100">い </tr></table> が不明なので、ごく少数&可能性あり、の場合です http://www.vector.co.jp/soft/winnt/writing/se476839.html バックアップファイルを作った上で、ファイルを開き Ctrl + A Shift + F7 Ctrl + R 検索する文字列 (.*?)width="100">(.*?)</tr> 置換後の文字列 \2\n 「正規表現を使用する」にチェック すべて置換 最終行はゴミなので削除 ちなみに width の値にかかわらず、だと (.*?)width="\d+">(.*?)</tr>