- ベストアンサー
HTMLソースファイルからタグを取り除く方法
HTMLソースファイルから、タグを完全に取り除く手法やモジュールを教えてください。 イメージとしましては、インターネットブラウザ上のHTMLページに対し <全選択→コピー→テキストファイルに貼り付ける> といった作業に類似したことをしたいです。 s/<.*?>//; を用いた削除では、本質問3行目のような表現も削除してしまい、 またブラウザを用いた手動の方法では、大量のファイルを処理しきれず困っています。 どなたかよろしくお願いいたします。
- みんなの回答 (4)
- 専門家の回答
質問者が選んだベストアンサー
HTML::FormatText モジュール
その他の回答 (3)
- steel_gray
- ベストアンサー率66% (1052/1578)
回答No.4
#3です <>の中身が日本語がだと無視されずに表示されるようですね。失礼しました。
- steel_gray
- ベストアンサー率66% (1052/1578)
回答No.3
HTMLファイル中に <この部分は削除しないで!!> と、書いてもテキストとして表示される事はない(ブラウザは未知の要素として無視する)のだからタグとして削除されてもかまわないのでは?
- edomin
- ベストアンサー率32% (327/1003)
回答No.1
こちらは、参考になりますか? http://www.openspc2.org/book/InDesignCS/hard/015/index.html
質問者
お礼
早速お返事ありがとうございます。 紹介していただいたwebページを参照してみました。 紹介していただいたソースファイルには、下記のような記述がありました。 -- str = new RegExp("<[^>]*?>","gmi"); // HTMLタグ削除 -- しかし、この正規表現だとやはり <この部分は削除しないで!!> といった表現もタグと判断して削除してしまうように感じます。実際はどうなんでしょうか・・・・・・
お礼
ありがとうございます! だめだったら、手作業でやろうと思っていたので大変助かりました。