• ベストアンサー

HTMLソースファイルからタグを取り除く方法

HTMLソースファイルから、タグを完全に取り除く手法やモジュールを教えてください。 イメージとしましては、インターネットブラウザ上のHTMLページに対し <全選択→コピー→テキストファイルに貼り付ける> といった作業に類似したことをしたいです。 s/<.*?>//; を用いた削除では、本質問3行目のような表現も削除してしまい、 またブラウザを用いた手動の方法では、大量のファイルを処理しきれず困っています。 どなたかよろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
  • rafysta
  • ベストアンサー率45% (24/53)
回答No.2

HTML::FormatText モジュール

suzuki3
質問者

お礼

ありがとうございます! だめだったら、手作業でやろうと思っていたので大変助かりました。

その他の回答 (3)

  • steel_gray
  • ベストアンサー率66% (1052/1578)
回答No.4

#3です <>の中身が日本語がだと無視されずに表示されるようですね。失礼しました。

  • steel_gray
  • ベストアンサー率66% (1052/1578)
回答No.3

HTMLファイル中に <この部分は削除しないで!!> と、書いてもテキストとして表示される事はない(ブラウザは未知の要素として無視する)のだからタグとして削除されてもかまわないのでは?

  • edomin
  • ベストアンサー率32% (327/1003)
回答No.1

こちらは、参考になりますか? http://www.openspc2.org/book/InDesignCS/hard/015/index.html

参考URL:
http://www.openspc2.org/book/InDesignCS/hard/015/index.html
suzuki3
質問者

お礼

早速お返事ありがとうございます。 紹介していただいたwebページを参照してみました。 紹介していただいたソースファイルには、下記のような記述がありました。 -- str = new RegExp("<[^>]*?>","gmi"); // HTMLタグ削除 -- しかし、この正規表現だとやはり <この部分は削除しないで!!> といった表現もタグと判断して削除してしまうように感じます。実際はどうなんでしょうか・・・・・・

関連するQ&A