- 締切済み
HTML形式のメールからテキストのみを抽出したい
HTML形式の本文からHTMLのタグを除去して、プレーンテキストのみを抽出するプログラムを作成していますが、うまく処理ができなくて困っています。 使用言語はperl,HTML::Parserを使用してプログラムを作成したいと考えています。 日本語の本文のテキスト抽出を行っているのですが、 うまく抽出できるものと文字化けするものがあります。 nkfモジュールを使用すれば解決できそうだと考え、試行錯誤しておりますが、うまく処理できていません。 perlテキスト処理に詳しい方がいらっしゃいましたら、 教えてください。 よろしくお願いいたします。
- みんなの回答 (1)
- 専門家の回答
みんなの回答
- ORUKA1951
- ベストアンサー率45% (5062/11036)
回答No.1
お礼
返信が遅くなってしまい申し訳ありません。 回答と掲載していただいたサイトを参考にしまして HTMLタグの除去ができました。 本当にありがとうございました。