締切済み

HTML形式のメールからテキストのみを抽出したい

2009/11/27 16:59

HTML形式の本文からHTMLのタグを除去して、プレーンテキストのみを抽出するプログラムを作成していますが、うまく処理ができなくて困っています。使用言語はperl，HTML::Parserを使用してプログラムを作成したいと考えています。日本語の本文のテキスト抽出を行っているのですが、うまく抽出できるものと文字化けするものがあります。 nkfモジュールを使用すれば解決できそうだと考え、試行錯誤しておりますが、うまく処理できていません。 perlテキスト処理に詳しい方がいらっしゃいましたら、教えてください。よろしくお願いいたします。

pony222

pony222
お礼率100% (1/1)

Perl
回答数1
ありがとう数2

みんなの回答 （1）
専門家の回答

みんなの回答

ORUKA1951

ORUKA1951
ベストアンサー率45% (5062/11036)

2009/11/27 17:49 回答No.1

これは意外と難しい、Perlプログラマを悩ませる難題。ただ、メールソフトによって作成されるものなので、手書きのHTMLよりは楽でしょう。　参考になるサイトをあげておきます。これで該当するものを削除すればよいかと【参考サイト】 Perlメモ　 http://www.din.or.jp/~ohzaki/perl.htm#HTML_Tag そして、 s/$tag_regex//gs;

pony222

質問者

お礼 2009/12/04 14:42

返信が遅くなってしまい申し訳ありません。回答と掲載していただいたサイトを参考にしまして HTMLタグの除去ができました。本当にありがとうございました。

ログインすると、全ての回答が全文表示されます。

関連するQ&A

注目のQ&A

カテゴリ

[技術者向] コンピューター
- プログラミング・開発

カテゴリ一覧を見る

OKWAVE コラム

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

専門家に質問してみよう

職業から探して質問する

専門家登録