ベストアンサー

HTMLファイルからcharsetの文字列だけを抜き出すにはどうすれば

2010/04/27 01:35

HTMLファイルからcharsetの文字列だけを抜き出すにはどうすれば良いのでしょうか？本文がHTMLで構成されているメールからcharset=文字コード(Shift_JIS、UTF-8など)の文字コード部分を抜き出したいのですがどうすれば良いでしょうか？もちろんcharset自体が存在しない場合もあるため、ないときの処理も書かなくてはならないです。(存在しない時にはメールヘッダからの文字コードを渡します) 環境はVista Home Premium、Visual Studio2005(Std)上のC#です。

mizuki_sak
お礼率34% (13/38)

その他（プログラミング・開発）
回答数2
ありがとう数7

みんなの回答 （2）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

enjoyhotlife
ベストアンサー率25% (1/4)

2010/04/27 01:58 回答No.1

私は.NetなのですがまずHTMLファイルあからタグの配列を作り {<>,</>,<>,<>} 各値に対して正規表現を使用して抜き出しています HTMLファイルの中に複数文字コードがありそれぞれを取得したい場合です前提としてひとつしか文字コードがない場合は配列にする必要はありません C#の正規表現はここにあります http://www.atmarkit.co.jp/fdotnet/dotnettips/585regexreplace/regexreplace.html http://dobon.net/vb/dotnet/string/regexmatch.html 正規表現はここをいつも参考にしています http://hodade.adam.ne.jp/seiki/page.php?s_htmltag .Netですが正規表現の使い方ですクラスは同じなのでおそらく同じ使い方で問題ないと思います http://blog.goo.ne.jp/nsl_net/e/b1b212f571a7a009dbedd7c1b9f147b3 .Net C# には RegexOptions　がついていますこの設定の仕方で文字列が取れたり取れなかったりするので色々設定を変えてみてください

質問者