Webページのテキスト取得方法と文字化け対策

2009/06/15 09:53

このQ&Aのポイント

Webページのテキストを取得する方法と文字化けの対策について教えてください。
Webページのテキストを取得する際に、日本語が文字化けする問題が発生します。これを解決する方法について詳しく教えてください。
また、HTMLタグを除いたテキストのみを取得する方法についても教えてください。

noname#101202

Java
回答数1
ありがとう数1

みんなの回答 （1）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

prophetok
ベストアンサー率44% (13/29)

2009/06/15 16:45 回答No.1

日本語が文字化け対応もし、コマンドプロンプトへの出力での文字化けであれば、コマンドプロンプトの文字コードをUTF-8に変更、レジストリもいじって日本語も表示できるようにする必要もあり。参考URL　１番目その他の環境での文字化けでも、UTF-8文字列をMS932として解釈しているはずなので、環境をUTF-8に変更すれば解決するはず。テキスト（htmlタグを除く）だけを取得する方法 HTML自体がテキストなので、何をしたいのか、よく分からん。画面に表示されるテキストのみ取得したいという意味なら、自前でHTMLを解析するか、既存のHTMLパーサを利用する。参考URL　２番目