• ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:Web ページのテキスト取得)

Webページのテキスト取得方法と文字化け対策

このQ&Aのポイント
  • Webページのテキストを取得する方法と文字化けの対策について教えてください。
  • Webページのテキストを取得する際に、日本語が文字化けする問題が発生します。これを解決する方法について詳しく教えてください。
  • また、HTMLタグを除いたテキストのみを取得する方法についても教えてください。

質問者が選んだベストアンサー

  • ベストアンサー
  • prophetok
  • ベストアンサー率44% (13/29)
回答No.1

日本語が文字化け対応 もし、コマンドプロンプトへの出力での文字化けであれば、コマンドプロンプトの文字コードをUTF-8に変更、レジストリもいじって日本語も表示できるようにする必要もあり。参考URL 1番目 その他の環境での文字化けでも、UTF-8文字列をMS932として解釈しているはずなので、環境をUTF-8に変更すれば解決するはず。 テキスト(htmlタグを除く)だけを取得する方法 HTML自体がテキストなので、何をしたいのか、よく分からん。 画面に表示されるテキストのみ取得したいという意味なら、自前でHTMLを解析するか、既存のHTMLパーサを利用する。参考URL 2番目

参考URL:
http://fine.ap.teacup.com/hepo/23.html,http://java-source.net/open-source/html-parsers
noname#101202
質問者

お礼

ありがとうございます。 最初の件は、InputStreamReader の第2パラに String で "utf-8" を指定したらうまくいきました。 HTML パーサを調べて見ます。

関連するQ&A