※ ChatGPTを利用し、要約された質問です(原文:ある文字コードのHTMLを読み込むと文字バケが…)
HTML文字コードの読み込みで文字バケが起きる問題について
このQ&Aのポイント
EUC-JPのHTMLを読み込むと日本語が正しく表示されない問題について、対処法を教えてください。
Shift-JISでは正常に表示できるが、EUC-JPのHTMLを読み込むと文字バケが発生する問題について、解決策を教えてください。
ある特定の文字コードで記述されたHTMLを読み込むと、日本語の文字化けが発生する問題に直面しました。どのように対処すればよいでしょうか?
例えばこのgooの文字コードはEUC-JPなのですが、これを以下のプログラム(抜粋)で読み込むと日本語がおかしくなります。
try {
URL url = new URL(tf.getText());
BufferedReader urlin = new BufferedReader(new InputStreamReader(url.openStream()));
String result = "";
while((result = urlin.readLine()) != null){
System.out.println(result);
}
urlin.close();
}
Shift-JISだと正常に表示できるのですが…
どうかアドバイスをお願いします。
お礼
いろいろ調べてみた結果、日本語の文字コードは "JISAutoDetect" にするみたいです。 すごくヒントになりました。 ありがとうございました。
補足
返答ありがとうございます。 試してみました。 すると、 java.io.UnsupportedEncodingException: AutoDetect というエラーがでました。 何が問題なのか、わかりません…