• ベストアンサー

文字コード変換の場合わけ。

あるURLのソースの文字コードを判定してUnicodeに変換する メソッドや方法はありませんか? URLによってshiftJISでかかれていたり、EUC-JP で書かれているページがあるのでそれを 判定してUnicodeに変換して出力する方法が欲しいのです。 現在は InputStreamReader isr = new InputStreamReader(is,"EUC-JP"); コンストラクタを用いてコード変換を行っています。 お願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • UKY
  • ベストアンサー率50% (604/1207)
回答No.2

iso-2022-jp、Shift_JIS、EUC-JP の三つだけ判定できればいいのなら、InputStreamReader のコンストラクタに渡すエンコーディングに "JISAutoDetect" を指定すれば大概うまく読み込んでくれますけど。

Judau_MSZ-010
質問者

お礼

ありがとうございます。

その他の回答 (1)

  • sha-girl
  • ベストアンサー率52% (430/816)
回答No.1

根本的にEUCかSJISかを判定することは難しいです。 とりあえず一旦すべての文字列をバイト配列 に読み込み、出現度からsjisかeucかを判定する 方法がありますが、確実ではありません。 もしソースの中にタグの<meta charset=があるなら それが指標になります。

Judau_MSZ-010
質問者

お礼

ありがとうございます。

関連するQ&A