- ベストアンサー
文字コード変換の場合わけ。
あるURLのソースの文字コードを判定してUnicodeに変換する メソッドや方法はありませんか? URLによってshiftJISでかかれていたり、EUC-JP で書かれているページがあるのでそれを 判定してUnicodeに変換して出力する方法が欲しいのです。 現在は InputStreamReader isr = new InputStreamReader(is,"EUC-JP"); コンストラクタを用いてコード変換を行っています。 お願いします。
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
iso-2022-jp、Shift_JIS、EUC-JP の三つだけ判定できればいいのなら、InputStreamReader のコンストラクタに渡すエンコーディングに "JISAutoDetect" を指定すれば大概うまく読み込んでくれますけど。
その他の回答 (1)
- sha-girl
- ベストアンサー率52% (430/816)
回答No.1
根本的にEUCかSJISかを判定することは難しいです。 とりあえず一旦すべての文字列をバイト配列 に読み込み、出現度からsjisかeucかを判定する 方法がありますが、確実ではありません。 もしソースの中にタグの<meta charset=があるなら それが指標になります。
質問者
お礼
ありがとうございます。
お礼
ありがとうございます。