> 既存のソフトでutf-8に対応していないものが多い
今後の為にも、「非ASCII文字を使用する時は常に UTF-8」をお勧めします。 今後、UTF-8 を使う為の苦労は減り、Shift_Jis や EUC-JP を使う為の苦労は増える方向だと思います。
もっとも、E-mailなんかは規格で日本語は ISO-2022-JP(いわゆるJIS) と決まっているので勝手に変えちゃまずいですが。
> shift-JISにはあったのにutf-8には含まれていなかったり
SJIS に含まれる文字は、SJIS が本当の Shift_Jis だろうが Windows-31J だろうが UTF-8 にも収録されてる筈です。 Shift_Jis ⇒ UTF-8 変換に使用されたソフトが古いとか不完全とかでは無いでしょうか。 あるいは、Windows-31J(マイクロソフトのSJIS) を業界規格の Shift_Jis として変換たから未定義文字が含まれるのかも。
> そこで中国語へ意訳した単語の後ろにカッコ書きで日本語表示をつけて
> 中国語の文章の中にポツポツ出てくる日本語を全部参照で渡すというのもエラく大変ですしね。
文章中に日中混在で実体参照もイヤとなると、使用文字を全て収録する文字コードを選ぶか画像表示するかです。 後者は、実体参照よりさらに面倒なのでダメですね?
本当に、UTF-8 はダメですか? 他に、中国語コードの GBK とか GBK2K とかの文字コードも SJIS の文字を全て含んでると聞いた事があります。
# マイクロソフトが「GB2312」と呼ぶ文字コードは、実は GBK の様です。 業界規格で定義される GB2312 は GBK とは別の物で、日本語文字は含んでいません。 (GB2312 は中国語EUC で、それを拡張したのが GBK。 マイクロソフトは混同をやめて欲しい)
余談ですが、カッコ内の補足、日本語より英語が良かったりしませんか?
お礼
utf-8で記述して、utf-8に含まれない記号などが見つかった場合は画像処理するのが一番現実的みたいですね。 ありがとうございました。