- ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:ユニコードのサロゲートペア文字の内部コードについて)
ユニコードのサロゲートペア文字の内部コードについて
このQ&Aのポイント
- ユニコードのサロゲートペア文字の内部コードについて調査しています。
- Windows Vista以降では、JIS2004対応の文字コードとなり、ユニコード文字の中にカスケードペアの文字が存在することがわかっています。
- カスケードペアは2バイトずつ4バイトで1文字を表現し、リトルエンディアンの場合にはどのような順番になるのか疑問です。
- みんなの回答 (1)
- 専門家の回答
質問者が選んだベストアンサー
リトルエンディアンということは、UTF-16LE形式(Windowsでの内部形式はこれ)ですね。 実際にテキストエディタ上で入力して保存、バイナリエディタで開けて確認しました。 UTF-16LE: 40 D8 0B DC 参考までに、主な他の形式も掲げます。 UTF-16BE: D8 40 DC 0B UTF-8: F0 A0 80 8B
補足
tabide様 早速の回答ありがとうございます。 UTF-16LEを前提としておりました。 2バイトずつのエンディアンということですね。 シフトJISで、1バイトずつで、漢字/ANKを識別していたわけですから、 ユニコードでは、2バイトずつで、サロゲートペアかどうかを識別するので、 当然、2バイトとなるのでしょうね。 ありがとうございました。