※ ChatGPTを利用し、要約された質問です(原文:ユニコードのサロゲートペア文字の内部コードについて)
ユニコードのサロゲートペア文字の内部コードについて
このQ&Aのポイント
ユニコードのサロゲートペア文字の内部コードについて調査しています。
Windows Vista以降では、JIS2004対応の文字コードとなり、ユニコード文字の中にカスケードペアの文字が存在することがわかっています。
カスケードペアは2バイトずつ4バイトで1文字を表現し、リトルエンディアンの場合にはどのような順番になるのか疑問です。
ユニコードのサロゲートペア文字の内部コードについて
Windows Vista から、文字コードがJIS2004対応となり、ユニコード文字の中に、カスケードペアの文字が存在すると聞き及んでいますが、当方は、まだ XP のままで、また、JIS2004対応のMSフォントもインストールしておりません。
1点お教えください。
カスケードペアは、xD800~xDBFF 及び、xDC00~xDFFF の2バイトずつ、4バイトで1文字を表現するそうですが、
たとえば、ユニコードx2000B(丈の右上に犬のように点が付いた文字)の場合、計算すると、xD840 + xDC0B であらわせるようですが、リトルエンディアンでは、
x40D80BDC となるのでしょうか。 それとも、
x0BDC40D8 となるのでしょうか。
上段になるような気がするのですが、根拠がはっきりしません。
宜しくお願い致します。
補足
tabide様 早速の回答ありがとうございます。 UTF-16LEを前提としておりました。 2バイトずつのエンディアンということですね。 シフトJISで、1バイトずつで、漢字/ANKを識別していたわけですから、 ユニコードでは、2バイトずつで、サロゲートペアかどうかを識別するので、 当然、2バイトとなるのでしょうね。 ありがとうございました。