• ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:ユニコードのサロゲートペア文字の内部コードについて)

ユニコードのサロゲートペア文字の内部コードについて

このQ&Aのポイント
  • ユニコードのサロゲートペア文字の内部コードについて調査しています。
  • Windows Vista以降では、JIS2004対応の文字コードとなり、ユニコード文字の中にカスケードペアの文字が存在することがわかっています。
  • カスケードペアは2バイトずつ4バイトで1文字を表現し、リトルエンディアンの場合にはどのような順番になるのか疑問です。

質問者が選んだベストアンサー

  • ベストアンサー
  • tabide
  • ベストアンサー率44% (148/331)
回答No.1

リトルエンディアンということは、UTF-16LE形式(Windowsでの内部形式はこれ)ですね。 実際にテキストエディタ上で入力して保存、バイナリエディタで開けて確認しました。 UTF-16LE: 40 D8 0B DC 参考までに、主な他の形式も掲げます。 UTF-16BE: D8 40 DC 0B UTF-8: F0 A0 80 8B

kttn
質問者

補足

 tabide様 早速の回答ありがとうございます。  UTF-16LEを前提としておりました。  2バイトずつのエンディアンということですね。 シフトJISで、1バイトずつで、漢字/ANKを識別していたわけですから、 ユニコードでは、2バイトずつで、サロゲートペアかどうかを識別するので、 当然、2バイトとなるのでしょうね。  ありがとうございました。

関連するQ&A