- 締切済み
文字コードに関する質問
こんにちわ. 私は現在, 文字コードについて勉強しております. まずはじめに, Ascii コードを理解しました. 続いて JIS X 0208 について調べているところです. ここで, 疑問が湧きました. 一般的な説明では, "JIS X 0208 は 2 バイト文字( 以降, 1 バイト 8 ビットと仮定 ) である." とのことなのですが, これは "JIS X 0208 で 2 の 16 乗の文字を収録できる"という解釈で正しいのでしょうか? また, ネット上の説明によれば, JIS X 0208 では, 約 6800 字程度の文字が収録されているとのことなのですが, なぜ, 2 の 16 乗のすべてを使わないのですか? 将来的な拡張の可能性を考えてのことなのでしょうか? マシンスペック的な問題なのでしょうか? よろしくお願いいたします.
- みんなの回答 (4)
- 専門家の回答
みんなの回答
- uyama33
- ベストアンサー率30% (137/450)
いろいろな概念が混同されているようです。 日本語情報処理 Ken_Lunde 著 ソフトバンク株式会社 出版事業部 が参考になると思いますので、ぜひごらんください。
JIS X 0208は文字集合の規格です。これは、文字列がどのようなバイト列で表されるかとは切り離して考えた方がよいです。文字集合はバイト表現にしばられない抽象的な表です。 この文字集合は94×94文字の表なので、最大でも8836文字しか収録できません。なぜ94なのかというと、ASCIIにおいて文字の表現に使われる、つまり制御文字と空白を除く図形文字が 0x21 ~ 0x7E の94個だからです(このあたりは国際規格のISO 2022で規定され、文字集合の呼び出しに用いられるバッファの概念と関連します)。 文字集合の文字は区点コードで示されます。これを特定のアルゴリズムでバイト列に変換したものが、シフトJISやEUC-JP、JISコードです。そのため、区点コードと、それぞれの文字コードのバイト表現は別ものになります。
- TT414
- ベストアンサー率18% (72/384)
>まずはじめに, Ascii コードを理解しました. 理解できていません。ASCIIは「American Standard Code for Information Interchange」の略です、「Ascii コード」なる言葉はありません。
- koujikuu
- ベストアンサー率43% (429/993)
シフトJISコードですね、ASCコードの不使用コードエリアを2バイト文字に拡張したものです 65536文字使えるわけではありません。