- ベストアンサー
GB2312とGB18030についての疑問
- GB2312は文字コードではなく、文字の集合体と考えられます。
- GB2312-80は文字コードとして使われることがあります。
- GB18030も文字コードではなく、文字の集合体としてとらえられます。
- みんなの回答 (3)
- 専門家の回答
質問者が選んだベストアンサー
No.2です。お礼の内容の確認ですが、 > GB2312:文字コードは一意にEUC-CNとなる。よってGB2312という言葉はEUC-CNの代わりに用いられており、文字コードという意味で使われているのが実際。 「文字コードは一意にEUC-CNとなる」 →「文字コードはEUC-CNを使用する場合がほとんどである(HZ-GB-2312やISO-2022-CNという、 他の符号化方式もあるが、ほとんど使われていない)」 というのが私の認識です。 「文字コードという意味で使われているのが実際。」 →「文字集合/文字コードの両方の意味で区別されず使われているのが実際。」 > GB18030:IANAにも文字コードとして登録されている。よって文字コードとして使ってよい。 「よって文字コードとして使ってよい。」 →「よって文字集合/文字コードの両方の意味で区別せず使ってよい。」 > つまり、GB2312もGB18030もどちらも今日ではUNICODEなどと同様に、文字コードという意味として使われている。また、使ってもよい。 「文字コードという意味として使われている。」 →「文字集合/文字コードの両方の意味で区別せず使ってよい。」 「UNICODEなどと同様に」 →「UNICODE」は、狭義の意味では文字コード標準化団体(Unicode Conortium)が 提唱した文字集合の規格だと思います。ただ、その文字集合の符号化方式を表した 複数の文字コード(UTF-8やUTF-16等)の集合の意味で使われる場合もあると思います。 まとめると、 -------------------------------------------------------- GB2312もGB18030は、文字集合/文字コード両方の意味で区別されずに使用される。 たいていは区別しなくても困らない。どちらかに限定した意味として使用したい場合は、 文章でそれを補足しないと誤解される。(補足する時は「文字コードの意味です」と 言っても伝わらない。みんな文字集合と文字コードをあまり区別しないので。 「文字集合の符号化方式の意味です」と言えば、かろうじて伝わるかもしれない。) Unicodeは、本来文字集合の意味であるが、複数の文字コード(UTF-8,UTF-16等)の集合の 意味で使われる場合もある。明確に文字コードを表したい場合は、「UTF-8」や「UTF-16」と 表現する必要がある。 -------------------------------------------------------- というのが私の認識です。
その他の回答 (2)
- Lchan0211
- ベストアンサー率64% (239/371)
「文字コード」が、文字集合の符号化方式を表したものを意味しているのであれば、 本来GB2312は文字集合の規格であり、文字集合の符号化方式はEUC-CNなのだと思います。 ただ、質問のwikiページ(http://ja.wikipedia.org/wiki/GB_2312 )にも書かれているように、 今日ではGB2312の符号化方式としては、もっぱらEUC-CNのみが使われるため、単にGB2312 といっただけでEUC-CNを意味している場合が多いということです。 つまり、GB2312は、EUC-CNの別名として文字コードの意味でも用いられるということです。 http://www.iana.org/assignments/character-sets を参照するとわかりますが、文字コードとしてEUC-JPとかEUC-KRという名前は登録されて いますが、EUC-CNは登録されていません。替わりにGB2312という名前が文字コード名として 登録されています。 GB18030は、質問のwikiページ(http://ja.wikipedia.org/wiki/GB_18030 )を 読む限り、追加の文字集合を定義した上で、その符号化方式も一緒に規定した ものであり、(文字集合+符号化方式)=文字コードであると言ってよいと思います。 IANAにも文字コード名とて登録されています。 中国の文字コードは、日本の文字コードのように、一つの文字集合(JIS X0208)を 複数の符号化方式(EUC-JP,SJIS,ISO-2022-JP)で表すようなことがあまりないため、 文字集合も文字コードも同じような意味で区別せず使われていると思います。
お礼
まとめると・・・・ GB2312:文字コードは一意にEUC-CNとなる。よってGB2312という言葉はEUC-CNの代わりに用いられており、文字コードという意味で使われているのが実際。 GB18030:IANAにも文字コードとして登録されている。よって文字コードとして使ってよい。 つまり、GB2312もGB18030もどちらも今日ではUNICODEなどと同様に、文字コードという意味として使われている。また、使ってもよい。 上記で認識に間違いはないでしょうか? ------------------------------------------ ●補足● IANAとは:インターネット上で利用されるアドレス資源(IPアドレス、ドメイン名、 プロトコル番号など)の標準化や割り当てを行っていた組織。
- kokorone
- ベストアンサー率38% (417/1093)
文字の集合体 と、 文字コード の違いは何? JISコード、アスキーコード、GBと、含まれる文字種別は異なります。それは、言語圏の違いで、ひとつの集合体では網羅できないからです。 そう言う視点から見ると文字の集合体です。 一方、一昔前の活字印刷のように、活字を目でみながら1文字1文字探して、文章にしていた頃はまさに、集合体という表現でしたが、昨今のコンピュータ化により、上記の様々な集合体をコードに置き換えて、コンピュータ処理するようになり、そこで 必要になったのが1文字1文字に対応したコードなのです。 文字の集合体が異なれば、同じ文字でもコードが異なります。 いかがでしょうか?
お礼
回答ありがとうございます。 というと、GBもつまりは文字の見え方、ではなく記号として表現できる集合体という理解でよろしいでしょうか?つまりはアスキーコードなどと同じものという考え方でいいのでしょうか?
お礼
回答ありがとうございます。 申し訳ございません、最後に一点だけ確認させてください。 「GB2312もGB18030もどちらも本来は文字の集合体という意味であるが、 今日では文字集合/文字コードの両方の意味で区別せず使ってよい」 上記の認識で間違いないでしょうか?