ベストアンサー

UTF8の文字

2007/08/15 15:18

１文字のＵＴＦ８の長さは、１～６桁がありますが、下記のような、３文字以上の場合の処理はどうしたほうがいいですか。 ※sInputは、unsigned short if ( (*pInput < 0) && *(pInput+1) ) { sInput = ((byte)(*(pInput++)))<<8; // ２桁 sInput |= (byte)(*(pInput++)); }else{ sInput = (byte)(*(pInput++)); // １桁 }

minidx
お礼率57% (4/7)

C・C++・C#
回答数2
ありがとう数1

みんなの回答 （2）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

Tacosan
ベストアンサー率23% (3656/15482)

2007/08/15 17:35 回答No.2

UTF8 のエンコーディングがわかっていれば問題ない, はずなんだけど.... これ, いきなり 2バイトのときから間違っているんじゃないかな? 各コードポイントのバイトは先頭バイトで決まり, 0??? ???? ⇒ 1バイト (7ビット) 110? ???? ⇒ 2バイト (11ビット) 1110 ???? ⇒ 3バイト (16ビット) 1111 0??? ⇒ 4バイト (21ビット) 1111 10?? ⇒ 5バイト (26ビット) 1111 110? ⇒ 6バイト (31ビット) (2バイト目以降は全て 10?? ???? の形) だったはず. だから, 例えば if (*(byte *)pInput & 0x80 == 0) { sInput = *(byte *)pInput; } else if (*(byte *)pInput & 0xe0 == 0xc0) { sInput = ((*(byte *)pInput & 0x1f) << 6) + (*(byte *)(pInput + 1) & 0x3f); } else if (*(byte *)pInput & 0xf0 == 0xe0) { sInput = ((*(byte *)pInput & 0x0f) << 12) + ((*(byte *)(pInput + 1) & 0x3f) << 6) + (*(byte *)(pInput + 2) & 0x3f); } などとやればいいんじゃないかな. あ, インクリメントなんかは適当に処理してね. ついでだけど, この辺の処理は全部 unsigned にした方が簡単だし, 特別な事情がない限り short は使わないと思う.

質問者

お礼 2007/08/15 21:13

Thanks

その他の回答 (1)

shirayukix
ベストアンサー率43% (90/207)

2007/08/15 15:47 回答No.1

何をしたいんでしょうか？長さ6バイトの変数を用意したらいいんじゃないですか？

質問者

補足 2007/08/15 16:24

文字単位で、該当文字の数字値を取得して、別のところの配列のインデックス値として使いたいのです。英字の変換は簡単だけど、漢字など３桁長以上のは良くわからないです…

UTF8の文字

質問者が選んだベストアンサー

お礼 2007/08/15 21:13

その他の回答 (1)

補足 2007/08/15 16:24

関連するQ&A

バイナリの文字列を変換したい...

UTF-8とUTF-16について質問です。

UTF-8だと文字化けしてします。

UTF_16で取得しUTF_8で出力したい!!

utf-8について

UTF8が１６進文字列に化ける（変わる？）

16進数を10進数文字列に変換する

3バイト文字(UTF-8)をprintfで等幅表示をするには？

ＳＪＩＳ⇔ＵＴＦ-8の文字コード変換

文字化けを直したい(Unicode(UTF8)の場合)

H8-3052Fを用いた文字列の受信

突然の文字化けで困っています　(UTF-8→???）

今更ながらdbmopenでutf8環境にハマってます。

文字コードチェックについて

2byte文字の判定

配列のポインタについて

utf-8環境で標準入力からの全角文字にマッチさせる方法

４バイトUTF-8文字でUPDATEするには？

文字列を判断して処理をする書き方

ビットを操作する。

注目のQ&A

カテゴリ

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

専門家に質問してみよう

UTF8の文字

質問者が選んだベストアンサー

お礼 2007/08/15 21:13

その他の回答 (1)

補足 2007/08/15 16:24

関連するQ&A

バイナリの文字列を変換したい...

UTF-8とUTF-16について質問です。

UTF-8だと文字化けしてします。

UTF_16で取得しUTF_8で出力したい!!

utf-8について

UTF8が１６進文字列に化ける（変わる？）

16進数を10進数文字列に変換する

3バイト文字(UTF-8)をprintfで等幅表示をするには？

ＳＪＩＳ⇔ＵＴＦ-8の文字コード変換

文字化けを直したい(Unicode(UTF8)の場合)

H8-3052Fを用いた文字列の受信

突然の文字化けで困っています (UTF-8→???）

今更ながらdbmopenでutf8環境にハマってます。

文字コードチェックについて

2byte文字の判定

配列のポインタについて

utf-8環境で標準入力からの全角文字にマッチさせる方法

４バイトUTF-8文字でUPDATEするには？

文字列を判断して処理をする書き方

ビットを操作する。

注目のQ&A

カテゴリ

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

専門家に質問してみよう

突然の文字化けで困っています　(UTF-8→???）