ベストアンサー

マルチバイト文字列の部分取得方法は？

2006/09/28 12:57

EUCコードでスクリプトを書いています。 substr() で部分文字列を取得すると、2バイト文字がきれいに丸まりません。 $s = "12月23日はABCの誕生日"; print substr($s, 0, 14); "12月23日はABC" または "12月23日はABCの" を取得したい時は、どうすればよいのでしょうか？

xespr
お礼率73% (61/83)

Perl
回答数6
ありがとう数3

みんなの回答 （6）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

BLUEPIXY
ベストアンサー率50% (3003/5914)

2006/09/28 16:38 回答No.6

use encoding 'euc-jp'; $s = "12月23日はABCの誕生日"; print my_substr($s, 0, 14); sub my_substr($$$){ /* my_substr は、部分文字列を指定したバイト数幅で取り出す ** $str は、全角半角混在の文字列 ** $start は、取り出す"文字"位置 ** $len は、取り出す数(文字数でなくてバイト数) ** 取り出すバイト数を越えない(サンプルの'の'は含まない) */ my ($str, $start, $len) = @_; my $work=""; my $count=0; my $i; my $strlen=length $str; for($i=$start;$i<$strlen;$i++){ my $c = substr($str,$i,1); $count += ord($c) < 256 ? 1 : 2 ; last if $count > $len; $work .= $c; } return $work; }

質問者

お礼 2006/09/28 18:46

さすが BLUEPIXY さん！完璧です！お見事です。素晴らしく大成功でした！ありがとうございました！！

その他の回答 (5)

t140
ベストアンサー率39% (59/150)

2006/09/28 16:06 回答No.5

$n= 14; $s=~/^((?:\x8E[\xA1-\xDF]|\x8F?[\xA1-\xFE][\xA1-\xFE]|[\x09-\x7E]){0,$n})/; print $1,"\n"; ＃１４文字以内にマッチなら上記のようになりますが、＃１４文字ぴったりのときだけマッチさせるなら {$n} に書き換えてください。

質問者

補足 2006/09/28 18:44

ありがとうございます。ダメでした。 $s = "12月23日はABCの誕生日"; foreach $i ( 3 .. 9 ) { print "----\n\$i:$i\n"; # $s2 = my_substr($s, 0, $i); $s2 = substr($s, 0, $i); # $s2 =~ s/(\x8e|\x8f.|[^\x00-\x7F\x8e\x8f])$//; # $s2 =~ s/(\x8e|\x8f.?|[^\x00-\x7F\x8e\x8f])$//; $s2 =~ /^((?:\x8E[\xA1-\xDF]|\x8F?[\xA1-\xFE][\xA1-\xFE]|[\x09-\x7E]){0, $i})/; # $n -> $i に変えてます print "\$s2:$s2" . "\n"; } __END__ の実行結果 ---- $i:3 $s2:12・ ---- $i:4 $s2:12月 ---- $i:5 $s2:12月2 ---- $i:6 $s2:12月23 ---- $i:7 $s2:12月23搭 ---- $i:8 $s2:12月23日 ---- $i:9 $s2:12月23日ｋ

noname#25358

2006/09/28 15:08 回答No.4

　＃２です。　んー。こっちじゃ特に問題なく出てますね……。（連結しても）　s/(\x8e|\x8f.?|[^\x00-\x7F\x8e\x8f])$//; 　↑これでどうですか？

質問者

補足 2006/09/28 15:30

すみません。連結するしないは、私の確認ミスのようです。色々試しすぎて混乱してしまったようです。すみませんでした。どちらにしてもバグが表れるようです。 $s = "12月23日はABCの誕生日"; foreach $i ( 3 .. 25 ) { print "----\n\$i:$i\n"; $s2 = substr($s, 0, $i); # $s2 =~ s/(\x8e|\x8f.|[^\x00-\x7F\x8e\x8f])$//; $s2 =~ s/(\x8e|\x8f.?|[^\x00-\x7F\x8e\x8f])$//; # print "\$s2:$s2", "\n"; print "\$s2:$s2" . "\n"; } __END__

bgbg
ベストアンサー率53% (94/175)

2006/09/28 13:30 回答No.3

use encodingしましょう。実行時に内部的にUTF-8に変換され、1バイト文字も2バイト文字も1文字として扱えるようになります。 use encoding 'euc-jp'; $s = "12月23日はABCの誕生日"; print substr($s, 0, 14); 結果： 12月23日はABCの誕生日

参考URL：: http://www.pure.ne.jp/~learner/program/Perl_unicode.html#encoding

noname#25358

2006/09/28 13:29 回答No.2

　Perl 5.8 未満の場合の対応法です。　substr() で取り出した文字列に対し、下記の正規表現を実行してください。 $s = "12月23日はABCの誕生日"; $s = substr($s, 0, 14); $s =~ s/(\x8e|\x8f.|[^\x00-\x7F\x8e\x8f])$//; print $s; 　テストしてませんが、多分巧くいくと思います。　ロジックはＥＵＣ専用です。

質問者

お礼 2006/09/28 14:17

ありがとうございます。まさに求めていたご回答です。しかしながら、 $s = "12月23日はABCの誕生日"; $s = substr($s, 0, 4); $s =~ s/(\x8e|\x8f.|[^\x00-\x7F\x8e\x8f])$//; print $s, "\n"; # 正しく見える print $s . "\n"; # 連結すると末尾がおかしくなる丸め後の文字列の末尾に、まだ何か付いているのでしょうか？

fxdwg99
ベストアンサー率45% (43/94)

2006/09/28 13:25 回答No.1

perl5.8以上であれば、 use encoding “euc-jp”; を使うと、EUC文字列でもsubstrが正しく動作するそうです。それ以下のバージョンだと、substrで取り出した文字列の末尾を調べてEUC１バイト目なら削除する、という処理を自前で行う必要があるでしょう。

質問者

お礼 2006/09/28 13:42

ありがとうございます。 use encoding “euc-jp”; できれいに取得できました。しかし、今回は、特定の印字サイズで取得したいのです。 $s1 = "あいうえお"; $s2 = "12345かきくけこ"; 4桁なら下記のように取りたいあい 1234 のですが、use encoding ではあいうえ 1234 となってしまいます。「文字列の末尾を調べてEUC１バイト目なら削除する」という技を教えていただける方、いらっしゃいますでしょうか？

マルチバイト文字列の部分取得方法は？

質問者が選んだベストアンサー

お礼 2006/09/28 18:46

その他の回答 (5)

補足 2006/09/28 18:44

補足 2006/09/28 15:30

お礼 2006/09/28 14:17

お礼 2006/09/28 13:42

関連するQ&A

マルチバイト文字列(PHP)

文字列取得 substrではできません。

soraris10 ksh で文字列をバイト指定し

文字列のバイト数を取得したい

マルチバイト混在の文字列整形

全角半角混在の文字列から○文字まで取得する方法

文字数の取得方法(Active Basic 4)

文字列検索（例えばindex関数）をバイト単位で行いたい

OSの文字コードを取得

目的の文字列を取得するには？

ワイド文字のバイト数が取得できず困っています。

vb2008で文字列から文字列コードを取得する方法

awkでバイト数を方法

シェルスクリプトである文字列から一定の文字列を取得する方法

長～い文字列の部分的削除

ある法則に従った文字列を抜き出す方法

2文字以上の重なっている文字列を抜き出す方法

文字列の取得

文字列分割方法

perlで、文字列の中から何番目から何番目までの文字を抜き出したい

注目のQ&A

カテゴリ

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

専門家に質問してみよう