ベストアンサー

ＳＪＩＳに関する少々複雑な問題

2004/05/12 10:14

　Perl で、下記のようなプログラムを組みました。　$original =~ s/\x83[\x80-\x96]/$Tbl{$&}/eg; 　このとき連想配列のキーには、"\x83\x80" ～ "\x83\x96" に該当するＳＪＩＳの文字が入っています。　つまり、この範囲の全角文字を、別の文字に変換する正規表現です。　ところが(^_^; 　このソースだと問題があって、"麻雀" という文字をこの正規表現にかけると、おかしくなります。　"麻雀" の文字コード "\x96\x83""\x90\x9d" のうち、「麻のテイルと雀のヘッド」の２文字がこの範囲チェックに引っかかってしまい、結果、本来は変換されてほしくない文字である "麻雀" は、"夢・"（"\x96\xb2\x9d"）という変な文字に変換されてしまうんです。　"\x83\x90" という全角文字が "\xb2" という半角文字に置き換わる構造になっているからです。　前方から１文字ずつ見ていけばいいんですが、動作速度のカラミもあって、正規表現の使用はやめたくありません。　どうにか、正規表現だけでこの問題を回避する方法はないでしょうか。　

noname#25358

Perl
回答数2
ありがとう数2

みんなの回答 （2）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

leaz024
ベストアンサー率75% (398/526)

2004/05/12 16:07 回答No.2

この手のパターンは、EUCに変換しただけではうまく行かない場合があります。詳しくはこちら http://www.din.or.jp/~ohzaki/perl.htm#JP_Match このページでEUCの場合の対処方法が書かれていますが、同様の方法でShiftJISでも対処可能です。 my $re_sjis = qr/(?:[\x81-\x9F\xE0-\xFC][\x40-\x7E\x80-\xFC]|[\x00-\x7F\xA1-\xDF])/; $original =~ s/\G($re_sjis*?)(\x83[\x80-\x96])/$1$Tbl{$2}/g; 要するに、「前方から１文字ずつ見ていけばいいんですが」を正規表現で書けばいいということです。ちなみに REPLACEMENT にコードがない場合、オプションの e は不要です。