ベストアンサー

※ ChatGPTを利用し、要約された質問です（原文：jcode.plのかわり）

Perl5.18.2でjcode::tr()のかわりを探しています

2014/03/10 15:10

このQ&Aのポイント

jcode.plのかわりを探しています。Perl5.18.2でjcode::tr()を使用するとエラーが出てしまいます。
プログラムがUTF-8であれば$val =~ tr/０-９Ａ-Ｚａ-ｚ　（）＿＠－/0-9A-Za-z ()_@-/;のように実現可能ですが、プログラムはEUCで書かれています。一文字ずつ変換することも考えましたが、パフォーマンスに懸念があります。
jacode.plに置き換えるだけでは文字化けしてしまいました。jcode::tr()のかわりになる手段はあるのでしょうか？

miyan2000
お礼率14% (1/7)

Perl
回答数7
ありがとう数14

みんなの回答 （7）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

kumoz
ベストアンサー率64% (120/185)

2014/03/12 15:43 回答No.7

UTF-8 の内部文字列にすれば、tr で文字単位で変換することができます。プログラムのソースが EUC-JP でとのことなので、少し厄介なところはあります。 use strict; use Encode; use NKF; my $str = "\xAD\xEA０１01アア"; $str = decode 'utf8', nkf('-Ew', $str); my $from = decode 'utf8', nkf('-Ew', '０-９Ａ-Ｚａ-ｚ　（）＿＠ー'); eval "\$str =~ tr/$from/0-9A-Za-z ()_\@-/;"; $str = nkf '-We', encode('utf8', $str); print "$str\n"; 私の Linux 上のパソコンでは、上記のコードで (株) は文字化けせずに全角の０と１を半角に変換します。

質問者

お礼 2014/03/12 15:56

ありがとうございます。無事変換できました。意図してない半角カナまで全角になってますが、それも必要なことなので問題ありませんでした。

ログインすると、全ての回答が全文表示されます。

その他の回答 (6)

kumoz
ベストアンサー率64% (120/185)

2014/03/12 06:03 回答No.6

(株) のような特殊な文字では、Jcode から利用している Encode.pm でもうまく行かないことがあります。(株) の場合は、「euc-jp → utf8」は変換できるが、「utf8 → euc-jp」は変換できないようです (No4 の補足に書かれているとおりです)。 use Encode; print encode('utf8', decode('euc-jp', "\xAD\xEA")), "\n"; # 端末UTF-8: OK print encode('euc-jp', decode('utf8', "\xE3\x88\xB1")), "\n"; # 端末euc-jp: NG 日本語変換ユーティリティ nkf が NKF.pm を提供しています。Encode.pm で「UTF-8バイト <-> UTF-8内部」を、NKF.pm で「UTF-8バイト <-> EUC-JP」を処理すると、うまく行くかも？

質問者

補足 2014/03/12 14:29

文字を EUC→UTF-8→EUC にするだけなら Unicode::Japanese を使えば可能でした。問題は任意の文字を変換することです。０-９ａ-ｚを 0-9a-z のように半角にするとか。全角文字を全部半角にすることは出来るんですが上記のように英数字だけとかが出来ないんです。

ログインすると、全ての回答が全文表示されます。

kmee
ベストアンサー率55% (1857/3366)

2014/03/11 23:30 回答No.5

「文字化け」とかいう曖昧な情報では埒があきません。 odを使って、どんなデータになっているか調べましょう #1にあったスクリプトを LANG=C od -t x1c スクリプトと16進と文字とで表示します。非ASCII文字を表示させないために、LANG=Cにしておきます。次のように表示されるかと思います。 0000000 75 73 65 20 4a 63 6f 64 65 3b 0a 0a 6d 79 20 24 　　　　　 u s e J c o d e ; \n \n m y $ 0000020 73 74 72 20 3d 20 22 28 b3 f4 29 a3 b0 a3 b1 30 　　　　　 s t r = " ( 263 364 ) 243 260 243 261 0 # ここの特性上、位置がずれてしまいます EUC-JPで書いてあれば、「株」にあたるコードは b3 f4 になっているはずです。 8a 94 ならShift JIS, e6 a0 aa ならUTF-8です。次に、実行結果のダンプを取ります perl スクリプト | LANG=C od -t x1c 本来なら、ここでも b3 f4 になっているはずです。もし b3 f4 ならば、使っている端末アプリケーションが文字化けの原因です。(LANGはeucJPになっているけど、端末の文字コード設定が別なものになっている、とか) もし、それ以外のコードになっているなら、JCodeでの変換がなにかうまくいっていない、ということになります。

質問者

補足 2014/03/12 14:15

いろいろ考えていただきありがとうございます。１つお詫びです。普通の感じの「株」でなく「(株)」のような機種依存文字が化けます。教えて頂いた方法でいろいろ試してみました。まず「株」で何も変換せずダンプ b3 f4 0a UTF-8に変換 e6 a0 aa 0a UTF-8に変換後、EUCに変換 b3 f4 0a 元に戻っているのでロジックや確認方法は正しく行えていると思います。次に「(株)」何も変換せずダンプ ad ea 0a UTF-8に変換 e3 88 b1 0a UTF-8に変換後、EUCに変換 3f 0a こっちは元に戻りませんでした。やはりJcodeの文字コード変換では対応出来ていない部分があるようです。

ログインすると、全ての回答が全文表示されます。

kichi8000
ベストアンサー率41% (660/1584)

2014/03/11 10:46 回答No.4

文字コードの指定には、"jis"、"sjis"、 "euc"、"ucs2"、"utf8"が使えます。 my $str = "(株)０１01アア"; $codes = Jcode::getcode(); $str = Jcode->new( $str, 'euc')->utf8; このutf8変換後の$codesと$strの文字列内容を教えていただけませんか。 ucs2ではないかと思うので、こうするとどうでしょうか。 my $str = "(株)０１01アア"; $codes = Jcode::getcode(); $str = Jcode->new( $str, 'ucs2')->utf8;

質問者

補足 2014/03/11 11:44

$codesには ascii が入ってました。 $str = Jcode->new( $str, 'euc')->utf8; で実行した結果、コンソールの表示文字列をUTF8にしたら化けてなかったので UTF8には変換出来ているようです。この状態で $str = Jcode->new( $str, 'utf8')->euc; を実行すると株が化けます。 JcodeではUTF-8からEUCに変換できない文字があるんですかね？

ログインすると、全ての回答が全文表示されます。

kmee
ベストアンサー率55% (1857/3366)

2014/03/10 21:12 回答No.3

私の手許の環境では文字化けしません。 UTF-8の端末で実行していたり、スクリプトがEUC-JPではなかったりしませんか?

質問者

補足 2014/03/11 10:14

Solaris10でLANGはja_JP.eucJPになってるんですけどねぇ。スクリプトもEUCになってますし。普通の文字は文字化けしませんが、カッコ株のような特殊な文字がダメです。

ログインすると、全ての回答が全文表示されます。

kichi8000
ベストアンサー率41% (660/1584)

2014/03/10 16:53 回答No.2

文字列をUTF-8に変換してから文字列操作するのが基本ですよ。

質問者

補足 2014/03/11 10:12

カッコ株はEUC→UTF-8→EUCにするだけでも文字化けしてしまいます。 ---------------------------------- use Jcode; my $str = "(株)０１01アア"; $str = Jcode->new( $str, 'euc')->utf8; $str = Jcode->new( $str, 'utf8')->euc; print $str."\n"; ---------------------------------- これはまた別問題ですが・・・・

ログインすると、全ての回答が全文表示されます。

kichi8000
ベストアンサー率41% (660/1584)

2014/03/10 15:42 回答No.1

Jcode.pm などはどうでしょうか。 Jcode呼び出しの"J"は大文字になります。 http://openlab.jp/Jcode/index-j.html

質問者

補足 2014/03/10 16:17

ご回答ありがとうございます。 use Jcode; my $str = "(株)０１01アア"; my $j = Jcode->new($str, 'euc'); $str= $j->tr('０-９Ａ-Ｚａ-ｚ　（）＿＠－','0-9A-Za-z ()_@-'); print $str."\n"; こんな感じで実行すると、全角数字を半角に変換は出来ましたが (株)が文字化けしてしまいまいした。

ログインすると、全ての回答が全文表示されます。