- 締切済み
テキストファイルから日本語部分を削除
英語と日本語が交ざっているテキストから日本語部分を削除するプログラムをPerlで書きたいと思って以下のようなプログラムを組みましたが、うまくいきません。 while ( <IN> ) { chomp; tr/^[\x00-\x7f]//d; print OUT "$_\n"; } Perl初心者です。助けてください。
- みんなの回答 (3)
- 専門家の回答
みんなの回答
- z_liang_00
- ベストアンサー率42% (45/107)
回答No.3
英語と日本語が交ざっているテキストから日本語部分を削除するプログラムをPerlで書きたいと思って以下のようなプログラムを組みましたが、うまくいきません。 while ( <IN> ) { chomp; tr/^[\x00-\x7f]//d; print OUT "$_\n"; } Perl初心者です。助けてください。
お礼
ありがとうございます。 上記だと、漢字の2バイト目が残ってしまう可能性がありますよね。 16進表記では、なかなかうまくいきませんので、 とりあえず16進をやめて、必要なもの以外を削除というスクリプトを組んでます。 tr/a-zA-Z0-9その他必要の符号//cd; これでもたまに変なものが残りますが(やはり文字コード問題でしょう)、 99%うまく稼働します。