• 締切済み

漢字の出現頻度の検索方法

テキストファイルの言語データ(たとえば小説など)で、漢字の出現頻度を調べたいのですが、どのように調べたらいいかわかりません。 テキストファイル中の言語データで、どの漢字がいくつ使われているのかというように調べていきたいのですが。。。 ご存知の方がいらっしゃったら、教えていただけたらと思います。よろしくお願いします。

みんなの回答

  • bardfish
  • ベストアンサー率28% (5029/17766)
回答No.2

私だったらPerlの連想配列を利用して自分でプログラムを組んでしまいます。 C言語やBASIC言語なんかより遙かに簡単だし処理速度もかなり高速になります。 何を言っているかわからないかもしれませんが調べてみてください(^^;

lucha
質問者

お礼

がんばって調べてみます。

  • nag0720
  • ベストアンサー率58% (1093/1860)
回答No.1

2文字とか3文字の熟語の出現頻度だったら難しいけど、1文字単位の出現頻度は簡単でしょう。 1.漢字を登録するテーブルと、その使用数を登録するテーブルを用意し、初期クリアする。 2.テキストファイルから1文字づつ読み込みながら次の処理をする 3.その文字が漢字だったら、登録済みの漢字テーブルと比較し、     同じ漢字があったらその使用数を1増やす     同じ漢字がなかったら漢字テーブルに登録し使用数を1とする

lucha
質問者

お礼

やってみます。ありがとうございます。

関連するQ&A