単語の頻度プログラム
英文から単語の頻度を出力するプログラムを作成しています。アルゴリズムは、英文から単語を抜き出して以前にあったものなら、その単語のカウントを1つ増やし、以前にないものなら、新しく頻度表に付け加えるというものです。
とりあえず、isspace関数を使って単語を抜き出すことを考えたのですが、これですと
know
know,
know?
のように同じ単語であるのに、カンマやピリオドが付いてしまっていると後で以前に見つかったものかを照合する際に不都合が生じてしまいます。isalnum関数で抜き出したものが、アルファベットか数字であるかを調べ、アルファベットと数字だけを抜き出せば、カンマやピリオドはうまく取り除けると思うのですが。そうすると、I'mなどのアポストロフィーも取り除かれてしまうのではないかと。。
すいません。混乱してます。。皆さんだったらどのようにしますか?答えではなく、ヒントやきっかけを頂けるとありがたいです。
お礼
ありがとうございます! いつか使わせて頂くかもです!