- ベストアンサー
日本語で1番登場するワードを抽出するにはどのように
日本語で1番登場するワードを抽出するにはどのようにプログラミングすれば良いのでしょうか?英語だとワードとワードの間にスペースキーが入っているので楽ですが・・・ その後に. ,? ! ' "などのゴミを取り除けばいいでしょ?日本語はどうやって言葉を取り出す?
- みんなの回答 (1)
- 専門家の回答
質問者が選んだベストアンサー
http://mjin.doshisha.ac.jp/R/58/58.html 日本語 で 1番 登場する ワード を というような 分かち書き処理をするようです。 「 日本語や中国語のような言語は、英語や韓国語のようにテキストが単語や句に分かれず、句読点によって区切られているだけである。したがって、語、文節などを計量するためには、テキストを語や文節などを単位として分割(分かち書き)し、関連の情報を付与しておくことが必要である。」 以上引用
お礼
回答ありがとうございます。 分かち書き処理というのがあるんですね。