• ベストアンサー

日本語で1番登場するワードを抽出するにはどのように

日本語で1番登場するワードを抽出するにはどのようにプログラミングすれば良いのでしょうか?英語だとワードとワードの間にスペースキーが入っているので楽ですが・・・ その後に. ,? ! ' "などのゴミを取り除けばいいでしょ?日本語はどうやって言葉を取り出す?

質問者が選んだベストアンサー

  • ベストアンサー
  • tanuki4u
  • ベストアンサー率33% (2764/8360)
回答No.1

http://mjin.doshisha.ac.jp/R/58/58.html 日本語 で 1番 登場する ワード を というような 分かち書き処理をするようです。 「 日本語や中国語のような言語は、英語や韓国語のようにテキストが単語や句に分かれず、句読点によって区切られているだけである。したがって、語、文節などを計量するためには、テキストを語や文節などを単位として分割(分かち書き)し、関連の情報を付与しておくことが必要である。」 以上引用

nazeka2017
質問者

お礼

回答ありがとうございます。 分かち書き処理というのがあるんですね。

関連するQ&A