- ベストアンサー
文章を自動的にカテゴリ分けする方法(ニュースサイト等)
あるテキスト文章を、政治/経済/ゲーム/スポーツなどに自動的に分類して表示させるプログラムを考えています。最初にテキスト文章を形態素解析などを行って単語に分割するところまでは出来そうなのですが、その後、それぞれの単語をどのようなプログラムでカテゴリ分類するのかでつまづいています。 はやり辞書のように、個々の単語がどのようなカテゴリに属するのかが記載されている辞書を所有して判断するものなのでしょうか。 または、どこかでAPIなどを提供しているところはわかりませんでしょうか。 断片的なヒントでもかまいませんので、よろしくお願いいたします。
- みんなの回答 (1)
- 専門家の回答
質問者が選んだベストアンサー
キーワードをジャンルに振り分けるのは、サイトのポリシーの問題なので ご自身で工夫する以外ないのでは? とりあえずヒントをということですので、SQLに辞書をつくり、本文も SQLにとりこみ全文検索で処理するとか有効かもしれません。
お礼
早々のご回答ありがとうございます。 例えば、「娯楽・ゲーム」、「政治」、「芸能」という3つのカテゴリがあったとして、下記のようなテキスト文章に対しては、「娯楽・ゲーム」に自動的にカテゴライズしたい場合なのです。テキスト文章を単語分解し、その中でもカテゴリのキーとなる単語をもとにカテゴライズするのかなと想定しているところです。 とすると、予めキーとなるような「パチンコ」=娯楽・ゲームという、キー単語とそれに対するカテゴリ名をSQLへ作成し、検索するという案になりますでしょうか。 『 「パチンコで必ず勝てる方法を教える」などと言われ、情報料をだまし取られる被害が急増しているとして、岩手、宮城、山形、福島各県などの20~60代の男女38人が21日、・・・。』 下記のサイトのイメージが近いと思います。下記のサイトでは、ツイッターの文章を自動的にカテゴライズして処理されているように見えましたので、どのようにやっているのか興味があります。 http://tweetbuzz.jp/