- 締切済み
自分で式を作る
私が研究している分野でどうしても 各学術分野のコーパス(よく使われる単語)を製作しなければならないのですが、 いい方法が見つかりません。 専門の先生方もいませんし困ってます。 TF-IDF法は重要語を抽出する方法で、コーパスを作る方法ではないですし、いっそのこと自分で式を作ろうかなと思っています。 Σある文章中の同一単語の割合 論文の数だけ足します↑ 上の式で出した数のうち数値の大きい数字はカットして 真ん中より上の単語を抽出しようかなと思ってます。 (よく出る単語は「こと」とかどの論文にもでる単語だと思いますから) でいけそうな感じがしますがナンセンスですか? 割合を足すって?? なにかいいほうがあれば教えてください。 数学苦手なもんで><
- みんなの回答 (1)
- 専門家の回答
みんなの回答
- mataoyu
- ベストアンサー率40% (82/204)
回答No.1
専門家ではありませんが、この程度の数学なら分かります。 割合を足すのは、無意味です。 例えば、ある文献に100の単語があって、その内の10%が「事」だったとします。 もう一つの文献に1000の単語があって、その内の5%が「事」だったとする場合、「事」という単語の割合は =(100*0.1+1000*0.05)/(100+1000) ……(1) です。(=5.45%) でも足したら、15%、2で割ったら7.5%になります。 つまり、総数が異なるものの割合を足すことは、無意味なのです。 ということは、個々の論文の中の言葉の総数をいつも把握しなければ、ならないと言うことです。 (1)の式を参考にしてくださいね。
お礼
ご回答ありがとうございます。