• 締切済み

ベイズ統計に関する尤度について

ベイズ統計を展開していく際に尤度が分かっているということが前提となります。 その尤度について表のようなものを作成するわけですが、例えば、迷惑メール、非迷惑メールに”アイドル”と言う言葉が含まれるかどうかを考えます。迷惑メールの中で”アイドル”が含まれる確率A、非迷惑メールの中で”アイドル”が含まれる確率Bがそれぞれ分かっていると仮定するわけですが、一方でアイドルという単語を含むメールに関して迷惑メールである確率C、非迷惑メールである確率Dも定義可能ですね。 この場合、A+B≠1(これは当然), C+D=1(迷惑か非迷惑かしかないから)という違いがあります。実際にある練習問題ではA,Bの方を使っているのですが、C,Dのように確率が足して1になるという風にして尤度を考えることもできるように思うのです。尤度表の縦、横方向に足して1になるという風にして表を作る必要は必ずしもないのでしょうか。 尤度表を作るところこそがベイズ統計の肝というか個性が出るところだと思うのですが。よろしくお願いします。

みんなの回答

  • tukuneto
  • ベストアンサー率26% (12/45)
回答No.1

迷惑メールの中で ”アイドル”が含まれる確率A1|含まれない確率B1 その他の迷惑メール条件A2_|含まれない確率B2 その他の迷惑メール条件A3_|含まれない確率B3 A1とB1を足せば1。(どちらでもないがありそれは無視すると、より良いと、素人考え的には思いますが。 こういう時って、縦の合計は1になりませんよ。 極論”アイドル”と”儲け話”が、スパムメールに100%入っていれば、縦を足したら2になりますし。 あと、表示自体は作らなくてもいいけど、項目の選出は必要かと。 項目の選出で、個性が出るのも、頻度主義でも同じですが、ベイズのほうが結果が揺れ易いというのは、あるかもしれませんね。 あと、確率がなくても、フェルミ推定とかで、ざっくり確率でも結果として、うまく行くんじゃねー?とか、思ってます。 数学は素人なので、勘違いしていたらすいません。

skmsk1941093
質問者

お礼

回答ありがとうございます。言葉は重複で入るのでそれがダブルのカウントですから足して1になる必要はないですね(列を固定した行方向の和)。しかし、その言葉が含まれているメールが迷惑(スパム)か非スパムかということであれば、重複はないから足して1になるように思えます。しかし、(私が言う)尤度表の行を固定した列方向の和(1になりそうな和)も1にはなりません。それは1つのワードに対する2つの分類が示されいるわけではないからそうはならないということなのだろうと思います。尤度表を作成するルールをどう考えたらいいのだろうというのが質問の主旨です。列・行の和が1にならなければならないという制約はない、ということですかね。

関連するQ&A