• 締切済み

EMアルゴリズムを用いて不完全データ(パラメータ数が未知)問題を解ける

EMアルゴリズムを用いて不完全データ(パラメータ数が未知)問題を解けるか知りたいのですが。 今、何カ国かの男性の身長データのサンプルがN個混在してあります。ただし、N個のデータはすべて、どの国の男性の身長データなのか分かっていません(不完全データ)。このとき、EMアルゴリズムを用いて、「何カ国のデータが混在しているのか※1」と、「各国の身長の平均値と分散※2」を同時に求めたいのですが、国の数を1,2,3,4,・・・と増加させていったときに、果たして最大尤度が極大値を持つのかどうかが私にはわかりません。どなたかご存知の方がいらっしゃいましたらご教示お願いします。 一般に、パラメータ数(この場合、国の数)が増加すると、最大尤度も増加するといわれておりますが、この問題では、最適なパラメータ数(国の数)が存在するような気がしているのですが、いかがでしょうか。。。 ※1 国の数をmとし、今回はN>>mとします。 ※2 すべての国の男性の身長は正規分布に従うと仮定し、どの国の平均値も同じ値になることはないとします。

みんなの回答

  • ur2c
  • ベストアンサー率63% (264/416)
回答No.1

> 国の数が増加すると、最大尤度も増加する のですから、 > 最適な国の数が存在する わけで、 最適 := 尤度最大 とするのなら m = N が最適。それがいやで、かつ max m << N なら 最適 := 情報量基準最小 とすれば話の辻褄だけは合って、max m より小さい m が得られる可能性があります。 > 身長は正規分布に従う 分散をどう扱うかによって、答えがだいぶ違いそう。たとえば、全ての国に共通とするのか、各国で異なるとするのか。 EM を使うということは、どこにも効いてません。強いて言えば、局所最適につかまって誤った答えを出す可能性が高いことくらいでしょう。

adamosfamily
質問者

お礼

御礼遅くなりました。ご解答いただきどうもありがとうございます。 私自身EMアルゴリズムについてよくわかっていなかったので、 きちんと勉強して不明点を整理したいと思います。

関連するQ&A