- 締切済み
確率の計算と独立性について
最近,統計の勉強をしていて,混乱してわけがわからなくなっているので, 確認の意味も含め質問させてください. 1. いま,確率変数Xiをデータx={x1,x2,...,xn}の各xiの実現値とする. 扱う問題は,以下のリンク先です。 http://opencv.jp/opencv/document/opencvref_ml_em.html 最尤推定された導出過程は上記には書いていませんが、πの最尤値を求める過程において Σ[1/p(Xi)] from i=1 to n は、 Σ[1/p(Xi)] = n ・・・ @ となるというように授業で配られたスライドの資料に記載されていたのですが,なぜ@のようになるのでしょうか? たとえば,n=2で,p(X1)=1/2,p(X2)=1/2としたら, Σ[1/p(Xi)]={1/p(X1)} + {1/p(X2)} = 2 + 2 = 4 となりますが,@では,いま,n=2なのでΣ[1/p(Xi)]=2であり,4≠2となり @のようになるとはいえないのではないかと混乱しています。おそらく@は, Σ[1/p(Xi)]=(Σ1)/(Σp(Xi))= n と変形しているのだと思いますが,自分の例から@のように変形できる訳が分かりません。 もしかしたら,自分の例がおかしいのかもしれませんが・・・。 2. 統計学でよく,「データはi.i.dである」という仮定をおいて解析が行われています。 データが独立で同じ確率分布に従うときをi.i.d と呼ぶと記憶しているのですが, 「独立である」という項目は,なぜ条件として必要なのでしょうか? 独立というと,私は,P(x1,x2)=P(x1)*P(x2) とできるということしか知らないので, データの独立性がないと計算が大変になるだろうという風にしかみれないのですが, データをばらばらに取り出す(独立?)場合と一度にまとめて取り出す(独立でない?)場合が解析に何の影響を及ぼすのでしょうか? 式は覚えていてもそれ自体が何の意味をもつのかがまったく分かっていないので、意味合いを教えていただきたいです。 回答よろしくお願いします。
- みんなの回答 (3)
- 専門家の回答
みんなの回答
ここで一から説明するのは難しいですし、うまく説明できる自信もありませんので、参考書の紹介だけでとどめておきます。 小西貞則, 越智義道, 大森裕浩(2008), 計算統計学の方法―ブートストラップ・EMアルゴリズム・MCMC (シリーズ予測と発見の科学 5) (シリーズ予測と発見の科学 5), 朝倉書店 この本のp.88から混合分布について記載されています。 この本は、ちょうど興味をもっていたことについて一冊にまとめられていたので購入したのですが、わかり易い本でした。
リンク先と資料の書き方が異なるので確実なことだけを書きます。 > 一つ目のイコールは、 > [Σ(πk P(xi|θk)/P(xi))] ← Σ is i=1・・・N > / [ΣΣ(πl P(xi|θl)/P(xi))] ← 外側のΣは、l=1・・・S、内側のΣはi=1・・・N > =[Σ(πk P(xi|θk)/P(xi))] > / Σ[{1/P(xi)}Σ(πl P(xi|θl))] ← 外側のΣをi=1・・・N、内側のΣをl=1・・・Sとする > となるはずなので、ここで@を使って式変形しているのではと考えました。 とありますが、最後のところの分母は内側のΣの部分にもiがかかっているので、@のようにはなりません。 まずは、リンク先の πk = (1/N)Σαki (Σはi=1~Nについての和) が何故こうなるか理解されてますか?
お礼
すいません、補足の修正です。 >>最後のところの分母は内側のΣの部分にもiがかかっているので、@のようにはなりません。 >確かに分解できないですね。 この箇所について修正です。 =[Σ(πk P(xi|θk)/P(xi))] / Σ[{1/P(xi)}Σ(πl P(xi|θl))] ← 外側のΣをi=1・・・N、内側のΣをl=1・・・S Σ(πl P(xi|θl))= 1 になると資料に記載されていたので, =[Σ(πk P(xi|θk)/P(xi))] / Σ[{1/P(xi)}・1] ← Σはi=1・・・N となり、@が適用できるのではと考えたのです。
補足
>最後のところの分母は内側のΣの部分にもiがかかっているので、@のようにはなりません。 確かに分解できないですね。 自身の間違い箇所は分かりましたが、実際の式変形がまだ理解できていません。 >まずは、リンク先の >πk = (1/N)Σαki (Σはi=1~Nについての和) >が何故こうなるか理解されてますか? 導出は、質問の通り理解できていません。 重みの最尤値の式の意味は、αkiはk番目の重み付きガウス分布と混合ガウス分布 の比になっているので,最尤値をその割合の平均値を重みにしようとしているのだと思われます。
> Σ[1/p(Xi)] = n ・・・ @ > となるというように授業で配られたスライドの資料に記載されていたのですが,なぜ@のようになるのでしょうか? とのことですが、リンク先にはそんなことは記載されていません。 私はその配られた資料を見ていないのでお聞きしますが、資料には本当にそう記載されてたのですか? 資料に記載されている内容とリンク先の内容が本当に同じですか?
補足
資料に明示はされていません。私がそうなるだろうと考えただけです。 資料のその箇所を以下に記載します。 πk*=[Σ(πk P(xi|θk)/P(xi))] ← Σ is i=1・・・N / [ΣΣ(πl P(xi|θl)/P(xi))] ← 外側のΣは、l=1・・・S、内側のΣはi=1・・・N =(1/N)Σ(πk P(xi|θk)/P(xi)) ← Σ is i=1・・・N =(1/N)Σαki ← Σ is i=1・・・N 一つ目のイコールは、 [Σ(πk P(xi|θk)/P(xi))] ← Σ is i=1・・・N / [ΣΣ(πl P(xi|θl)/P(xi))] ← 外側のΣは、l=1・・・S、内側のΣはi=1・・・N =[Σ(πk P(xi|θk)/P(xi))] / Σ[{1/P(xi)}Σ(πl P(xi|θl))] ← 外側のΣをi=1・・・N、内側のΣをl=1・・・Sとする となるはずなので、ここで@を使って式変形しているのではと考えました。
お礼
とりあえず、ご回答の書籍を参照してみます。