確率の計算と独立性について
最近,統計の勉強をしていて,混乱してわけがわからなくなっているので,
確認の意味も含め質問させてください.
1.
いま,確率変数Xiをデータx={x1,x2,...,xn}の各xiの実現値とする.
扱う問題は,以下のリンク先です。
http://opencv.jp/opencv/document/opencvref_ml_em.html
最尤推定された導出過程は上記には書いていませんが、πの最尤値を求める過程において
Σ[1/p(Xi)]
from i=1 to n
は、
Σ[1/p(Xi)] = n ・・・ @
となるというように授業で配られたスライドの資料に記載されていたのですが,なぜ@のようになるのでしょうか?
たとえば,n=2で,p(X1)=1/2,p(X2)=1/2としたら,
Σ[1/p(Xi)]={1/p(X1)} + {1/p(X2)}
= 2 + 2
= 4
となりますが,@では,いま,n=2なのでΣ[1/p(Xi)]=2であり,4≠2となり
@のようになるとはいえないのではないかと混乱しています。おそらく@は,
Σ[1/p(Xi)]=(Σ1)/(Σp(Xi))= n
と変形しているのだと思いますが,自分の例から@のように変形できる訳が分かりません。
もしかしたら,自分の例がおかしいのかもしれませんが・・・。
2.
統計学でよく,「データはi.i.dである」という仮定をおいて解析が行われています。
データが独立で同じ確率分布に従うときをi.i.d と呼ぶと記憶しているのですが,
「独立である」という項目は,なぜ条件として必要なのでしょうか?
独立というと,私は,P(x1,x2)=P(x1)*P(x2) とできるということしか知らないので,
データの独立性がないと計算が大変になるだろうという風にしかみれないのですが,
データをばらばらに取り出す(独立?)場合と一度にまとめて取り出す(独立でない?)場合が解析に何の影響を及ぼすのでしょうか?
式は覚えていてもそれ自体が何の意味をもつのかがまったく分かっていないので、意味合いを教えていただきたいです。
回答よろしくお願いします。