締切済み

データが i.i.d であるとはどういう意味を持つ？

2008/12/14 00:44

まず，i.i.d についての自分の理解が正しいか確認させてください。（この時点で理解を誤っている可能性もあるので。） i.i.d は，独立に同一の確率分布に従うということなので，ある　n個のデータ｛X1，・・・，Xn｝がi.i.d であるとは，例えば，平均μ，標準偏差σのガウス分布から取り出され（同一の確率分布に従う），各Xiは，その他のXj（i≠j）からの影響を受けない（独立である）。これらが満たされるとき，i.i.d である。この理解でいいでしょうか？また，重回帰においては，以下の資料の３ページに書かれているように（http://www.econ.hit-u.ac.jp/~bessho/lecture/06/econome/060524MOLS2.pdf） X，Yは，i.i.d である必要があるといわれていますが，なぜ，i.i.d でなくてはならないのでしょうか？ i.i.d　である場合とそうでない場合とで何が違うのでしょうか？

marucha
お礼率38% (127/329)

数学・算数
回答数1
ありがとう数5

みんなの回答 （1）
専門家の回答

みんなの回答

rabbit_cat
ベストアンサー率40% (829/2062)

2008/12/14 04:34 回答No.1

i.i.d.の定義についてはそれでいいのでは。 http://en.wikipedia.org/wiki/Independent_and_identically-distributed_random_variables 後半について。別に、i.i.d.でなくても、形式的に回帰を考えることは可能ですが。もともと、回帰を考えるのは、ある集団があるとして、そいつらの、平均的な性質を知りたいからでしょう。とすれば、・「独立であること」はつまり、考えている集団からサンプルを偏りなく選んだ、ということです。世論調査するときに、特定の年齢層ばかり集めてくれば（サンプルの間に相関がある）、でてきた結果もおかしいでしょう。・「同分布であること」は、そもそも、サンプルを考えている集団からとってきた、てことです。日本の世論調査をしているときに、アメリカ人に聞いたらダメでしょう。

質問者

補足 2008/12/14 12:30

＞＞回帰を考えるのは、ある集団があるとして、そいつらの、平均的な性質を知りたいからつまり，回帰を考える上でデータは無相関であるのが理想的であるけれども，取ってきたデータがi.i.dでない場合（たとえば，相関を持つデータを混合した＝若年層のデータ，中年層のデータ，高齢者のデータが混じったデータ）それぞれの相関があるものごとに回帰式をあてはめ，平均を取る必要があるということですか？