- 締切済み
データが i.i.d であるとはどういう意味を持つ?
まず,i.i.d についての自分の理解が正しいか確認させてください。 (この時点で理解を誤っている可能性もあるので。) i.i.d は,独立に同一の確率分布に従うということなので,ある n個のデータ{X1,・・・,Xn}がi.i.d であるとは, 例えば,平均μ,標準偏差σのガウス分布から取り出され(同一の確率分布に従う), 各Xiは,その他のXj(i≠j)からの影響を受けない(独立である)。 これらが満たされるとき,i.i.d である。 この理解でいいでしょうか? また,重回帰においては,以下の資料の3ページに書かれているように (http://www.econ.hit-u.ac.jp/~bessho/lecture/06/econome/060524MOLS2.pdf) X,Yは,i.i.d である必要があるといわれていますが,なぜ,i.i.d でなくてはならないのでしょうか? i.i.d である場合とそうでない場合とで何が違うのでしょうか?
- みんなの回答 (1)
- 専門家の回答
みんなの回答
- rabbit_cat
- ベストアンサー率40% (829/2062)
i.i.d.の定義についてはそれでいいのでは。 http://en.wikipedia.org/wiki/Independent_and_identically-distributed_random_variables 後半について。 別に、i.i.d.でなくても、形式的に回帰を考えることは可能ですが。 もともと、回帰を考えるのは、 ある集団があるとして、そいつらの、平均的な性質を知りたいからでしょう。 とすれば、 ・「独立であること」はつまり、考えている集団からサンプルを偏りなく選んだ、ということです。世論調査するときに、特定の年齢層ばかり集めてくれば(サンプルの間に相関がある)、でてきた結果もおかしいでしょう。 ・「同分布であること」は、そもそも、サンプルを考えている集団からとってきた、てことです。日本の世論調査をしているときに、アメリカ人に聞いたらダメでしょう。
補足
>>回帰を考えるのは、ある集団があるとして、そいつらの、平均的な性質を知りたいから つまり,回帰を考える上でデータは無相関であるのが理想的であるけれども, 取ってきたデータがi.i.dでない場合 (たとえば,相関を持つデータを混合した=若年層のデータ,中年層のデータ,高齢者のデータが混じったデータ) それぞれの相関があるものごとに回帰式をあてはめ,平均を取る必要があるということですか?