- 締切済み
標本分散と分散の違い
標本分散の分母N-1の意味がさっぱりわかりません。本には自由度が関係してるとかいてありますがどういうことでしょうか?
- みんなの回答 (7)
- 専門家の回答
みんなの回答
- Ishiwara
- ベストアンサー率24% (462/1914)
#4です。 #1さんへの補足を読んで、ちょっとアドバイスを。 もし真の母平均μが分かっていれば、((各データ)-μ)の二乗の和をNで割って不偏分散(分散の不偏推定値)が出ます。しかし、一般にはμは分かりません。そこで、代わりに((各データ)-(データの平均))の二乗の和をNで割ると、答は小さくなりすぎます。だからNより小さい数で割る必要があります。ここまでは、定性的に分かりますよね。なぜって(データ平均)を使うということは、二乗の和が一番小さくなるような値をわざわざ選んだことになるからです。 しかし、だからといって(N-1)で割るとちょうど良い、というのは飛躍です。これを証明するには、とても面倒な手続きが必要です。統計学の初歩段階では、そんな証明を細かくやるのは、あまり益がない(もっと早く先に進みたい)ので、とにかく(N-1)で割れ、と教えます。しかし、それでは、あまり高圧的だと思い「自由度」という理屈らしいものを持ち出してくるわけです。 質問者さんが挙げた、本の説明は、全部正しいのですが、こんな説明で分かれ!というほうが無理というものです。私もかつて、かなり悩みました。 とりあえず、ここを飛ばして、もう少し数式処理に慣れてから「N-1で割るとちょうど良い」という証明に取り組んではいかがでしょうか。
- jamf0421
- ベストアンサー率63% (448/702)
>式の展開もそうですが記号がさっぱりわかりません。。。 難航しておられますか?もう少し丁寧に書いてみます。 私の説明はn-1を出してくる計算手法だけになっていますが... 期待値を表す関数EをE[X]=ΣXiPiとかきましたが、これは測定値が離散データの場合の定義で、連続データならE[X]=∫xP(x)dxとなります。要するに平均をする演算だと思えばよいのです。普通にサンプリングすれば、そのデータの分布は出現確率を反映しています。そして標準偏差の2乗は、 (1/n)Σ(Xi-μ)^2 = E[(X-μ)^2] と表現できます。 ストーリーは比較的単純なのです。但し準備が必要です。 平均値μ、標準偏差の2乗(分散)がσ^2という母集合があったとします。これからn個のサンプルを繰り返し採取(測定後もとに戻す復元抽出)し、その平均値Xav1, Xav2, Xav3,...Xavnをとったとします。この時平均値の期待値(平均値)、平均値の分散は次のようになります。 E[Xav]=μ...(1) σ^2(Xav)=σ^2/n...(2) (1)は直感的には納得すると思いますが証明をするにはE[aX+bY]=aE[X]+bE[Y]...(3) を使います。(3)の証明はどこにも出ています。それを認めると、 E[Xav]=E[(1/n)(Xav1+Xav2+...+Xavn)]=(1/n)(E[Xav1]+E[Xav2]+...E[Xavn])=(1/n)(nμ)=μ (2)を証明するには σ^2(aX+bY)=a^2σ^2(X)+b^2σ^2(Y)...(4) を使います。今度は係数が2乗で外にでます。こちらはXとYが互いに独立という条件がつきます。これを認めると、 σ^2(Xav)=σ^2((1/n)(σ^2(Xav1)+σ^2(Xav2)+...σ^2(Xavn))) =(1/n)^2 (σ^2(Xav1)+σ^2(Xav2)+...σ^2(Xavn)) =(1/n)^2 (nσ^2)=σ^2/n...(5) となります。 あとは S0^2=(1/n)Σ(Xi-μ)^2...(6) S^2=(1/n)Σ(Xi-Xav)^2...(7) の差の認識だけの問題です。(7)のXavに注意です。これは標本平均です。μはわからなくて、代わりにXavを入れたのです。 S0^2=(1/n)Σ(Xi-μ)^2=(1/n)Σ{(Xi-Xav)+(Xav-μ)}^2=(1/n)Σ(Xi-Xav)^2+(Xav-μ)^2...(8) となります。ここで最後の式を出すにあたり 2Σ(Xi-Xav)(Xav-μ)=2(ΣXavXi-nXavμ-nXav^2+nXavμ)=2(nXav^2-nXav^2)=0 でクロスタームを消しています。 (8)より E[(1/n)Σ(Xi-μ)^2]=E[(1/n)(Xi-Xav)^2]+E[(Xav-μ)^2]...(9) を得ます。 つまり E[S0^2]=E[S^2]+σ^2(Xav)=E[S^2]+σ^2/n...(10) となります。ここでやっと(2)を使っています。またE[S0^2]=σ^2に注意です。 以上より、 σ^2=E[S^2]+σ^2/n...(11) で、これから E[S^2]={(n-1)/n}σ^2 となります。よって U^2=(1/(n-1))Σ(Xi-Xav)^2 = nS^2/(n-1)...(12) を考えておけば、 E[U^2]=E[nS^2/(n-1)]=n/(n-1)E[S^2]=σ^2...(13) となります。つまり、μの代わりにサンプル測定で得たXavを使って母集合のσ^2を推定するには普通に標準偏差の2乗(分散)を出す式のnの代わりに(n-1)を入れなければならないのです。
- backs
- ベストアンサー率50% (410/818)
私は数学科卒の人間ではないので数式による理解がすんなりとできる方ではありません。それでも、数式を見て"内容"を理解できるのは、一旦、数式を見る前に理屈を理解しているからです。例えば、標本分散と分散とではサンプルサイズの変化によってどう違ってくるのだろうか?ということをコンピュータでシミュレーションしてみたりとかするわけです。あるいは、数式は読み飛ばして、文章を何度も読んで「大体、こんなことだろうなぁ。」という状態になっていけば、後になって数式を見るとけっこう簡単に理解できることもあります(元々、文系卒の私が統計学の学士をとった秘訣です)。 もし本を紹介してくれということであれば、 野間口謙太郎・菊池泰樹訳「統計学:Rを用いた入門書」共立出版 のp37から始まる「分散」の章をよく読むことをおススメしますね。 数学科でもなければ、数式を理解するよりもまずは分散という統計量の性質を理解することです。まぁ、数式を見て一発で理解できればそれが一番いいんですケドね(^_^;)
- Ishiwara
- ベストアンサー率24% (462/1914)
母平均が分かっている母集団から標本を取ったときには、(各データ)-(母平均)を使って母分散を推定できますよね。しかし、母平均が分からないときは(各データ)-(標本平均)を使って推定するしかありません。 後者の場合は、答がどうしても前者の場合よりも小さくなってしまいます。その割合が平均して((標本数)-1)/(標本数)になることが知られています。そこで、 (母分散の推定値)=(データの分散)÷(この収縮率) を使うのです。 自由度というのは、(方程式の数)-(未知数の数)という意味ですが、ここでは深く考えないことにしておきます。
- jamf0421
- ベストアンサー率63% (448/702)
>今、簡単な統計学の本をみてますが、いまいちわかりません。 >初心者用の入門書でいいのがあれば教えていただきたいのですが。 たとえば 数学ワンポイント双書 岡田夜泰栄著 「平均値の統計」(共立出版)とかは易しいと思います。 お分かりにならないのは式の展開でしょうか?
- jamf0421
- ベストアンサー率63% (448/702)
No1さんのご説明と質問者さんの標本分散の定義があっていないように見えます。これは言葉遣いにちょっと問題がある所為です。 http://ja.wikipedia.org/wiki/%E6%A8%99%E6%BA%96%E5%81%8F%E5%B7%AE で、nでわったものを標本分散(sample variance)といい、n-1でわったのを不偏分散(unbiased bariance)という、と書いてあります。(私はこちらが普通と思っています。)そしてこの説明の中でn-1でわった方を標本分散と記述している本がある、という記述があります。 なお、自由度の意味は”独立に選べる変数”の意味で、全変数から変数相互の関係式(束縛条件)の数を引いたものです。大きさnの標本では観測データの自由度、平均値の自由度はnです。不偏分散の場合、 U^2=(1/(n-1))Σ(Xi-Xav)^2 となるのは、Xav=(1/n)ΣXiという関係式があり、Xiはn個を独立に決められないからです。 あるいはもう少し具体的な説明がよいかもしれません。ただし教科書に出ていますので端折って書きます。大きな集合の母平均がμ、母分散がσ^2だったとしてこれからn個の標本を採ります。この時n個のサンプルの平均値をXavとすると、 E(Xav)=μ...(1) σ^2(Xav)=σ^2/n...(2) になります。ここでEは期待値で、確率変数XがXiを採る確率をPiとしたときE[X]=ΣXiPiとするものです。 ここで二つの分散を採ります。 S0^2=(1/n)Σ(Xi-μ)^2...(3) S^2=(1/n)Σ(Xi-Xav)^2...(4) これらの期待値を計算すると E[S0^2]=σ^2...(5)(母集合の分散) E[S^2]=E[S0^2]-σ^2(Xav)=σ^2-σ^2/n={(n-1)/n}σ^2...(6) となります。この計算も統計の教科書にありますのでお調べ下さい。ところでサンプリングにより、実際得られるデータはμではなくてXavです。そして欲しいのはσ^2です。 そこで U^2=(1/(n-1))Σ(Xi-Xav)^2...(7) を考えますと E[U^2]=σ^2...(8) になることは(6)から明らかです。よってμでなくXav(サンプルの平均)を使った場合、繰り返し計測してσ^2を推定できるにはnで割った(4)ではなくn-1割った(7)を使うのです。
お礼
ありがとうございます。もうしわけないですが、説明が難しすぎます。苦笑 今、簡単な統計学の本をみてますが、いまいちわかりません。初心者用の入門書でいいのがあれば教えていただきたいのですが。。。
- sanori
- ベストアンサー率48% (5664/11798)
こんばんは。 標本分散というのは、たとえば、 試験を受けた全ての生徒の点数の分散に適用されます。(生徒の数=n) この場合は、真の平均値がわかっています。 ところが、一部の生徒だけの点数だけを取り出して、その分散を求める場合は、 それらの生徒の平均値はわかりますが、全体(あるいは無限数)の真の平均値は、わかりません。 要するに、前者に比べて、後者のほうが、真の平均値がわからない分だけ、 情報量がn個より1個少ないことになります。 これを「自由度」が1個少ない、と言います。 後者の場合で、分母をn-1にすることにより、(分母をnにしたときよりも)分散を多く 見積もらなければいけないのは、そういう理由によるのです。 別の言い方をすれば、 真の平均値がわからない、標本抽出の統計では、 不偏分散の計算方法で分散を求めてしまうと、ずるく小さい分散になってしまうので、 分母をn-1にすることによって分散値を大きい方に補正して、 そのハンデが解消されてフェアな状況になるのです。 以上、ご参考になりましたら。
お礼
ありがとうございました。
補足
回答ありがとうございました。お聞きしたいのですが、どうして「真の平均値がわからない分だけ、情報量がn個より1個少ないことになります。」ですか?1個の意味がいまいちわかりません。よろしければ教えてください。 僕が読んでいる解説 自由度とは、自由に動ける程度のことで、N個のデータの自由度はもちろんNです。ところが、N個のデータと平均との差の場合、偏差は N個(Xⅰ-X、Xⅱ-X、、、、Xn-X) 確かにN個あるのですが、このN個の偏差の間には次の関係式が1個存在しているのです。 (Xⅰ-X)+(Xⅱ-X)、、、、+(Xn-X)= Xⅰ+Xⅱ+、、、、XnーN・Xⅰ+Xⅱ+、、、Xn/N=0 よってN個のデータと平均との差の自由度は自由度=N-1となります。 と書いてます。さっぱりわかりません。苦笑
お礼
ありがとうございます。式の展開もそうですが記号がさっぱりわかりません。。。 教えていただいた本を読んでみます