- ベストアンサー
不偏分散の (n-1)で割る理由、、、
分散の計算では、nで割る母分散と、(n-1)で割る不偏分散がありますが なぜ(n-1)で割るのか、いまいち直感に訴える説明に出会っていません。 たいていの本では、天下り式に「(n-1)で割る」とだけしか書いて いません。たまに親切な本では計算式に平均値が入っているので自由度は nから1だけ少なくなる云々とありますが、自由度が何故1減らなければ ならないのか、いまいち理解出来ません。 もう少し高度な本になると、期待値Eやら分散Vやらが出て来て、 不偏統計量云々の「ややこしい」説明が出て来ますが、これも直感に 訴えかける説明ではありません。 数物系出身ながらお恥ずかしい質問ですが、いざ自分に問いかけてみると 納得できる説明が出来ません。「なるほど!」というご説明をいただけると 幸いです。よろしくお願いします。
- みんなの回答 (3)
- 専門家の回答
質問者が選んだベストアンサー
- ベストアンサー
>自由度とは何を意味するのでしょうか? 数学的正確さがない表現です。 測定点がn個あったとします。これをベクトルで考えると.これから求めようとする値である1点の点はn個の方向へ引っ張られているのです。この数が自由度です。 もし.このn個の中の数の1つを使ってしまったらばどうなるのでしょうか。一つ引っ張る方向が減ります。 世の中にnこしか測定点が存在しない場合には.全体が決まっていますから平均値を求めても自由度は変化しません。しかし.無数の測定が出来る時に平均を求めたらばどうなるのでしょうか。本来無数の点すべてを測定した時に求められる1点の値が分からないから.n個の測定値の算術平均を取って多分全体の点の1点になるであろうと推定して平均としました。つまり.絶対的な値ではなくて想像上の点です。今まであった点に変えてこの点を使いますから.引っ張る方向が一つ減ります。 自由度で割るというのは.このように引っ張る点1点あたりの割合を示しています。 このように.一つの値を求めようとした時に.自由度は測定点の数から推定点の数を引いた残りを示しています。
その他の回答 (2)
- motsuan
- ベストアンサー率40% (54/135)
私も統計的自由度というのがいまいちわかりませんが計算だけなら 確率変数Xの確率分布P(X)があるとします。 このとき標本 Xi (i=1~n) で平均m= ΣXi/n として <Σ(Xi-m)^2>を計算します。 P(X1)P(X2)・・・P(Xn) が{Xi (i=1~n)}の確率で ∫dX1 P(X1) ∫dX2 P(X2)・・・∫dXn P(Xn) Σ(Xi-m)^2 ...(※) を展開して母集団の分散 ∫dX P(X)(X-<X>)^2 との関係を導くと(※)をn-1で割ればいいことがわかります。 この計算においては、∫dX P(X)(X-<X>)^2という1体問題と (※)というn体問題の関係を求めているわけですが このときn-1は結局、n体問題の関係を1体問題にするときに XiXj(i,j=1~n) のなかから 相関のない2つのパラメータの関係(XiXj) (i=jでない) (すなわち本質的な1体問題と) 相関のある自分自身(Xi^2)との関係を 分離することによって出てくるものです。 すなわち、サンプル平均とサンプルの値 Xi (i=1~n) を通して相関がある値が 発生するために自由度が減少しているという計算になっているように見えます。 (力学でいえば、統計的に等質量の質点のサンプルから 重心と慣性モーメントを求めたときに、 本当の重心の位置とサンプルの重心の違いがあるために、 サンプルの慣性モーメントが小さく見えてしまう (ので、1個あたり揺らぎの大きさn^(-1/2)ずつ加算して n個で丁度和の自乗が1になる揺らぎを含んでいるので その分1だけ小さい値で割る) ということに対応しているのでしょうか?)
正確さが欠けるのですが.以下の説明ではどうでしょうか。 分散の計算では.自由度で割るということが原則です。 ですから. 全数サンプリングの場合には.nで割る。平均値は推定値ではありませんから。 部分サンプリングでは.推定値として1つ「平均値」を使ってしまいましたから.n-1で割る。 重み補正をした場合には.重みに使用した自由度(普通1個)と推定値の「平均値」の合計2個の値を使ってしまいましたから.n-2で割る。 欠点補正をした場合には.1点の補正につき1点の自由度が減少します。2点の欠点がある場合に.2点の補正値を推定して.推定値の平均を1つ.合計3つの値を使ってしまいましたから.n-3で割る。 と考えて行きます。その分散を求めるためにいくつの推定値を使ったか.使った分を除くという考え方に立ちます。
補足
早速のご回答ありがとうございます。 edogawaranpoさんの書かれた解答は、一般的な教科書の正統な解答だと 理解しています。ここで、私が理解できないのは 1、「分散の計算では自由度で割るということが原則」とありますが 分散の定義を数学辞典で調べると、平均と標本値の差の自乗の平均が 分散だとしてnで割る場合が書かれています。ところが「(n-1)で割る 場合もある」などと曖昧な表現も追記されています。 自由度で割るというのは定義ですか? 2、そもそも、自由度とは何を意味するのでしょうか? 分散とは、平均と標本値の差の自乗の平均という「高校生向け」定義は 数直線上に標本値と平均値をプロットしながら、「分散とはこういうも のだ」と図示しながら説明がしやすいものです。 しかしながら自由度なるパラメータが出て来て、nで割るはずの平均が (n-1)で割るというのは、視覚に訴えるものが無くて困っています。 なぜ?という疑問を持ち出すと、いままでの自分の理解が浅い事が 痛感されます。
お礼
平均値は観測値から計算される物との固定観念を取り去って ほかの観測値と同じデータの一つと考えると、edogawaranpoさんの説明も なんとなくイメージがつかめてきました。ありがとうございます。