• ベストアンサー

標準偏差を求めるにあたり

もうすでに質問されていることかもしれませんが・・・質問します。 標準偏差を求めるときに、Σ(測定値ー平均値)^2を、母集団で考える場合はnで割り、標本で考える場合はn-1で割って、平方根を取って算出しますよね。 標本で考える場合自由度が1下がるため、回数から1引いた数で割ればいいとテキストや考えたらなんとなくイメージすることができるのですが、数学的に考えた場合、なんで1を引くのか?どういう意味を持っているのか?理解できませんし、分かりません。1引くことがおそらく数学的に非常に重要なことなのでしょうが...気持ち悪くて気になります。 私自身、勉強不足で標準偏差自体曖昧な理解なのですが、疑問に思ったので、どなたか分かる方教えてください。

質問者が選んだベストアンサー

  • ベストアンサー
回答No.1

標準偏差は式に平方根があって煩雑になるので、分散で話をします。標本平均をm、母平均をμ、標本分散をs^2、母分散をσ^2、母分散の推定値をσ’^2とします。 確認しますと、 (1) s^2=Σ(x-m)^2/n (2) σ’^2=Σ(x-m)^2/(n-1) です。s^2のほうが分母が大きいので、s^2 <σ’^2となっています。 母分散は、x-μを2乗して平均したものです。しかし、μはわかりませんので、代わりにmを使うことになります。それが (1) です。 しかし、mは、用いた標本によって、ちょっとずつ変わってきます。標本平均m自体も、平均と分散とをもって分布を描く値です。mの平均(平均の平均)はμ、分散はσ^2/nになります。 (3) 標本平均mの分散=σ^2/n ===ここから標本平均の分布の話です。 平均の分布というのはわかりづらいかもしれませんが、たとえば100 m走のタイムを考えます。同じ母集団から10人抽出して平均mを出すとします(つまり標本の大きさはn=10です)。母集団から10人選ぶ方法はいくらでもあるので、何度も10人抽出してmを出してみます。すると、当たり前ですが、mは計算するたびに別の値になります。このmの分布は、平均の誤差を表わしていると考えられます。この分布は正規分布であることが知られており、平均はμ、分散はσ^2/nになります。実際は母集団からの抽出は1回しかしませんので、この値を知っていることは統計学の基礎になります。なぜ平均の分散がnで割られているかというと、nに実際に数を代入すればわかります。n=1なら、標本平均の分布は、ただひとつのデータそのままの値の分布になるので、母集団の分布に一致します。また、nが大きくなればなるほど、分散は小さくなります。これは、10人で測るよりも、1000人で測ってほうが誤差が小さく、正確であることを示しています。 ===ここまで標本平均の分布の話です。 ここから、 (4) 母分散=標本平均からの分散+標本平均自体の分散 を考えなければなりません。(1)、(3) を (4) に代入すると、 (5) σ^2 = Σ(x-m)^2/n+σ^2/n です。これをσ^2について整理すると、 (6) σ^2=Σ(x-m)^2/(n-1) です。このσ^2を推定値σ’^2として用いるということなので、(2) と一致することがわかります。

その他の回答 (1)

  • age_momo
  • ベストアンサー率52% (327/622)
回答No.2

母平均(μ)が既知である場合は不偏分散も個数nで割ってよいのですが、 これが標本から同時に推定されるものですので結局(n-1)で割ることになります。 (標本平均も真の値からの分散を持つわけで、それを除外するとn-1で割ることになります) まず、母平均の不偏推定量が1/nΣxi,標本数nの平均mが分散σ^2/nを持つのは いいでしょうか?それを前提にして 偏差平方和S^2の期待値を考えると E[S^2]=E[Σ(xi-m)^2]=E[Σ{(xi-μ)-(m-μ)}^2]=E[{Σ(xi-μ)^2}-n(m-μ)^2] =nσ^2-nσ^2/n=(n-1)σ^2 よってσ^2の不偏推定値は偏差平方和を(n-1)で割ることになります。 その平方根をとったのが標準偏差というわけです。

関連するQ&A