• 締切済み

分散の計算で平方和をnではなくn-1で割るのはなぜ?

SQCの勉強を始めたところです。 分散の計算で、平方和をnではなくn-1で割るのが理解できません。 本には Σ(xi-xbar)=0の関係があるので、平方和は実質的にはn-1個分の和である。 と書いてあります。 しかし、なぜΣ(xi-xbar)=0(つまり偏差の総和が0)ならn-1なのか、 理解できません。 どなたか、教えてもらえないでしょうか? 例えば、2個のサンプルがあって それぞれの測定値が、1,2だった場合 xbar=1.5 S=0.5 ここでVはSをデータ1個あたりに規準化したものと言うんですから、 V=0.5/2 とするのが自然な考えだと思うのですが、 なぜ、V=0.5/1 なんでしょうか? その理由が、偏差の総和が0だからと言われても、 まったく要領を得ません。 なお、当方恥ずかしながら、数式だけでの説明では理解が難しいので、 上のように実例を挙げて言葉で説明していただけると助かります。 よろしくお願いいたします。

みんなの回答

  • Ishiwara
  • ベストアンサー率24% (462/1914)
回答No.8

#6です。 > この場合n-1でないと不都合である事がわかるだけです。 > 不都合だから、n-1にしたわけではなく、もっと何か > 明確な理由があっての事だと思うのですが、 おっしゃるとおりです。私の説明では「n-1 だと好都合」というだけであって「n-1でなければならない」ことを証明していません。 数学的に証明するのは、それほど困難なものでないのですが、統計学の教科書に載っているものを、ここで詳細に丸写ししたくないものですから、ご自身で調べてください。

  • Ishiwara
  • ベストアンサー率24% (462/1914)
回答No.7

#6です。 すみません。私の回答で、分散と平方和が混線していました。 誤:(1) では、期待値は、10σ^2となります。 誤:(2) では、期待値は、(10-1)σ^2となります。 正:(1) では、分散の期待値は、σ^2となります。 正:(2) では、分散の期待値は、(9/10)σ^2となります。 (1) のやり方を採るからには、標本数に関係なく常に標本分散が母分散を中心として出現します。当然ですよね。しかし、現実には、標本を見ただけで母平均を知ることは不可能ですから、標本から母分散を推定するときには (2) を足がかりにせざるをえないのです。

  • Ishiwara
  • ベストアンサー率24% (462/1914)
回答No.6

私もかつて悩んだ問題です。 #1さんの答が、最も説得力があります。 では、なぜ(2や3じゃなくて)1なの? 1つの母集団(μ, σ^2)から、10個のサンプルを採るとき、そのサンプル内の分散はどうなるでしょうか。 (1) μが分かっている場合、個々のデータからμを引いて求める。 (2) μが分からないので、個々のデータから「標本10個の平均」を引いて求める。 という方法があります。 (1) では、期待値は、10σ^2となります。 (2) では、期待値は、(10-1)σ^2となります。 (2) では「身内の中の計算で平均値を作る」から、それだけ小さい値が出てしまうのです。ですから、求めた分散から母分散を推定するときには、9を使わないといけません。 なぜ-1か?厳密には数学の助けを借りる必要がありますが、サンプル数が10でなく1だと考えて見ましょう。サンプル内では分散がゼロになります。じゃ、元のσ^2はゼロだ、と言ってよいのでしょうか。1から1を引けばゼロになる。だからサンプル内の分散はいつもゼロになる。これを使って母分散を推定することは「できない」ということが分かります。サンプルが2個なら、精度はよくないけれど、計算はできます。 では、なぜ自由度というのか。私たちは10個のデータを入手しましたが「分散を計算するなら、10個の平均はゼロだとしてくださいね」と条件を付けられて受け取りました。つまり10個の数が自由に存在するように見えながら、実は「10個の未知数に、1個の方程式(拘束条件)が付いている」状態です。「データを9個しか受け取らなかった。その後の1個は自分で計算しなさいと言われた」のと同じことだったのです。 それで、データ数引く1を「自由度」というのです。

m_abe
質問者

補足

ご回答いただき、ありがとうございます。 なぜ-1か?ですが、サンプル数が1の場合は、私も考えました。 両極を考える事で、意味が分かる事はよくあります。 しかし、この場合n-1でないと不都合である事がわかるだけです。 不都合だから、n-1にしたわけではなく、もっと何か明確な 理由があっての事だと思うのですが、他の回答者様のご意見では、 数学の力を借りる以外に手は無いようで、もう諦めようかな、 と思っております。

  • zk43
  • ベストアンサー率53% (253/470)
回答No.5

言葉だけでの説明は難しいので、品質管理とかの実用性だけが目的なら ば、数学的にそういう事実があると思って使用すればよいのではないで すかね。どうしても理論的な納得がしたければ、確率論の基礎から地道 に勉強していくしかないと思います。多分、基礎がなくて、このことだ けを理解するのは不可能と思われます。他の分野でも、数学的な厳密な 理論は分からないが、結果だけは利用しているということも良くあるよ うです。例えば、中心極限定理とか。証明は非常に難しい。おそらく、 証明を理解する域に達することができる人は少ないでしょう。 しかし、この分散の問題はそれほどではなく、初学者でも半年も勉強す れば分かるようになるでしょう。

m_abe
質問者

お礼

言葉での理解は難しいとのことで、あきらめがつきました。 丸暗記が嫌いな性分で、今までほとんど乗り越えてきましたが、 たまに今回のような事例に出くわします。 ちなみに、前回はOFDM(地デジの変調方式)の理解に 必要なFFTでした。 この度は、貴重な時間を取っていただき、ありがとうございました。

  • zk43
  • ベストアンサー率53% (253/470)
回答No.4

n-1が出てくるのは、E[Σ(Xi-Xbar)^2/n]=(n-1)/n*σ^2となるからであ り、これより、両辺にn/(n-1)を掛けると、 n/(n-1)*E[Σ(Xi-Xbar)^2/n]=σ^2 n/(n-1)をEのカッコのなかに入れると、 E[Σ(Xi-Xbar)^2/(n-1)]=σ^2 となるからです。 細かい途中計算はここでは書きませんが(最近、細かい数式を打つ気力 がなくなってきた。手書きならすぐ書けるのですが・・・)、手持ちの 教科書に説明がなくとも、確率・統計の大体の教科書には不偏推定量の 詳細な説明があると思いますので、調べて見られることをお勧めしま す。 手持ちの教科書は実用重視で、あまり理論的なことが書いてないのでし ょうか?

m_abe
質問者

補足

何度もすみません。 手持ちの教科書ですが、製造業の品質管理の道具として書かれていますので、理論はありません。 当方、数学の能力は中2程度でΣの意味も今回勉強してわかった次第です。 日頃から数式を使う事をしていないので、数式での説明はきついです。 丸暗記した方が良いのでしょうか?

回答No.3

#1のつづきです。 自由度というのは、あまりスマートな説明ではありません。統計の本には自由度で割るとありますが、これは後からつけた説明のようであり、専門家にしかピンとこないものです。実際には、定義式をまとめていくとn-1が出てきます。 以下のリンクを参考にしてください。なんとなく感触がわかると思います。 でも大事なのは nでわるときと n-1で割るときの違いを理解できているかどうかです。もっともサンプルが100もあれば、どっちで割っても違いはありませんが。

参考URL:
http://case.f7.ems.okayama-u.ac.jp/statedu/lispstat-book/node119.html
m_abe
質問者

補足

何度もすみません。 リンク先見てみましたが、お手上げです。 やはり、式で考えないと無理でしょうか? 直感的な理解は無理でしょうか?

  • zk43
  • ベストアンサー率53% (253/470)
回答No.2

不偏分散のことと思いますが。 母分散σ^2の推定量として、Σ(Xi-Xbar)^2/(n-1)を考えると、 E[Σ(Xi-Xbar)^2/(n-1)]=σ^2となっているから不偏性がある。 Σ(Xi-Xbar)^2/nでは、E[Σ(Xi-Xbar)^2/n]=(n-1)/n*σ^2となって、 不偏性がなく、これから、n-1で割ったものは不偏性があると分かります。 一般に母数θの推定量f(X1,…,Xn)が不偏推定量であるとは、 E[f(X1,…,Xn)]=θを満たす、すなわち、f(X1,…,Xn)はθのまわりに 偏りなく分布しているという感じです。 n-1で割っているのは、この不偏性という基準を重視したものです。

m_abe
質問者

補足

回答ありがとうございます。 残念ながら、数学力不足で式の内容はチンプンカンプンですが、 不偏性が関係していることはわかりました。 そこで、googleで「不偏性」と「n-1」をキーワードに 検索したところ、参考になりそうな解説がたくさん出てきました。 しかし、なぜ-1かという説明が無いのです。 このことは解説するまでもない、当たり前の事なのでしょうか? 講義での分散の説明は数十秒でしたが、それがわからないとは 情けない話です。これからが思いやられます。

回答No.1

これは誰もが考えてしまうところですね。統計の本を読んでも、明確に書かれているのは少ないのが実情です。 (1)nで割る いま10個のデータがあり、その10個の分散を求める場合は、10で割ります。9ではありません。 たとえば、あるクラスの男子が全部で15人いたとして、15人の身長の分散は、15で割ります。14ではありません。 (2)n-1で割る 本当の集団は10個より多いが、手に入るデータが10個だけの場合、 この10個から、もとの集団の分散を推定するのは、9で割ります。 先ほどの例では、1クラス15人の男子のデータから、その学年の男子の 身長の分散を推定するのは14で割ります。 (3)n-1の意味 これはむずかしい。でもこう考えてください。nで割るより、n-1のほうが、分散は大きくなる(=元の集団の推定が、あいまいになる)。だからn-1で割った方が、元の集団を表すには適切であると。 数学的には、自由度という考えです。単純に平均を計算するには、常にnで 割ります。でも分散にはxbarつまり、平均を使います。 xbar=(x1+x2+...xn)/n です。x1からxnに、どんな数値が入ってもxbarを計算できます。ではxbarが先に与えられているとき、x1からxnは、やはり自由に数値を入れることができるでしょうか?実は、どれかひとつは、自由にならず、自由になるのはn-1だけです。このn-1が、ご質問に該当するものです。

m_abe
質問者

補足

長文の回答、本当に恐れ入ります。 (1)(2)はルールの話だと理解しました。 最後の自由度という考えも、何となくわかりました。 しかし、一番知りたい(3)がわかりません。  なぜ-1なのか、この-1はどこから来たのか?  最後の説明の自由度と今回の件が何のつながりがあるのか? ということが明確になっていないように思います。