統計学 分散について
今ネットのHPでハンバーガー統計学とういところで統計学を覚えようとしています。
このHPで、
データのばらつきを数値で表す
という、項目があります。
ここでは、分散の式を分かりやすく説明しているのですが、
HPの説明では・・・
平均値からのずれ(つまり個々のデータと平均値との差)を足せば、ばらつきの数値になるのではないかと考えます。つまり、
ばらつき案1=(データ-平均値)の総和
ということです。しかし、これですと、データが小さいときに(データ-平均値)はマイナスになるので、総和を求めてもゼロになってしまいます。そこで、2乗することでマイナスをプラスにします。次の案はこうなります。
ばらつき案2=((データ-平均値)の2乗)の総和
しかし、まだ問題があります。この式ですと、データの個数が大きくなるにつれてばらつきが大きくなってしまいます。個数の大小にかかわらず、ばらつきを求めたいのです。そこで、総和をデータの個数で割ることにします。式は、
ばらつき案3=((データ-平均値)の2乗)の総和÷個数
これで良さそうです。この「ばらつき3」のことを「分散」と呼びます。もう一度式を書いておきましょう。
分散=((データ-平均値)の2乗)の総和÷個数
分散は、データが平均値を中心にして、どのくらいばらついているのかを示した数値です。
と、あります。
分散は平均からのずれを出すのであれば、
分散=((データ-平均値)の2乗)の平方根の総和÷個数
が正しいような気がします。
例えば平均から+5cmの2乗は25なのに、
+0.3cmの場合2乗は0.09になってしまい、
大きくぶれたものはより大きく、
小さくぶれたものはより小さくなってしまいます。
ばらつき案1で
データから平均値を引いた答えに+と-があり、
総和を求めると、この+と-のブレがお互いに干渉しあって
数値を0に近くする為、
一度2乗して+と-を無くしたのに、
何故その後、そのままなのかよく分かりません。
2乗して+と-を外したなら、次に平方根を出し数値を実態に近い値にすればいいのにと思ってしまいます。
言ってる事がいまいち伝わらないかと思いますが・・・
どなたか解説お願いします。
分散とはそういう計算式なんだ!と、
言ってしまえばそれまでですが、
どうしても納得がいきません・・・