- 締切済み
標準偏差について
標準偏差について調べていたところ、↓のような説明がありました。 「標準偏差とは、バラツキをあらわす目安です。例えば、製品の長さを測定した結果、40、50、60、70、80cmだったとします。 バラツキを見るために、個々のデータから平均値60を引きます(偏差)。 40-60=-20 50-60=-10 60-60=0 70-60=10 80-60=20 ----- 計 0 全体的なバラツキを見たいのですが、このまま加えたのでは、ゼロです。そこで、偏差を2乗します。 (40-60)^2=400 (50-60)^2=100 (60-60)^2=0 (70-60)^2=100 (80-60)^2=400 ----- 計 1000 このままでは、データ1個あたりのバラツキがわかりませんから、データ数で割って、平方根を取ります。これを標準偏差といいます。 標準偏差=ルート(1000/5)=14.1 この製品は14.1cmのバラツキがあるということです。」 この説明を読んで、なぜ偏差を2乗してから平方根を取ってデータ数で割っているのかがわかりませんでした。そんなことをしなくても、データ1個あたりのバラツキを求めるのであれば、各偏差の絶対値を足してデータ数で割ればいいのでは?と考えてしまいます。その場合の値は12となり、上記説明の方法で求めた14.1とは異なりますが、この2者間にはどのような関係があるのでしょうか?よろしくお願いします。
- みんなの回答 (4)
- 専門家の回答
みんなの回答
- Ishiwara
- ベストアンサー率24% (462/1914)
「そのまま平均するとゼロになってしまうので2乗する」という説明が、実はインチキなのです。なぜ2乗するのか、という理由には、先人たちの努力の積み重ねが含まれているのです。(インチキな説明によるなら、4乗だって6乗だっていいことになります。) 数学に限らないかもしれませんが、私たちは「体系化」された学問を習うときに「先人が苦労した課程を追いつつ」その順序で学習するのではありません。最初にその結論を「便利な道具」として、まず提供されて体系を学びます。ですから、この方法ですと「なるほどそのようなわけで2乗するのか」と納得するのは、かなり勉強が進んでからになってしまいます。そのあたりになれば「差の絶対値の平均」が、たいして役に立たないパラメータであることが分かります。 私たちは、とても自力では証明できないような定理を、毎日のように道具として使っています。「体系化された学問」というものは、そうして役に立っているのだ、と理解してください。
- Tacosan
- ベストアンサー率23% (3656/15482)
「平均偏差」というやつですね. 標準偏差と同じく「データのばらつき」を表す尺度なんですが, 標準偏差より扱いにくいので使われないんだそうです. 偏差の絶対値を使うなら, 平均値じゃなくて中央値を使いたい気もするなぁ. 「中央値からの偏差の絶対値の中央値」... うん, 「データのばらつき」を表す尺度としてはそれなりに合理的かもしれない. 数学的な扱いにくさはかなりのものだと思うけど.
- sanori
- ベストアンサー率48% (5664/11798)
もしも分布が二等辺三角形型の分布であるならば、おっしゃるような偏差の絶対値での統計は有力でしょう。 しかし、世の中にある確率分布は、現実問題、正規分布(ガウス分布)やポワッソン分布の形になっています。 それらは元々、二項分布の極限です。 私は、その説明をするときに、専ら、パチンコの釘と玉のモデルを使っています。 ここに図は描けないので、ネットで探してきたリンクを下記に示しておきます。 http://gakuen.gifu-net.ed.jp/~contents/museum/probability/page92_5.html http://gakuen.gifu-net.ed.jp/~contents/museum/probability/bin_dis.html http://gakuen.gifu-net.ed.jp/~contents/museum/probability/binomial_dis.html http://www.hokuriku.ne.jp/fukiyo/math-obe/nikou.htm ということで、正規分布等を前提とした確率統計論によって、#1さんがおっしゃるような、偉大なる先人達が残した便利ツールを利用することができるわけです。
- kumipapa
- ベストアンサー率55% (246/440)
バラツキを求めるのならば、偏差の絶対値の平均を求めれば良いのでは、ということですね。 「偏差の絶対値の平均」も立派な統計量と言うべきで、それでバラツキを把握されるのが間違っているとは言えないと思います。 ただ、お聞きしたいのは、なぜバラツキの量を把握したいのですか、それを把握して、どう利用されるおつもりですか、ということです。 例えば、製品の長さのバラツキを調べるとします。さて、バラツキを調べて、それから何をしましょうか。例えば、(1)製品の長さのバラツキを抜き取り検査で調べて、製品全体の不良率を推定したい、というのが一つの例でしょうか。ちょっと毛色を変えて(2)製品1個の長さのバラツキはわかったけど、それをn個つなげたときの長さのバラツキを推定したい、などというのもあるかも知れません。 このような要望に対して、「偏差の絶対値の平均」は現実的に無力です。一方、標準偏差は、(1)、(2)のような要望に答えてくれる統計量として活用されています。 (1)については、平均値と標準偏差σを調べれば、「では、平均からこのぐらい外れる確率は?」という数値(分布表)が、統計の教科書に必ず載っており、不良率などを見積もることができます。 (2)については、n個つなげた時には分散σ^2がn倍になりますので(分布によらずです)、標準偏差は√n 倍になると見積もることができます。 先にも言ったように、残念ながら「偏差の絶対値の平均」ではこのような応用をすることができません。 多くの分布関数が平均値と分散(or 標準偏差)をパラメタとして記述されていることもありますし、分散や平均値に対しては数学的な多くの議論も可能ですので、特別な理由がなければ標準偏差でバラツキを把握しておくのが無難だと思います。