- ベストアンサー
標準偏差の式について
標準偏差を求める式について質問します。ある試料を何粒か選び、1粒ずつ重さを測定していったとき、それぞれの測定値をX1、X2、X3,・・・・Xnとして、その平均値をZとすると、標準偏差が次のような式になるのはなぜですか。 SD=√〔Σ(Xi-Z)^2/n-1〕 どうしてこの式がでてくるのか分かりません。よく理解できていない状態でSDが大きくなるとばらつきが大きくなるとか知ってしまったので頭がパニック状態です・・誰か回答してくれませんか。お願いします。
- みんなの回答 (4)
- 専門家の回答
質問者が選んだベストアンサー
なんか何重にも間違えててどこから指摘したらいいのか…といった感じなのですが >偏差の2乗を足し合わせたものが、例えば、√(3^2+4^2)だったら >答えは5なんですけど、ここではばらつきが7と出ないと、 >正しいばらつきとずれるんじゃないかなぁと思った まず「√(3^2+4^2)」は「偏差の2乗を足し合わせたもの」じゃなくて それの平方根ですよね。 で、標準偏差を出したいんだったら、平方根の中身は2で割ってないとダメですよね。 さらに、「ばらつきが7と出ないと」とのことですが、 標準偏差が意味してるのは「平均的なばらつき」ですから、 この場合だったらせめて「ばらつきが3.5と出ないと」となってほしいのですが。 本当の意味での「ばらつきの平均」を取りたいんだったら、 正負のばらつきの相殺を防ぐために偏差を2乗するのではなく、 単に偏差の絶対値を取って、それを平均したものを標準偏差として 使ってやればいいわけです。 でもそれをしないのは、絶対値を使って標準偏差を定義すると、 数学的に非常に使いにくいものになるからです。 要するに、数学的な使いやすさのために、直感的なわかりやすさを 犠牲にしてるわけです おそらくあなたのおっしゃりたいのは、2乗して平均したものの平方根をとっても もとの平均とは一致しない、ということなのでしょうが、 まあだいたいの目安としては似たような値になるし、 (上の例で言うと、(3+4)/2=3.5に対し、√{(3^2+4^2)/2}=3.5355....) 数学的に使いやすいからこれでいいか、ということで済ませているわけです。
その他の回答 (3)
- kochory
- ベストアンサー率45% (167/370)
>Σ(Xi-Z)^2の部分は偏差の2乗を足し合わせたものの2乗だと考えると そんなこと考えないでください。 偏差の2乗を足し合わせただけです。
お礼
すいません。言葉を書き間違えました・・ >Σ(Xi-Z)^2の部分は偏差の2乗を足し合わせたものの2乗だと考えると ここは偏差の2乗をたしあわせたものの平方根と書こうとして、書き間違えてしまいました。偏差の2乗を足し合わせたものが、例えば、√(3^2+4^2)だったら答えは5なんですけど、ここではばらつきが7と出ないと、正しいばらつきとずれるんじゃないかなぁと思ったんです。どうなんでしょうか。教えていただけませんか。
- kochory
- ベストアンサー率45% (167/370)
「標準偏差が次のような式になるのはなぜですか」と言われても、 それが標準偏差の定義だからなあ… 式の意味を聞いているんでしょうか。 「ばらつきが大きい」というのは、 「各資料の平均値からの外れ方がおおきい」ということです。 この「平均値からの外れ」は、Xi-Zで表されるのはお分かりでしょうか? (単に各資料の値と平均値との差を取ってるだけです) で、この値が平均して大きければ、その資料全体で「ばらつきが大きい」と 言えそうですが、単純にこの量(Xi-Zのことね)の平均を取ると問題があります。 Xi-Zは正にも負にもなるので、単純に全部足して資料数で割っても、 平均から正のほうに外れてる資料と負のほうに外れてる資料で相殺してしまって、 個々の外れ方は大きいのに、平均したら結局0に近くなってしまう、 ということも起こりうるからです。 それを避けるために、まずXi-Zを2乗して、正のはずれでも負のはずれでも、 同じだけ平均からずれていたら同じ大きさになるようにして、 それから平均を取ってやります。 式で表せばΣ(Xi-Z)^2/nですが、この量を「分散」と言い、 資料間のばらつきを表す量として使われます。 ご質問の標準偏差は、これの平方根を取ってやったものです。 なぜ平方根をとるかと言うと、分散は、もとのデータを2乗して求めたものなので、 単位がもとのデータとは違ってしまっていて、そのままでは「どれくらい」 データがばらついているのかがわかりにくいからです。 平方根をとってやると、単位が元に戻って、ばらつきの具合がもとのデータと 同じ単位で表されます。 すなわち、標準偏差がσであるというのは、データは平均して、その平均値から σだけ(正か負かに)外れている、という意味があるわけです。 さて、実はここまでで一つ説明をごまかしたところがあるのですが、 質問にある標準偏差は√(Σ(Xi-Z)^2/n-1)なのに、ここで説明した 標準偏差は√(Σ(Xi-Z)^2/n)になってます。 √内の分母が違いますね。 これはつまり、分散がΣ(Xi-Z)^2/nで表されるかΣ(Xi-Z)^2/n-1で表されるかの 違いなわけですが、どうしてこんな違いがあるのかということと、 どういう場合にどちらを使えばいいのかということは、 統計や推定の教科書を読んで自分で勉強してください。 一応使い方だけ言っておくと、今の、「試料を何粒か選び」という場合のように、 母集団からサンプルを取って、それに基づいて母集団の標準偏差(や分散)を 推定するときには、分母がn-1になってるほうを使います。
お礼
説明ありがとうございます!ちょっと理解できないところがあったので質問して良いですか。 >平方根をとってやると、単位が元に戻って、ばらつきの具合がもとのデータと同じ単位で表されます。 Σ(Xi-Z)^2の部分は偏差の2乗を足し合わせたものの2乗だと考えると、この部分の意味がよく分からなくなってしまうのですが、どうなんでしょうか。回答お願いします。
ここがわかりやすくていいと思いますよ。
お礼
ありがとうございます。さっそく見てみます!
お礼
いままですっきりしなかったものが取り除けました。分かりやすい説明ありがとうございました!