標準偏差と誤差の計算方法について

2003/09/29 19:24

このQ&Aのポイント

標準偏差と平均自乗誤差は、計算方法が異なるため、分母の指数も異なります。
母集団＞標本集団の場合、平均自乗誤差の分母は（データ数＊データ数－１）となる理由について説明します。
EXCELのSTDEVP関数とSTDEV関数の違い、母集団＞標本集団の場合の標準偏差の計算方法について説明します。

hdai
お礼率36% (66/182)

数学・算数
回答数3
ありがとう数175

みんなの回答 （3）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

kgu-2
ベストアンサー率49% (787/1592)

2003/10/01 01:25 回答No.3

diviationは、deviation の誤りです。ディビエーション、と日本語で発音していますので、つい。 >「標準誤差はサンプルのバラツキぐあい」標準偏差はサンプルの平均値のバラツキぐあい」とありますが，標準偏差はサンプルのバラツキ　標準誤差はサンプルの平均値のバラツキ」の誤りと理解してよろしいですか？私は、「バラツキぐあい」と表現しましたが、バラツキとの違いが分かりません。 >誤りと理解して同一ですか、であればyes、でしょう。テキストは、「バラツキ」と表現してあるでしょうが、その様子と言う意味を込めてバラツキぐあい、としました。　が誤りなら、バラツキぐあいとバラツキの違いを書き込んでくださればお答えできるでしよう。　なお、バラツキにしても、標準偏差からだけでは、何もわかりません。標準偏差が10と分かっても、バラツキが大きいのか小さいのか判断できないからです。　無意識にせよ、平均値を念頭においているハズデス。 >数学的にもう少し説明するとどうなるのでしょうか？専門家、としたので、誤解されていると想うのですが、数学的な素養はありません。学生時代に、統計学の試験のときに教科書持ち込みだったのですが、どこを写せば良いかわからず、終了まで教科書をめくるだけでした。　その後、有意差検定をせざるを得なくなり、標準偏差や標準誤差をかじりました。そこで、学生時代に出来が悪かっただけ、統計学のどの部分が分かりにくいか、だけは理解しているつもりです。そういう意味の専門家です。　テレビを楽しむときに、どのチャンネルで目的の番組を見れば良いかは十分に理解していますが、そのチャンネルを見れば、何故その番組をみることができるのか、というテレビの仕組みは理解しなくても良い、というのが私の立場です。　ただ、なぜnで割るか、については、どの教科書にも書いてないのでは。　それが定義だから、と答えることは可能です。逆に考えれば、標準偏差にしても、平均値±標準偏差には、サンプルの68%が入ります。が、68%しか入らない、とも言えます。標準偏差の2倍、すなわち、標準偏差±2×標準偏差なら、95%のサンプルが入ります。その方がバラツキを表しやすい、とも考えられます。　したがって、なぜそのような数式になるのか、というよりも、その使い方を誤らないようにさえすれば良い、というのが私の姿勢です。標準誤差を経験するのは、グラフのデータを表すときに、『バラツキが小さい』と感じて、脚注を見ると標準誤差だった、ということぐらいです。　数学的な説明については、申し訳有りませんが、私の手に余ります。

質問者

お礼 2003/10/01 11:26

　私が普段使う誤差論に関する教科書にも，まるで定義であるかのように，ｎで割ると書いてあります。（他の教科書に当たっても定義であるかのような説明でした。）　本当にありがとうございました。今までの疑問が解けて，本当にすっきりしました。

その他の回答 (2)

kgu-2
ベストアンサー率49% (787/1592)

2003/09/29 20:29 回答No.2

＞分母が標準偏差は１乗で，平均自乗誤差は２乗なのはなぜでしょうか　標準偏差は、母集団から取り出した一つ一つのサンプルのバラつきを表しています。　標準誤差は、母集団から取り出したサンプルの平均値をまず求めます。この操作をすると、取り出したサンプルが、その都度異なるので、平均値もややズレます。すなわち、この平均値のばらつきを示すのが、標準誤差です。　繰り返しになりますが、標準誤差は、サンプルのバラつき具合。標準偏差は、サンプルの平均値のバラつき具合です。サンプルをサンプルの平均値にするには、データ数で割る、ということになりませんか。したがって、標準誤差を求めるには、標準偏差を、もう一度データ数で割ることになります。　私は、グラフに表すとき、平均±標準偏差を用いますが、外国の論文を読んでみると、平均±標準誤差で表す人が多いようです。そうすると、バラつきが少ないように見えます。ご質問の意味を取り違えていたら、ご容赦を >EXCELには母集団＝標本集団のSTDEVP関数と　母集団の標準偏差はSTDEVP、母集団からサンプルを選んだ場合は標本標準偏差でSTDEVを用いています。　いつも混乱するのは、標本標準偏差は、，（データ数＊データ数－１）で割った不偏標準偏差を用いますが、これは、Partial Standard Diviationの英訳でしょう。ですから、EXECELでは、標本標準偏差(不偏標準偏差)には、PのついたSTDEVPを使いたくなるのです。しかし、同じデータで計算すると、STDEV<STDEVPにはならず、逆になります。ですから、前に書いたように、Pが最後に無いSTDEVが標本標準偏差です。　EXCELがこんな錯乱をおこしそうな関数にしたのかは知りません。いつも頭にきています。

質問者

補足 2003/09/30 13:22

非常にわかりやすい説明ありがとうございました。標準偏差と標準誤差のイメージがつかめ，頭がすっきりした気分です。（笑）追加の質問ですがよろしいでしょうか？１．「繰り返しになりますが・・・」以下の文ですが本文には，「標準誤差はサンプルのバラツキぐあい」標準偏差はサンプルの平均値のバラツキぐあい」とありますが，標準偏差はサンプルのバラツキ　標準誤差はサンプルの平均値のバラツキ」の誤りと理解してよろしいですか？２．サンプルを平均値にするにはデータ数で割る　だから標準偏差をデータ数で割れば，標準誤差になるという説明はイメージがつかめ，非常にわかりやすいのですが，数学的にもう少し説明するとどうなるのでしょうか？サンプルの平均値は，サンプルの総和をデータ数で割るのと同様に，標準偏差をデータ数で割るだけでなく，標準偏差の総和をデータ数で割るような気がするものですから。（馬鹿げた質問かもしれませんが・・・）補足の説明をしていただけると幸いです。

kgu-2
ベストアンサー率49% (787/1592)

2003/09/29 20:07 回答No.1

　統計学では、母集団について考えます。ですから、全てのサンプルが使える、たとえば１年２組の生徒の身長の平均値と標準偏差については、これは全ての生徒の身長を使いますので、平均値も、標準偏差も、誰が計算しても同じ値になります。　それでは、世界の小学生の身長については、どうでしようか。サンプル数が多すぎて、どうしようもありません。そこで、世界の小学生から適切な方法(現実には、これが難しい)でサンプルを選び、その平均値と標準偏差を、母集団である世界の全ての小学生の身長の平均値と標準偏差、とします。　標本から平均値と標準偏差は、母集団の推定なのです。これは、すべてのサンプルから、どれを計算用の値として用いるかによって、大きく左右されます。そこで、その誤差を少なくするために、（データ数＊データ数）で割ったものではなく、（データ数＊データ数－１）で割ったものを用いて、やや広く推定値の幅をとり、推定が外れる危険性を少なくしています。　（データ数＊データ数－１）部分の－1が、－1ではなく、－2でも、－3でもないのは・・・、と悩んだこともあるのですが、－1が最適だということは、ある本によれば、数学的に証明できるのだそうです。