- ベストアンサー
推定・検定の概念がきちんと理解できていません。分かりやすく解説のあるサ
推定・検定の概念がきちんと理解できていません。分かりやすく解説のあるサイト等あれば教えていただきたいです。 また、「全てをσで語る。しかもn=5」といった内容はどこが大きな問題点なのでしょうか?標準偏差以外にデータのばらつきを示す指標が存在し、普通標準偏差以外にも求める必要がある。もしくは、n=5は母集団の数としては少なすぎて評価できない。ということなのでしょうか? 解説をよろしくお願い致します。
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
- ベストアンサー
一つ目については、私がお勧めするのは「ハンバーガーショップで学ぶ楽しい統計学」です。 二つ目については、「全てをσで語る。しかもn=5」というのがどんな状況で使われたのかがわからないので、確実なことは言えませんが、あなたが書かれたことで概ね正解なのではないでしょうか? 実際、標準偏差以外にデータのばらつきを示す指標というのは、範囲、四分位範囲、平均偏差(平均からの偏差の絶対値の平均)、MAD(中央値からの偏差の絶対値の中央値)等色々あります。 平均に対して対称な分布なら平均と標準偏差のみ求めれば良いかもしれませんが、分布に偏りがあった場合平均と標準偏差だけでは足りないかもしれません。 また、n=5ではσを推定したとしても信頼区間が広すぎるため先の言い方になったのではないかと思います。 例えば、正規分布に従う母集団から大きさが5の標本を取り出し、その母数の標準偏差を推定したいとします。 σの推定値として不偏分散の平方根sqrt{Σ(x-m)^2/(5-1)}(mは平均)を選び、その値が10であったとします。 このとき、その95%信頼区間はΣ(x-m)^2/σ^2が自由度4のカイ二乗分布に従うことから、 L < Σ(x-m)^2/σ^2 < U (U, Lは自由度4のカイ二乗分布の2.5%, 97.5%点) → Σ(x-m)^2/U < σ^2 < Σ(x-m)^2/L → sqrt{Σ(x-m)^2/U} < σ < sqrt{Σ(x-m)^2/L} となります。 数値をいれて計算してみると5.99 < σ < 28.74、つまり推定値の半分から3倍近くとかなり幅広いものとなることがわかります。 あと、 > n=5は母集団の数としては少なすぎて評価できない。 と書かれていますが、ここで母集団と書くのは間違いです。標本の大きさ(サンプルサイズ又は標本サイズ)と言わなければいけません。
その他の回答 (1)
- trytobe
- ベストアンサー率36% (3457/9591)
どういう分析をしたので、「全てをσで語る。しかもn=5」と指摘されたのかはわかりませんが。 何回か・何サンプルか測定したデータについて、出た回数を棒グラフにすると、次のヒストグラムのようなものができます。 平均と標準偏差 http://www.cap.or.jp/~toukei/kandokoro/html/14/14_2migi.htm これを見るとわかるように、中央の値が一番回数が多く、それから大きいほうや小さいほうにずれた測定データは回数が少ない(ほとんどなくなる)と思います。 そういう、測定したときにどの範囲に何%の確率で値が出るか、というのを表したのが正規分布という釣り鐘のような形のグラフです。何回も測定した平均値が一番高く、大きい方や小さい方の値が測定されてしまう確率はごくわずか、というのを表します。 (もし、こういう分布になっていない場合は、そもそも正規分布だと考える前提が間違っているかもしれません。そういう場合は、標準偏差を求めて議論すると、間違った前提から議論することになり無意味となります。これが、ある程度サンプル数が必要な理由です。) 平均値からどれだけ離れると確率がどれだけになるか、という目安となるのが標準偏差(偏りがどれだけあると確率がどれだけ変わるかの目安)です。平均値(μ)から標準偏差(σ)分だけプラス・マイナスした範囲に入る確率は68.26%です。 正規分布と標準偏差 http://aoki2.si.gunma-u.ac.jp/lecture/Bunpu/normdist/hyojunhensa.html これを見ると、Aを100回測定したとき、その測定値の68個くらいは、平均値から±1σの範囲に収まっているはずです。でも、残りの32個くらいはそれよりも大きく外れた値が出ることもあるのです。 そうなると、Bを測定したときに、それがAのばらつく範囲に入っているのか、全然離れたところにあるのか、の確率(可能性)がわかります。Bを測定したのに、Aの平均値±1σの値(平均から1σ離れた値)が出たなら、68%くらいの確率でAとは違うのかもしれないな、でもAと同じ確率も32%くらい残っているな、とわかります。 Bを測定したときに、Aの平均値±3σの値が出たなら、99.73%の確率でAとは違うことがわかります。(Aと同じ確率は0.27%くらいしかありません) こうやって、正規分布でばらつく範囲を表す目安とするのが標準偏差で、平均値から標準偏差の何倍離れているかで、その正規分布のサンプル(グループ)に含まれるデータなのか、全く別のグループのデータなのか、という判断をします。 同じグループのサンプルならこの範囲の値がでることもあるだろう、というのが推定(信頼区間)です。それを基に、これだけ離れた値が出ていれば違うグループだろう、というのが検定(有意差)です。 良くあるのが、95%の確率で同じグループだが、5%の確率で違うグループ、という線引きです。95%信頼区間の線引きであり、それを外れるデータ・サンプルは有意差がある(5%有意、p=0.05)というわけです。