- 締切済み
統計検定について
統計で有意差があるか検定しようと思っていますが、どの検定を使えばよいかわかりません。 例えば、塾に行っている群と塾に行っていない群で合格・不合格に有意な差があるか検定するにはどうすればよいのでしょうか。また、サンプル数はどのくらいあれば統計的に信頼性があると言えるのでしょうか。 統計処理初心者のためよくわかりません。よろしくお願いいたします。
- みんなの回答 (2)
- 専門家の回答
みんなの回答
- kgu-2
- ベストアンサー率49% (787/1592)
>また、サンプル数はどのくらいあれば 統計の本質をついた鋭いご質問です。サンプル数について絶対的な結論を言えば、全数。人を対象にするなら、世界中の人を、一人も残らず調査すれば、必ず差はでます。しかし、一人でも欠けると、その人のデータによって結果が左右されるかもしれません。欠けているデータが増えると、その確率は大きくなります。 検定は、差がある、という結論(=有意差)が、間違いかもしれない危険性(=危険率)で、判定します。検定は、有意差が無いと、相手にされません。ですから、欠けている人数を減らすほど、言いかえると、人数が多いほど有意差は出しやすいのです。有意差がでるまで、サンプル数を増やす、というのが正解です。 実際には、わかりません。塾に行っている者と、行っていない者の差が大きければ、少人数でも可能です。動物実験では、3例ずつ、計6匹でも有意差を出すことが可能です。また、検定法も、有意差を見つけやすい方法と、そうでもないもの、イロイロあります。 大阪から東京へ行きやすいか、という問いに、新幹線や飛行機の人は、簡単(=有意差有り)というでしょうが、徒歩の人は難儀するのに例えることができます。初心者は、その検定が、新幹線なのか、徒歩なのか、自身で判断するのが難しいと想います。 また、ひょっとすると、新幹線の切符はもっているが、博多行きかもしれません。t検定は、正規分布しているのが前提ですが、正規分布していそうもないのに、t検定を勧めている回答も読みました。 この場合は、カイ2乗検定が適用できます。カイ2乗検定では、4つの升目に分けて検定しますが、その一つのデータ数は、10以上に。未満の場合は、直接確率で計算するようです。 また、特定のクラスなど限定したグループ対象で、その全員のデータがあるのなら、検定は不要です。
- beeba
- ベストアンサー率49% (25/51)
統計に関数質問は数学カテゴリーでしたほうが、回答がつきやすいかも。 計数値の解析、二項分布での検定でよいと思います。 塾に行っている群をA、行ってない群をBとします。 合格率:PA、PB サンプル人数:nA、nB 合格人数:xA、xB 1.帰無仮説と対立仮説、 H0:PA=PB(=P)、H1:PA≠PB 2.有意水準と棄却域 α=0.05 R:|u0|≧u(0.05)=1.960 (注:数値表から値を拾ってください) 3.検定統計量の計算 ・ロジット変換による正規近似 PA*=(xA+0.5)/(nA+1) L(PA*)=ln(PA*/(1-PA*) PB*=(xB+0.5)/(nB+1) L(PB*)=ln(PB*/(1-PB*) 帰無仮説のPは未知なので、Pの推定 P*=(xA+xB+0.5)/(nA+nB+1) 検定統計量u0 u0=(L(PA*)-L(PB*))/sqrt[{1/(P*(1-P*)}×(1/nA+1/nB)] 4.判定と結論 (1)|u0|≧u(0.05)=1.960 となれば、有意である。よって有意水準α=0.05で帰無仮説は棄却され、 塾に行く行かないで、合格率に違いがあるといえる。 (2)|u0|<u(0.05)=1.960 となれば、合格率に違いがあるといえない。 必要なサンプル数は、検出力というのを調べてだせると思いますが、考え方覚えてません。 今回の場合、データが合格不合格の2値しかなく、情報量がすくないです。 参考書の例題を見ると、n=100~1000くらいのサンプル数が上げられてます。 (これが、計量値のデータであれば、nは5~100くらいで、比較的少ないです。) 計数値の解析は考え方を理解しにくいので、どうしても計数値の解析が必要ということでなければ、 計量値の統計解析から、見ていったほうがいいと思います。 ご参考までに、ハンバーガー統計学にようこそ!のアドレスを貼っておきます。
お礼
詳しく解説していたただありがとうございました。
お礼
カイ2乗検定ですね。ありがとうございました。