- ベストアンサー
統計分析の方法と意味
- 統計分析におけるA区とB区の比較には、一元配置の分散分析と単回帰分析を利用しました。しかし、単回帰分析の結果が理解できないため、正しい分析方法を教えて欲しいです。
- 具体的には、A区とB区の値を5日ごとに記録しました。一元配置の分散分析では有意差がなく、単回帰分析では5%水準で有意差があると結論されましたが、この結果に疑問を感じています。
- 統計に詳しくないため、専門用語を使わずに説明して欲しいです。分析はエクセルで行っています。
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
- ベストアンサー
> 時間的経過があるので単純に一元配置の分散分析では、おかしいと思い (1)と(2)のどちらも同じ列にある数値が同じ日の観測値である((1)の場合なら50.4と67.5が同じ日の観測値)ならば、この判断は正しいと思いますが、 > 単回帰分析を行ったところ というのは、どういう解析を行ったのでしょうか? 単回帰分析をどう行ったのかはわかりませんが、母集団が正規分布に従うとして良いなら、対応のある平均値の差の検定を行うのが普通でしょう。 Rを使って検定してみると、どちらも有意水準5%では有意差は認められませんでした。 (1)は、サンプルサイズを大きくすれば(もっとデータの数を増やせば)有意差が認められるかもしれませんね。 > x A B 1 50.4 67.5 2 44.1 46.8 3 34.1 39.5 4 15.8 16.6 > t.test(x$A, x$B, paired = TRUE) Paired t-test data: x$A and x$B t = -1.7773, df = 3, p-value = 0.1736 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -18.138794 5.138794 sample estimates: mean of the differences -6.5 > y A B 1 12.6 12.0 2 4.2 5.9 3 1.9 2.0 4 1.4 1.0 > t.test(y$A, y$B, paired = TRUE) Paired t-test data: y$A and y$B t = -0.3837, df = 3, p-value = 0.7268 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -1.858744 1.458744 sample estimates: mean of the differences -0.2 具体的な検定方法は参考URLを見ていただくとして、簡単に説明してみましょう。 例えば、A区の方がB区よりも高い値が得られるとします。 しかし、日によって値はどちらの値も上がったり下がったりするとします。 ただし、その上がり具合や下がり具合はA区とB区で違いはないとします。 誤差がない場合は 日 A区 B区 1 10 8 6 6 4 11 13 11 16 9 7 として、これに誤差を足して、 日 A区 B区 1 9.868316 7.752282 6 5.590540 2.566576 11 12.250299 9.961466 16 9.742208 7.814065 というようなデータで考えてみます。 このデータはA区の方がB区より2高いので有意差が認められて欲しいのですが、残念ながら、普通に対応のない平均値の差の検定を行っても、有意水準5%では有意差は認められません。 > t.test(z$A, z$B, paired = FALSE, var.equal = TRUE) Two Sample t-test data: z$A and z$B t = 1.1171, df = 6, p-value = 0.3067 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -2.784638 7.463125 sample estimates: mean of x mean of y 9.362840 7.023597 しかし、対応のある平均値の差の検定を行うと、有意水準5%で有意差が認められました。 > t.test(z$A, z$B, paired = TRUE) Paired t-test data: z$A and z$B t = 9.7538, df = 3, p-value = 0.00229 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 1.576003 3.102484 sample estimates: mean of the differences 2.339243 この違いは、対応のある場合はAとBの差をとることで、日の変動を消し、 日 A区-B区 1 2.116034 6 3.023964 11 2.288833 16 1.928143 として、A区-B区が0かどうかを検定することで、検出力が上がったためです。
その他の回答 (1)
回答:No.1補足 > ただ、母集団が正規分布に従う場合は良いのですが、サンプル数が少なく、正規分布にならない場合はどうしたらよいのでしょうか。 多分、貴方のいうところの「サンプル数」はサンプルサイズのことだと思います。 サンプル数とサンプルサイズは異なります。 ご質問の場合、どちらもサンプル数は2でサンプルサイズはそれぞれ4です。 と、細かいことはさておき、正規分布にならない場合はどうするかですが。 > エクセル統計を見るとウィルコクソンの符号順位和検定なるものがあるのですが、これを使えばよろしいのでしょうか。 対応がある場合はこの検定方法でOKです。 しかし、サンプルサイズが4ずつ、つまり4組のデータでは有意水準5%での検定ができません。 サンプルサイズは5以上必要です。 > また、各日にそれぞれの区に反復がある場合は、繰り返しのある2元配置で行えばよろしいのでしょうか。 日と区のそれぞれの組み合わせで十分な反復があるとか、正規分布に従う母集団であるならば、繰り返しのある二元配置分散分析で良いです。 駄目な場合は、繰り返しのある二元配置分散分析のノンパラメトリック版はないようなので、 ・日ごとにA区とB区を比較する(検定の多重性が問題になりますが) ・区と日の組み合わせごとに平均等を求めてA区とB区の比較を行う ・有意水準が設定よりも異なることを覚悟して分散分析を行う のどれかしかないのではと思います。
お礼
非常にわかりやすく回答していただきましてありがとうございました。早速、お教え頂いたことを利用して解析してみます。
補足
丁寧な説明ありがとうございます。 ただ、母集団が正規分布に従う場合は良いのですが、サンプル数が少なく、正規分布にならない場合はどうしたらよいのでしょうか。 エクセル統計を見るとウィルコクソンの符号順位和検定なるものがあるのですが、これを使えばよろしいのでしょうか。 また、各日にそれぞれの区に反復がある場合は、繰り返しのある2元配置で行えばよろしいのでしょうか。