- ベストアンサー
統計学初心者のためのt検定解釈方法 - 重要ポイント解説
- 統計学初心者のためのt検定の結果解釈について、改良前の平均と改良後の標本平均値、標本標準偏差、標本の大きさが与えられる場合、どの比較を行うべきか疑問に感じることがあります。
- 改良前の平均値と改良後の平均値の比較を行う理由は、改良前後の差の範囲を見ることです。改良前の平均値の存在する範囲から改良後の平均値を引いた値が正であれば、結果は改良後が改良前よりも大きいと言えます。
- もし、改良前も改良後も平均値、標準偏差、標本の大きさが与えられている場合、どちらを基準にするべきかという疑問もあります。改良前の平均値の存在する範囲から改良後の平均値を引いた値が正であれば、結果は改良後が改良前よりも大きいということになります。
- みんなの回答 (13)
- 専門家の回答
質問者が選んだベストアンサー
- ベストアンサー
> 1 > もし,改良前も改良後も平均値,標準偏差,標本の大きさが与えられている場合,どちらを基準に考えればよいのでしょうか。> つまり,「改良前の平均の存在する範囲-改良後の平均」を比較することもできると思います。例題はなぜ,「改良前の平均-改良後の平均の存在する範囲」の比較を行っているのでしょうか。 例題の場合は改良前の平均には誤差がないものとして考えてますので「一標本の平均の検定」(Single sample t test)を行っています。 この場合では、「独立な二標本の平均の差の検定」(Paired t test)を行うことになり、どちらが基準というわけではありません。 貴方の言うところの「平均の存在する範囲」ではなく「標本平均の差の存在する範囲」で考えているのです。 少し話がずれますが、「平均の存在する範囲」という書き方が気になったので、検定について説明してみます。 「もし母平均が同じであれば、前と後の標本平均の差は0に近い値が出やすいはず。ならば0から大きく異なる値が得られたということは、前と後の母平均は違うのだろう」というのが平均の差の検定の考え方です(大雑把な説明ですが)。 そして、どの程度違えば良いのかは、母平均の差がないときの標本平均の差の分布を知らないといけません。 その分布から、(母平均の差がないときの)標本平均の差がこの値からこの値までの間になるであろうという範囲が得られるのです。 勘違いしないで欲しい点は「母平均の差が存在する範囲」を調べているわけではないということです。
その他の回答 (12)
- eclipse2maven
- ベストアンサー率32% (33/101)
Rによるやさしい統計学 山田 剛史 (著), 杉澤 武俊 (著), 村井 潤一郎 オーム社 は、一番やさしいと思います。 具体的なコマンドとかは http://cse.naro.affrc.go.jp/takezawa/r-tips/r.html が便利です。 あとは、線型代数ですね。心理学の方とか見てると、この知識ないのが、致命的なような。 どうしても多変量解析は避けられないので、線形代数は必要だとおもいます。
お礼
追加の本の紹介ありがとうございました。実は,早速本屋に行って「R」に関する本を見てきました。結構たくさん出ていてびっくりしました。 何度も御回答頂きありがとうございました。あわせて,お返事が遅くなって申し訳ありませんでした。(原因不明のネットワークの不調に見舞われたり,出張があったりで遅くなってしまいました。)
- eclipse2maven
- ベストアンサー率32% (33/101)
あと、フリー統計ソフトのR の使い方覚えたほうがいいですよ。
お礼
貴重な情報をありがとうございました。統計専用のフリーソフトはエクセルよりも便利そうですね。 (昔のバージョンの話ですが,エクセルは両側検定と片側検定に関してヘルプの記述が違っていたことがあります。エクセルにとって「統計」はおまけみたいな機能なのかもしれません。) 他の人からもエクセルよりも統計専用ソフトを使うように言われたことがあります。「R」については本も出ていますので,早速先日教えていただいた本と併せて勉強してみます。
少し勘違いされてます。 ANo.10お礼 > 改良後は標本集団 とは言いません。 改良後にも母集団があり、そこから取り出したのが標本となります。 母集団が改良前と同じ分布であれば、改良前と後の標本は同じ母集団に属しますし、母平均なり母標準偏差が異なれば異なる母集団に標本は属します。 なので > 改良後の標本集団は改良前の母集団と同じと見てよいかいけないかという判断をしているのですね。 も違います。 改良後の標本から改良後の母集団の分布を推定して、改良前と後の二つ母集団に違いがあるかないかをを調べるのです。 あるいは、改良前と後の二つの標本から改良前と後の二つの母集団の分布を推定して、改良前と後の二つ母集団に違いがあるかないかをを調べるのです。
補足
わざわざ補足をいただきありがとうございました。 「改良後にも母集団がある」というのはその通りですね。完全に勘違いしていました。 あくまで比べているのは改良前後の母集団の平均や分散であって,これらが「一致すると考えられるから,差がない。」あるいは「一致しないと考えられるから差がある。」と言っているのですね。 さらに,母集団の分散は分からない場合が多いので,不偏分散などの計算によって推定値を使うと考えればよいですね。 今回のやりとりを通して,計算の手順以外のことがいろいろと分かるようになってきました。あわせて,私が読んでいる統計の本に書いてある記述の意味がだんだんと分かってきました。本当にありがとうございました。
なるほど、前と後で平均と標準偏差が分かっているとき、二標本の平均の差の検定か一標本の平均の検定のどちらを使えばいいのか分からないということですね。 #1さんに指摘されてましたが、その平均と標準偏差が標本のものなのか母集団のものなのか、どちらなのか区別をつけることが重要です。 それによって、使うべき検定が決まります。 例えば、前の平均と標準偏差が十分な数のデータで求めたものであれば、母集団のそれらと同じとみなして、一標本の平均の検定を行っても問題ないでしょう。 そうでなければ、二標本の平均の差の検定を行うことになります。 (幾つあれば十分なのかは一概に言えません) ANo.7, 8 > N(μ,σ/n) N(平均,標準偏差)の場合N(μ,σ/√n)が正しく、N(平均,分散)の場合N(μ,σ^2/n)が正しい。 後者の書き方が一般的だと思います。
お礼
お二人の方,本当にありがとうございます。 標本のものなのか母集団と見なしてよいのかが重要であることが非常によく分かりました。 私がもっている本によると,改良前1500というのは,これまでずっと平均1500(これは母集団と見なすという仮定にほかならないと思います。) 改良を加えたら平均値が変化した。(改良後は標本集団ですね。) 改良後の標本集団は改良前の母集団と同じと見てよいかいけないかという判断をしているのですね。 統計ではいくつかの仮定が置かれていますが,この仮定が重要であることが分かりました。(素人ですのでつい,計算手順に目がいってしまいます。)
- eclipse2maven
- ベストアンサー率32% (33/101)
No.5 で リンクをはり間違えました 質問のケースは 1群のt検定 a.wikipedia.org/wiki/T検定
- eclipse2maven
- ベストアンサー率32% (33/101)
訂正 N(μ,σ/n) にしたがうのは 平均 (X_1 + X_2 + ... +X_n)/n (((X_1 -a)^2 + (X2 -a)^2 +...+ (X_n-a)^2)/n-1)^(1/2) は別の確率分布に従います。 カイ2乗分布あたりだったか(適当ですいません) ただよく分かっている分布です。 だから 検定が行えるわけです。
- eclipse2maven
- ベストアンサー率32% (33/101)
なんども言いますが、ちゃんとした統計の本を読んでください。 例えば、 数理統計学 (数学シリーズ) 稲垣 宣生 著 裳華房 とか、 そこで、前にも言いましたが 確率分布 とか 確率変数について しっかり勉強してください。 確率変数 X が N(μ,σ)に従うことと、 正規分布 N(μ,σ) に従う 互いに独立な 確率変数 X_1,... X_n の平均 (X_1 + X_2 + ... +X_n)/n (=a とおきます) と 標準偏差 (((X_1 -a)^2 + (X2 -a)^2 +...+ (X_n-a)^2)/n-1)^(1/2) (この二つも 確率変数です) (具体的なサンプルの値は、この確率変数がたまたまとった値です。それで導かれる、平均や標準偏差は、たまたま 上記の二つの確率変数がとった値です、 これらは N(μ,σ/n)(←これでよかったはず) の正規分布に従っています) を混同しないように。 この概念を混同されているのが原因です。そこに気づくには、上記のようなちゃんとした統計の本を読まないと、分かりません。
お礼
本の紹介をありがとうございます。 笑われるかもしれませんが,何がちゃんとした本で何がちゃんとした本でないかも分かっていません。しかし,独学での勉強というのは時に「そもそも読む本が分からない」ところからスタートするものだと考えています。「インターネットで質問して適当に・・・」という気持ちはございません。今回の質問を通して,読むとよい本を知ることができたことだけでも私にとっては収穫でした。
- eclipse2maven
- ベストアンサー率32% (33/101)
>ここで注意して欲しいのは、前者つまり質問のケースは、分散つまり標準偏差は >わかっているけど、後者(4のコメントのケース)は分散つまり標準偏差はわかっ >ていません 逆でした 4のケースはわかっていて、 質問のケースがわかってない でした
補足
何度も御回答頂きありがとうございました。(夜中にもかかわらずありがとうございます。) 質問のケースと4のケースでは検定が違うというのは理解しました。(私の本でも違う場所に書いてありました。) さて,その上で質問なのですが 実は何冊も本を読み比べているのですが, 変化前の平均値と標本標準偏差 変化後の平均値と標本標準偏差 この2つの差から差の信頼区間を計算し,判定するという例題が載っている本があります。(この方法が一番納得できるので普段これを使っています。) ただ,本によっては前を基準にするのか後を基準にするのか様々あり混乱しています。(もちろん私の読み取り不足が原因ですが・・・) 回答者の方から,変化後の標本標準偏差から不偏分散(母集団の分散推定値)を算出するのは代用品とあります。 もし仮に,変化前の平均と標準偏差 変化後の平均と標準偏差 どちらも正規分布という仮定がある場合 変化前の平均±1.96×変化前の標準偏差から求めた不偏標準偏差/変化前のサンプル数の平方根で信頼区間を算出し,変化後がこの信頼区間に収まるかどうかを判定するという方法は妥当でしょうか。 (私の持っている本では,変化後に関して信頼区間を出し,変化前が収まるかどうかを判定している本の例の方が多く掲載されています。) 御見解をいただけたら幸いです。
- eclipse2maven
- ベストアンサー率32% (33/101)
1 です どちらも(質問の例と4のコメントの例)、母集団1つです。 前者は平均が既知、後者は平均と分散(標準偏差の二乗)が既知 それで、標本の従う確率分布が母集団の従う確率分布と同じかを知りたい。(確率分布は正規分布だと仮定しているので、平均と分散で確率分布は決まる、それと、分散は一致していると仮定しているので、問題にしているのは 平均が等しいかのみ) ここで注意して欲しいのは、前者つまり質問のケースは、分散つまり標準偏差はわかっているけど、後者(4のコメントのケース)は分散つまり標準偏差はわかっていません。分布の分散と サンプルで求めた標準偏差は別物です。これは平均も同様です。 だから、問題は、サンプルとっている、つまり標本の従う確率分布が 母集団の確率分布の平均に等しいか? という問題で、標準偏差が与えられてる場合は、4のコメントのケース(つまり母集団の標準偏差に等しい)で、最初の質問のケースはサンプルから求めた標準偏差しかない(これは、不偏分散のルート)つまり代用品です。 ここでどちらも 標本の従う確率分布の平均が 母集団の従う確率分布の平均と等しいと仮定して サンプルの平均値が従う確率分布を求めます。4のケースは 正規化つまり Z変換できます。従って、正規分布に従います。 質問のケースは 不偏分散なのでZ変換もどきで、この場合t分布に従っています。 従って 4のケースは Z検定 http://ja.wikipedia.org/wiki/Z%E6%A4%9C%E5%AE%9A 質問のケースは 1群のt検定 http://ja.wikipedia.org/wiki/Z%E6%A4%9C%E5%AE%9A になります。 検定として全く別物です。
ANo.2で恥ずかしい間違いを発見しましたので訂正 > 「独立な二標本の平均の差の検定」(Paired t test) 「独立な二標本の平均の差の検定」(Two independent samples t test) です。
補足
何度も御回答いただきありがとうございました。 1の方からは御指摘いただいておりますが,わたしなりに統計に関する書籍は何冊か読んでおります。ただ,表現の違いや数式の導き方の違いでよく分からなくなってしまっています。 実は,とある本にこのような例題を見付けました。 10年前の小学3年生の平均身長は143.5 標準偏差7.8の正規分布にしたがう。 現在の小学3年生10人の平均身長149.2 信頼区間95%で有意差があるかどうか。 143.5-1.96×SQRT(7.8の自乗/10)~143.5+SQRT(7.8の自乗/10) 149.2はこの範囲に入らないから有意差あり が回答になっています。 最初の質問に戻るのですが,最初に質問したときは改良前は平均のみ 改良後は平均と標準偏差が与えられております。 今回は,10年前が平均と標準偏差 現在が平均のみとなっております。 わたしが疑問に思っているのは,例えば今回のケースでも現在の平均と標準偏差は求まるわけで,10年前を基準に現在を比較するのか,現在を基準に10年前を比較するのか分からないのです。分かっていただけるでしょうか。
- 1
- 2
補足
早速の御回答ありがとうございました。 御指摘のとおり「平均の存在する範囲」という書き方は問題がありますね。 quaestio様の「大雑把な説明」と断っている説明は,大変よく理解できますし,少なくとも母平均の差が存在する範囲ではないことは理解できます。 さて,一標本の平均の検定と独立な二標本の平均の差の検定に関して追加質問です。 1 エクセルでTTEST関数が準備されていますが,(1)一対の標本による平均の検定 (2)等分散の場合の2標本の平均の検定 (3)等分散でない場合の2標本の平均の検定 が選べます。例題で行っているのは,(1)をTTEST関数を使わずに行っていると考えてよろしいでしょうか。 2 (2)の等分散の場合の2標本の平均の検定を例題のような手順で行うとするとどのような手順になるのでしょうか。 素人質問で恐縮ですが,題意をくみ取っていただき御回答をよろしくお願いいたします。