- ベストアンサー
統計 仮説の立て方
- 統計学において、喫煙がBMIに関係しているかどうかの仮説を立てる方法について考えています。
- 比較対象として非喫煙者とヘビースモーカーの2つのグループを取り、BMIの値を調査します。
- 帰無仮説と対立仮説を設定し、グループ間のBMIの変化を比較して仮説を検証します。
- みんなの回答 (4)
- 専門家の回答
質問者が選んだベストアンサー
横から再度口出しですが、書き忘れたことが一つ。 平均の差を検定される、ということですが、平均の差を検定するには、前提条件として、2つの群が正規分布(またはt分布)をしている、あるいは想定できる、というのが必要です。 正規分布は、多数をランダムサンプリングする必要があります。が、人間相手ではランダムサンプリングは困難だと想います。ですから、平均値の差の検定(→t検定)をするなら、データが正規分布していることを確認していないなら、発表時に突っ込まれるかも(突っ込める人は少ないが)。 データを見ないと確定的なことは言えませんが、平均値に拘らない検定法もあるハズです。 検定は、私には難しく、このようなコメントが書けるようになるまで30年かかりました。そして、未だに初心者です。多変量解析なんぞは理解不可能で、『なんで、ワザワザ難しくするのだろう』と常に感じます。
その他の回答 (3)
- kgu-2
- ベストアンサー率49% (787/1592)
>帰無仮説=一つ目のグループのBMIの変化した値の平均 = 二つ目のグループのBMIの変化した値の平均、 対立仮説=一つ目のグループのBMIの変化した値の平均 < 二つ目のグループのBMIの変化した値の平均 で仮説を立てて良いのでしょうか? 仮説自体は、研究者の自由です。仮説に対して、適切な検定法があれば、です。 私が危惧するのは、この帰無仮説に対して、6年後に有意差有りと予想されるなら、出発点である現時点(6年前から研究すれば、6年後は現在)でも有意差があるハズ、ということです。となると、今さら6年間も観察しても、・・・。 すなわち、研究開始時点では、2つの群の状況は、同じでないと検定しても無駄になります(有意差有りは、自明)。
お礼
申し訳ありません。 kgu-2さんの仰る通り、6年前と6年後では同じはずでしたよね。 今条件を見直してみたら、二つ目のグループは、「実験開始時はヘビースモーカー、それから禁煙を開始して6年後に再検査」したものでした。 つまり、一つ目の「喫煙経験なし」のグループと、二つ目の「喫煙経験あり、実験開始直後に禁煙開始」のグループのBMI値の差は認められるかどうかでした。 この場合、サンプルの変化値の平均をそれぞれ2つのグループで出し、両側t検定後、p値とαを比べ、帰無仮説(μ1-μ2=0)及び対立仮説(μ1-μ2≠0)の棄却・採択をすれば良いのでしょうか? 何度も申し訳ありません。
- kgu-2
- ベストアンサー率49% (787/1592)
このデータには、喫煙と非喫煙で同一、現在と6年後で同一、という2つの帰無仮説が含まれている。ご質問の内容から、初心者には無理、と感じる。 目的を考えて、 1 質問者が帰無仮説を考える 2 その為には、どんなデータが必要か、を考える ただ、データ集めには不安が残る。というのも、 1 非喫煙群と喫煙群は、喫煙以外の条件(性別、年齢などなど)は、同じか 2 交絡因子(例えば、飲酒)は、配慮しているのか と突っ込みたくなる
お礼
お早い回答ありがとうございます。 しかし、データ集めに関しては、残念ながら私自身が集めたデータではないので変えようがないのです。 条件として被験者は同年代の女性で、皆同じ職場仲間です。その他の条件に関しては伝えられていません。 その他の条件を無視した場合ではBMIと喫煙の関係はどうか、又その他の条件を考慮した場合ではBMIと喫煙の関係はどうか、ということなので、一つ目に関してはその他の条件を無視して考えた場合、こういった仮説を立てるのが妥当なのではないか、と考えたのですが…
- okormazd
- ベストアンサー率50% (1224/2412)
喫煙者をA群、非喫煙者をB群とします。それぞれの群のBMIの変化した値(実測)の平均をxA、xB、分散(実測)をそれぞれσ'A^2、σ'B^2とします。次のようなt検定になるでしょう。 この場合、両群の「母集団」のBMIの変化した値の平均はそれぞれμA、μBで、分散σA^2=σB^2=σ^2で、正規分布すると仮定しないと、検定できません。検定は、μA=μBかどうか調べることです。実際のデータでは、平均xA、xBで、分散σ'A、σ'Bがわかります。ここで、平均の差xA-xBの分布は、平均μA-μB、分散(1/m+1/n)σ^2になることが知られています(m、nはA群、B群のサイズ)。ところが、σはわからないので、両グループのデータからの分散の推定量sを使います。すると、 T=(xA-xB)/(√((1/m+1/n)s) が、自由度(m+n-2)のt分布になることを使うのです。信頼度95%、有意水準5%なら、帰無仮説μA=μBを棄却する範囲は、 |T|>t(m+n-2)(0.025) です。 ところで、sを求めるには工夫が要ります。 s=(A群の残差平方和+B群の残差平方和)/(m+n-2) なので、A群の残差平方和、B群の残差平方和を、分散σ'A、σ'Bの定義式に戻って求めればいいでしょう。 σ'A=√((A群の残差平方和)/(m-1))で、σ'Bも同様です。 「帰無仮説=一つ目のグループのBMIの変化した値の平均 = 二つ目のグループのBMIの変化した値の平均」 ではありません。測定値がxA=xBすなわちxA-xB=0かどうかということではなくて、喫煙者全体(母集団)の平均と非喫煙者全体(母集団)の平均に差があるかどうかを調べるのだから、 帰無仮説:μA-μB=0、対立仮説:μA-μB≠0のt検定です。質問者の書き方だと、xAとxBに差があるかどうか調べるような感じになってしまいます。xAとxBは実測された値が出ているので、検定するまでもないです。実測されたxAとxB、それに分散を使って、そもそも、全部は測定できない喫煙者全体と、非喫煙者全体とで差があるかどうか検定するのです。 「対立仮説=一つ目のグループのBMIの変化した値の平均 < 二つ目のグループのBMIの変化した値の平均」 ではありません。「μA-μB<0」も「μA-μB>0」もあるので、対立仮説:μA-μB≠0の両側検定になります。
お礼
お早い回答ありがとうございます。しかもこんなに詳しい解説まで。 なるほど、影響があるかどうかは、あくまで母集団のBMIの数値の平均に差があるかどうかなのだから、実際のデータの平均ではないのですよね。失念していました。 つまり、帰無仮説=μA-μB=0、対立仮説=μA-μB≠0を、t検定を通して調べ、P値からその仮説の可能性を測る…ということで、いいんですよね?
お礼
何度もありがとうございます。 実はこれ、学校の課題なのですが、今まで習った内容のみを使ってといったことなので、検定としてはz検定かt検定ぐらいしか候補が無いのです。 むしろ、kgu-2さんの仰るように、正規分布していないことに突っ込むことも課題の内なのだと思います。