• ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:χ2検定 は何を表しているのでしょうか?)

χ2検定で性別とタバコの関連性を調査!結果について解析

このQ&Aのポイント
  • χ2検定を用いて、性別とタバコの関連性を調査しました。
  • 男性と女性の喫煙者・以前喫煙していた人・禁煙者のデータを集計し、期待値と実際の値を比較しました。
  • χ2の値やP値を元に、性別とタバコの関連性について解析しました。

質問者が選んだベストアンサー

  • ベストアンサー
  • selfer
  • ベストアンサー率76% (104/136)
回答No.2

こんにちは. χ2検定とは,期待値と実測値のズレが有意に大きなものかを統計的に調べるデータ解析法です……このような統計学をある程度勉強している人向けの説明はともかくとします. χ2検定では質問者が述べられているように,ある変数(喫煙者)とある変数(性別)との間に統計的に有意な違いがあるかを調べるために使われます. では,ある変数とある変数が関連がある,とはどういうことでしょうか? 以下,質問者が挙げられた「性別/喫煙」を例とします. 「性別と喫煙に関係がある」……これは,性別によって喫煙率が異なるということを意味します. つまり  「男性の喫煙者:男性の既喫煙者:男性の非喫煙者」  「女性の喫煙者:女性の既喫煙者:女性の非喫煙者」 二つの比率が【異なって】いれば,性別によって喫煙率に違いがある,ということになります. では,この比率はどうやって求めるのか…… 既に期待値を算出されているのならば,わかりますね? 「もし,両者の比率が同じであるならば,それぞれの数値 はどのようになるか?」……これが期待値です. ※「9.14:6.77:6.09=17.86:13.23:11.91」と比率が同一であることを確認して下さい. さて,この「もし同比率であれば……」の期待値と実際の数値を比べてみましょう.この「期待値-実測値」のズレがχ2(Chi-Sq)にて個別に計算されます(ズレの具体的な計算式は手持ちの資料で確認して下さい). もし,このズレが全くなければ「0」となり,ズレが大きければ大きいほど数値が大きくなります.この合計値を求めることによって,全体の「性別と喫煙」との間に有意に,統計的に大きなズレがあるか(性別と喫煙の間に有意に関連があるか)を調べることができます. χ2=0.637というズレの大きさが,「性別による喫煙の比率に違いは【ない】」という仮定の下で何%の確率で起こりうるか(珍しい現象か)を判断します(χ2分布の表を参考にして……詳しくは統計学の教科書参照です).結局確率P-Valueが「0.727=72.7%」となり, 「性別と喫煙に関係が【ない】と仮定した場合で,このズレが偶然でも72.7%で発生する現象」→ 「データ的には多少ズレがあるように見えるが,この程度は偶然で起きうる範囲のものである」→ 「統計的には『性別と喫煙には関係【ない』」という仮定を否定する根拠がない」→ 「性別と喫煙には関係ない」 と判断を下すことになります. このようにまず全体で判断をして,結局単なる偶然で片づけられてしまいます.よって今回の場合では「χ2の一番数値の高い0.224は何を意味しているのですか?期待値は全体的に女性の方が高いのです」に対しては,統計的には偶然そうなっただけで,意味はなし,ということになります. もし,全体で有意であれば,上記の疑問については,それぞれのセルで特徴的なものはどれか,男性と女性とではどの喫煙タイプで顕著に異なるかを調べる,という詳細な分析に繋がりますが……

tokotoko1212
質問者

補足

丁寧な説明有難うございました。 もう一つ質問です。 もし、χ2の数値が一つだけ非常に高い場合 例:0.224→0.80の場合でも、それは偶然生じた事でよいのでしょうか?この場合はどのような意味があるのですか? 宜しければ教えて下さい。

その他の回答 (2)

  • selfer
  • ベストアンサー率76% (104/136)
回答No.3

再度登場です. χ2検定は,あくまでも「全体のズレが有意であるかどうか」を調べるものです…… ここで注意してもらいたいのは,質問者さんが挙げられた例題のようなクロス集計表(下記のA/B×α/β/γの表)を分析する手法は,χ2検定だけではありません.代表的なものがχ2検定で,他にも分析方法はあるのです.    α β γ  A  B 数ある統計法の中で,χ2検定は「全体で有意なズレか」を検討する手段であるために,ココのセルが極端なズレを見せたとしても,それが最終的に全体のズレに結びつかないので有れば,やはり偶然と処理されてしまいます. 少なくとも,χ2検定では全体でどうであったかを述べるだけで,個別のセル(例えば0.80のセル)が特徴的であるかどうか)を調べる術はありません. このようにχ2検定は非常に狭い目的に沿った結果しか出してきませんので,データ解析者は望みの目的を検討したいのならば,ある程度,準備が必要となります. >例:0.224→0.80の場合でも、 >それは偶然生じた事でよいのでしょうか? >この場合はどのような意味があるのですか? 質問者さんのこのような疑問「あるセルが特徴的に見えるが,これは偶然なのかどうか」を調べたいとします. 「どのセルが特徴的か?」という疑問は調べることができます.がχ2検定では調べることはできません(あくまでも,全体のズレを調べるの目的なので).そのために,別のデータ解析法である,残差分析を使うことによってどのセルが特徴的であるかどうかを調べることができます. 興味があるならば「残差分析」を調べてください.但しネットで検索しても,重回帰分析における残差分析の説明はありますが,クロス集計表における残差分析の説明は少なくとも私は見たことないのですが…… クロス集計表における残差分析の使用法を説明したものとして次の資料が参考になります. 内田治『すぐわかるExcelによる統計解析』東京図書

tokotoko1212
質問者

お礼

詳しく分析する場合には他のデーター解説法=残差分析を使用。でも、この場合はやはり偶然ということで処理されてしまうのですね。 何度も丁寧なご回答有難うございました。

  • suppi-
  • ベストアンサー率14% (24/167)
回答No.1

うまく説明できないので、期待値の出し方だけ。 (自信ないですけど) (9+18)/(22+43)*22=9.14 (9+18)/(22+43)*43=17.86 (8+12)/(22+43)*22=6.77 (8+12)/(22+43)*43=13.23 (5+13)/(22+43)*22=6.09 (5+13)/(22+43)*43=11.91

tokotoko1212
質問者

お礼

回答有難うございます。 期待値などの計算方法はわかるんですが、その数値の意味が分からないんです。うーーん、どうしよう。分かる方/説明していただける方いないでしょうか?