• ベストアンサー

カイ2乗検定って何??;;

タイトルのとおりですが…大学で統計の基礎な授業を一般教養で受けています。だけど知らない&説明のない言葉がいっぱぃで、全くついていけません(>_<)) 「人が一番選ばなさそうな数字」を何度か投票した結果があって、その数字は無作為に選ばれてるかどうか、有意水準1%としてカイ2乗検定をして判断する、という問題があるのですが、カイ2乗検定自体、授業でちらっと言葉は使ったものの、計算の仕方、使い方の説明等はなく、まったく手がつかずにいます;;ネットでも調べてみましたが、どう使っていいのかまでは分かりませんでした。 知識の無い私でもわかるようなものがあれば教えて下さいっっ!お願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • selfer
  • ベストアンサー率76% (104/136)
回答No.2

こんにちは.χ2(カイ二乗)検定を厳密に理解するには,数学的素養を持っている状態できっちりと統計学を学習する必要があるのですが,統計データを解析するための手段として統計学を「使う」のであれば,多少の原理を知っておけばよいでしょう. 以下初学者向けにかなり乱暴な説明をしています.正確な理解をしたければ,後で統計学の教科書などで独学して下さい. χ2検定とは,χ2分布という確率分布を使ったデータ解析法と考えてもらう……のが一番なのですが,多分χ2分布って何? と思われるでしょう.χ2分布とは,二乗値に関する確率分布と考えることができるのですが,この辺もさらりと流して下さい. 例を使って説明します.今,道行く人にA,B,C,Dの四枚のカードの中から好きなもの一枚を選んでもらうとしましょう(ただし,選んでもらうだけで,あげるわけではありません.単にどのカードを選択仕方の情報を得るだけです).一人一枚だけの条件で,160人にカードを選んでもらいました. さて,ここで考えてみて下さい.4枚のカードには大きな違いはなく,どれを選んでもかまわない.でたらめに選ぶとなれば,どのカードも1/4で,同じ確率で,選ばれるはずですよね? ならば,160人データならば,Aは何枚ほど選ばれる「はず」でしょうか? 同様に,B,C,Dは何枚選ばれる「はず」でしょうか? ……当然,A=B=C=D=40枚の「はず」ですよね? この40枚という数値はでたらめに(無作為に)選ばれたとしたらどんな数値になるかの【理論値】を意味します. さて,上記はあくまでも理論値であり,実際のデータは異なる可能性があります.というよりはむしろ違っているのがふつうでしょう.そのような実際に観測された数値を【観測値】と呼びます. 仮に理論値と観測値が以下のようになったとします.         A    B    C    D (1)観測値   72   23   16   49 (2)理論値   40   40   40   40 当然のように観測値と理論値にズレが生じています.しかし現実と理論が異なるのはある意味当然なのですからぴったり一致することなどありえません.そこで,「ある程度一致しているか(ズレは許容範囲か)」を問題にすることになります.しかし,「ある程度」といわれても一体どのぐらいであれば「ある程度」と言えるのでしょうか? なかなか判断が難しいではないですか? 確かに判断が難しいです.そこで,この判断のために統計学の力を借りて判断するわけで,更に言えばこのような目的(理論値と観測値のズレが許容範囲かどうか)を検討するときに使われるデータ解析法がχ2検定なのです.         A    B    C    D (1)観測値   72   23   16   49 (2)理論値   40   40   40   40 (3)ズレ    +32   -17   -14   + 9 (4)ズレ二乗 1024   289   196   81 (5)(4)÷(2) 25.6  7.225  4.9  2.025  χ2=25.6+7.225+4.9+2.025=49.25 計算過程をさらりと書いていますが,早い話が観測値と理論値のズレの大きさはいくらになるのか,を求めることになります.最終的には「49.25」というズレ値が算出されました. さて,この「49.25」というズレ値が許容範囲かどうかの判定をするのですが,ここで,χ2分布という確率分布を使うことになります.詳細は統計学教科書を参考してもらうとして,χ2分布を使うと,○○というズレ値が(ある条件では)どのぐらい珍しいことなのか,という「珍しさの確率」を教えてくれます. かりに「有意水準1%=1%よりも小さい確率で発生することはすごく珍しいと考える(許容範囲と考えられない)」とすれば,「珍しさ確率」が1%以内であれば「許容範囲ではない」と判断します. 以上,長々と書きました.今までの説明を読めばわかるように,χ2検定とはある理論値を想定した時,実際の観測値がその理論値とほぼ一致しているかどうかを調べるための統計解析法のことです. χ2検定では,理論値をどのように設定するかは分析者の自由です.その設定の仕方で,χ2検定は「適合度の検定」や「独立性の検定」など異なる名称が付与されますが,本質は同じなのです. 質問者さんの場合は > 「人が一番選ばなさそうな数字」を何度か投票した結果があって、その数字は無作為に選ばれてるかどうか、 これを理論値としてうまく設定することが鍵となるでしょう.

parfait
質問者

お礼

ありがとうございますっっっ!お礼が遅くなってごめんなさぃ、本当に、本当に助かりましたm(_)m 考えやすいよう丁寧に回答下さったので、順に沿ってやってくことができました♪本当にありがとうございました。

その他の回答 (1)

  • kajina
  • ベストアンサー率11% (1/9)
回答No.1

適合度の問題ですね。 帰無仮説としては、すべての数字が1:1:1:・・・:1で投票されるとするのですね。「適合度」で検索してみてください。今の場合不可算無限集合(実数)を扱っているのかもしれないので、どうなのでしょうね。

parfait
質問者

お礼

適合度って初めて聞きました^^; 考えてくださってありがとうございました。

関連するQ&A