• ベストアンサー

カイ二乗検定について

初歩的な質問ですいません。 カイ二乗検定のについての質問です。 期待度数の出し方なのですが、 列数や行数に関係なく、 列の合計*行の合計/総計 でよいのでしょうか。 2*2のクロスの時以外は、違う計算方法になる(その方法はよくわからない)といったことを人から聞いたのですが、ネットで調べても、2*2の表を例としてあげているものが殆どで、 http:www.ias.tokushima-u.ac.jp/linguistik/2005/joho/joho2005_chi.html に、2*4の表があったのですが、こちらでは、列の合計*行の合計/総計 になっていました。 統計というものについて、よくわかっておらず、どれが正しいのかさっぱりです。(数学もあまり習っていないので、情けないのですが、数学の記号もよくわかっていません・・・) また、期待度数は割り算があるので、小数点以下の値も出る場合もあると思うのですが、その場合、小数点何桁まで用いれば妥当なのかとか、 また、クロスではなく、1行の場合の期待度数はどうすればよいのかなどもわかりません。 質問ばかりですみません。 よろしくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
回答No.4

>10000ということでしょうか? >(単純集計の場合は平均値=期待度数?) はい。その通りです。それで間違いありません。 上の問題の場合は、「それぞれの升目に入る確率」が全て1/6と言う前提が基になっています。 もちろん、いっつも等確率である必要があるワケではなくって、升目によってバラバラの確率が問題によって設定されていれば、それを採用する事で「期待度数」が求まります。そう言う事ですよね。 上の問題の場合は、全ての升目の期待度数はそれぞれ10,000になるので、この数字を使って、カイ二乗検定に持ち込んで、「実際に得られたデータ」との乖離度を調べる、と言うのが作戦となるんです。 クロス集計でのカイ二乗検定も原則的に筋書きは同じです。ただし、先ほどの問題を違うのは、列の合計/総計と行の合計/総計(専門的には周辺確率と呼びます)と「理論値としてではなく」計算しておいて(ここが先ほどの問題の"理想的なサイコロだったら1/6の確率になる"と言う"決め打ち"と違う)、それら周辺確率の交差している升目を「理論値として」計算している部分です。すなわち、「周辺確率」に関しては「厳密性は不問にしている」って部分ですよね。ここが違うんです。 何故なら、あくまで興味があるのは「交差している部分の」度数が問題なんであって、周辺確率自体は問題視していないから、ですよね。 その辺り、「問題設定が何を問うているのか?」に良く目を配ってみてください。そうすれば「原理は簡単」なんですから、「適する場所に適する計算を行う」習慣が付く、とおもいます。

noname#232383
質問者

お礼

こんにちは。 すごくすごく丁寧な解説、ありがとうございます。 書籍やネットでΣとかが出てきてしまうと、もうそこで私には亀田語録のような理解不能な世界になってしまうので、数式ではなく、言葉で解説を頂けると、非常に理解しやすく、助かります。 今まで集計というと、結果の分布を見て、こういう傾向があるとか、こういう選択をした人が多いとか、そんなふうな見方しか考えられなかったのですが、数学的にありえないとか、偶然ではないとかを判定できることに、ちょっとした不思議さと面白さを感じています。 6万連敗は、さすがに無知な私でもイカサマだと気が付きますが。 本当にありがとうございます。

すると、全ての回答が全文表示されます。

その他の回答 (3)

回答No.3

>1行の期待度数の場合は、セルの値=列の合計になってしまうので、1:1:1:1のように仮定して期待度数を求めるのかと思っていました。例えば、3,5,2,6のように値が出た場合は、3*16/16、つまり値=期待度数ということでしょうか? う~ん・・・・。ちょっと混乱しているようなんで、次の例を考えましょう。 今、ここに「普通に見える」サイコロが一個あるとします。「普通に見える」んですね。 今、hanako0525さんが・・・・あんまりいい例じゃありませんが、チンチロリンに参加してて、負けがこんでいるとしましょう。 「いや、このサイコロはおかしい!!!あたしがこんなに負けるなんてありえない!!!そうだわ、このサイコロはインチキに違いないわ!!!」 幸い、今までhanako0525さんは6万回ゲームに参加していて(ながっ!!!)、1回1円づつ賭けてて60,000円の負けでした。サイコロがインチキだったらそれを指摘して60,000円取り返したい。そして、hanako0525さんは用意周到なので、今までのサイコロの目が出た回数を全て記録していたのです・・・・・・。 とまあ、こう言う筋書きを考えてみましょう。ちょっとしたサスペンスですよね(笑)。 さて、サイコロがインチキだと指摘するにはどうすればいいのか?ちょっと考えてみましょう。 今、実際にメモった60,000回の目の出方は次のようになっている、とします。 目| 1  2  3  4  5   6 ---------------------  |9836 10150 9901 9982 10104 10027 さて、「正常な普通のサイコロだった」場合、「各目の出る数」の期待度数はいくらになるでしょうか? ちょっと考えてみてください。

noname#232383
質問者

お礼

ありがとうございます。 ちょっといいますか、かなり混乱しています。 月の中旬に6万円の負けは、混乱というより、破綻してしまいます。 10000ということでしょうか? (単純集計の場合は平均値=期待度数?) 6万回も勝負しながら、1円づつしか賭けない・・・。 勝負師なのか、小心者なのか・・・サスペンスです。

すると、全ての回答が全文表示されます。
回答No.2

>列数や行数に関係なく、列の合計*行の合計/総計でよいのでしょうか。 何故期待度数が列の合計*行の合計/総計になるのでしょうか? 通常、事象Aの生起確率P(A)と事象Bの生起確率P(B)が独立だ、と仮定したとき、次の計算が成り立つとしています。 P(A∧B)=P(A)×P(B) ここで∧は「かつ」と言う意味です。つまり、事象Aと事象Bが「同時に起こる」と言う意味ですね。 さて、クロス集計をする場合、ある特定の列に置ける確率P(A)は P(A)=列の合計/総数 そして、ある特定の行に置ける確率P(B)は P(B)=行の合計/総数 で表されます。ここまでよろしいでしょうか? そしてその二つの確率が表す、クロス集計上のある行とある列の交差する場所の生起確率は「もしこの二つの確率が独立であったなら」次のように書き表せます。 P(A∧B)=P(A)×P(B)=列の合計/総数×行の合計/総数=列の合計×行の合計/(総数^2) 上のようになりますね。これが「独立だったら」計算上はこうなる、と言う「仮定」です。 さて、一般的に「期待値」と呼ばれるモノは次の計算式で導かれます。 期待値=総数×確率 故に、「ある枡目に於ける期待値=期待度数」は次の計算式によって導かれます。 期待度数=総数×確率=総数×P(A∧B) そして、今、P(A)とP(B)が独立である、と言う前提なので、期待度数は 期待度数=総数×列の合計×行の合計/(総数^2)=列の合計×行の合計/総数 となりますね。これが質問に上がっている式の意味です。 この考え方を延長する限り、基本的に2行2列だろうが何だろうが変わらない、と言う事ですよね。違う計算方法、と言うのが何を指すのか分かりませんが、原則この考え方で構わない、と思います。 なお、「独立であると仮定して」とずーっと書いてきましたが、「ホントにそうなのか」はここでは問うてません。と言うのも、カイ二乗検定と言うのは「独立じゃない」事を検定する為の技法なので、上の「独立だったら得られる理論値」と実際のデータが乖離すれば「独立ではない」事を言えるので、仮定としてはこれでOKなのです。 >1行の場合の期待度数はどうすればよいのか これも考え過ぎです。 と言うより、1行の場合の期待度数がまさに「期待値を計算する」と言う事の礎です。 例えば簡単な例として、表が出る確率が1/2、裏が出る確率が1/2のコインがあるとしましょう。今そのコインを1万回ふるとします。では「表」が出る期待値(期待度数)、「裏」が出る期待値(期待度数)は一体いくらでしょうか? これは簡単でしょう。これが「1行の場合の期待度数」って事なんです。(別に全ての面が1/6の確率で出るサイコロでも構わないんですが、いずれにしてもクロス集計じゃない方が考え方は簡単でしょ?)

noname#232383
質問者

お礼

ありがとうございます。 本当に数学をちゃんとやっておけばよかったと、後悔しきりです。 書籍を読んでいると、途中までは理解できるのですが、最後の方で、「こういう式」が成り立ちますって出てきてしまうと、その肝心な式の読み方がわからないとなってしまっています。 mamirs3876さんの解説、すごく参考になります。 1行の期待度数の場合は、セルの値=列の合計になってしまうので、1:1:1:1のように仮定して期待度数を求めるのかと思っていました。例えば、3,5,2,6のように値が出た場合は、3*16/16、つまり値=期待度数ということでしょうか? 丁寧な解説、ありがとうございます。

すると、全ての回答が全文表示されます。
  • backs
  • ベストアンサー率50% (410/818)
回答No.1

普通、教科書にはi*j分割表の計算公式が載っています。2*2分割表の場合はもっと簡単に計算できますよ、という公式も載っています。 > どれが正しいのかさっぱりです。 基本的には書籍を読んで、補助としてwebサイトを拝見させてもらうと参考になるでしょう。独立性の検定などは基本的な計算ですから間違いも少ないでしょうが、より高度な内容になると全くの間違いを堂々と説明しているページもありますから気をつけましょう(ちょっとオーバーですが、、、)。 > 小数点以下の値も出る場合もあると思うのですが、その場合、小数点何桁まで用いれば妥当なのか 特別な場合を除いては0.12というように、小数点以下2まで記しておけば問題ないでしょう。もちろん、コンピュータで計算する際にはもっと精度が高い必要があるわけですが、手計算は「練習」ですからね。 > クロスではなく、1行の場合の期待度数はどうすればよいのか 一般化された公式(つまり2*4とか決まっているものではないもの)を用いれば、1行4列の分割表でも問題なく計算できます。数学に全くなじみのない場合は数式を読むのも苦労するのかもしれませんから、 遠藤健治 例題からわかる心理統計学 倍風館 という本を読めば良いと思いますよ。これは1*4分割表とか2*2分割表、3*4分割表とか色々な例が載っています。

noname#232383
質問者

お礼

ありがとうございます。 >数学に全くなじみのない場合 まさしくその通りで、ずっと文系で数学らしきものをろくにしてこなかったものですから、本屋さんで色々本を調べても、数式自体が理解できなくて、困ってしまっています。 >遠藤健治 例題からわかる心理統計学 倍風館 探してみます。 ありがとうございます。

すると、全ての回答が全文表示されます。

関連するQ&A