• ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:クラスタ分析後のカイ二乗分析 )

クラスタ分析後のカイ二乗分析とは?

このQ&Aのポイント
  • SPSSを使ってカイ二乗検定をしようとしていますが、1000人の被験者を4つのクラスターに分け、各クラスターごとに「喫煙の有無」の割合に差があるかどうか調べます。
  • ただし、各クラスターの人数がまちまちで、第一クラスタは100人、第二クラスタは200人、第三クラスタは500人、第四クラスタは200人に分かれました。
  • 第一クラスタでの「喫煙する」割合が80人だった場合、第一クラスタの喫煙率は80%と高くなりますが、全体から見ると8%という小さい数字になってしまいます。他のクラスタと比べて第一クラスタの喫煙率が高いかどうかを検定する方法を教えてください。

質問者が選んだベストアンサー

  • ベストアンサー
  • hukuponlog
  • ベストアンサー率52% (791/1499)
回答No.1

まず、ご質問の内容から、あなたがχ二乗検定そのものを理解していないことが分かります。 χ二乗検定で、クラスタ毎の人数の違いを考えることや、それにともなう喫煙率の「割合」の大小を比較することは意味がありません。そうではなく、クラスタ毎の期待値との差・ズレ(つまりこれがχ二乗値)を算出すれば良いだけです。これだけ、標本数が多ければ検定そのものは1%水準で有意に出ると思います。 次は残差分析を行い、具体的にどのクラスタのどのセル(喫煙・非喫煙)が「他のクラスタと比べて高い」かを確認すれば済みます。SPSSの場合、ここまでは自動でやってくれます。ただし、この検定の算出そのものは非常に単純です。4クラスタで回答が「喫煙・非喫煙」なら自由度は3ですから、χ二乗検定の理解を深める観点からも、SPSSを使う前に自力でやってみることをお勧めします(電卓やExcelでも十分に出来る程度の計算です)。

kent991230
質問者

お礼

大晦日のお忙しい中、レスをつけてくださってありがとうございます。 大変よく分かりました。 実際にSPSSで残差を見てみると、第1クラスタの喫煙率(100人中80人喫煙)と、第3クラスタの喫煙率(500人中300人喫煙)では、第1クラスタの残差の方がより大きく出ており、各クラスタの人数ではなくクラスタ間の比較することができました。 本当にありがとうございました。