適合度の検定について教えてください!
統計を学んでいます。
先生がおらず誰かに聞くことができないので、
参考書等を参考に学んでいますが、
適合度の検定にて煮詰まっています(><)
以下の(1)(2)についてご教示いただけますでしょうか。
(1)【仮説の設定】
帰無仮説…差(違い)がない、という内容を持ってくることが一般的
対立仮説…差がある【両側検定】、検定量AよりBの方が大きい(小さい)【片側検定】
■カイ二乗値が理論値より大きい場合→帰無仮説の棄却
小さい場合→帰無仮説は棄却できない
ということで間違っていないでしょうか。
(2)【適合度の検定】
標本調査の調査とりまとめにおいて、国勢調査の年齢別人口構成比率と有効票の年齢別構成比率対象者の年齢分布を比較し、有効票の回答者が調査対象を代表しているかを確認したい。
■帰無仮説…有効票の回答者が調査対象を代表している(国勢調査の構成比率と差がない)
■カイ二乗値が理論値より大きい場合→帰無仮説の棄却→国勢調査の構成比率と差がある
小さい場合→帰無仮説は棄却できない→差があるとは言えない
年齢・■国勢調査 ・■標本調査結果 ■期待値
20-29歳■169,369 14.8%■ 3,236 15.0% ■ 3189.6
30-39歳 ■193,792 17.0% ■3,703 17.2% ■3649.5
40-49歳 ■172,233 15.1% ■3,291 15.3% ■3243.5
50-59歳 ■219,559 19.2% ■3,723 17.3% ■4134.8
60-64歳 ■103,743 9.1% ■2,024 9.4% ■1953.7
65歳以上 ■283,479 24.8% ■5,531 25.7%■5338.5
合計 ■1,142,175 100.0%■ 21,510 100.0% ■21,510
カイ二乗値:52.7
理論値(自由度5、危険率5%):11.07
結果 帰無仮説を棄却(国勢調査の構成比率と差がある)
カイ二乗値ですが、標本数が多ければ多いほど、帰無仮説を棄却せざるを得ないように思うのは、単なる思い込みでしょうか。一般的にサンプルが多いほど、母集団に値が近づくと思う(思いたい)ですが…(この例も、割合だけみれば「母集団を代表している」と言いたいのですが…)。
「母集団を代表している」というのはかなりハードルの高い精度(期待値と回答者数の差が限りなく小さい)が求められるということなのでしょうか。。
(1)(2)に関し、ご意見を頂ければと思います。
(1)も関連しますが特にお伺いしたいのは(2)です。
(2)に関して回答とその理由をお教え頂けると大変助かります。
よろしくお願いします。
お礼
御回答有り難うございます。 では、自由度に対してデータがどの程度あれば可能でしょうか。 こちらもご回答いただければ幸いです。