- 締切済み
適合度の検定について教えてください!
統計を学んでいます。 先生がおらず誰かに聞くことができないので、 参考書等を参考に学んでいますが、 適合度の検定にて煮詰まっています(><) 以下の(1)(2)についてご教示いただけますでしょうか。 (1)【仮説の設定】 帰無仮説…差(違い)がない、という内容を持ってくることが一般的 対立仮説…差がある【両側検定】、検定量AよりBの方が大きい(小さい)【片側検定】 ■カイ二乗値が理論値より大きい場合→帰無仮説の棄却 小さい場合→帰無仮説は棄却できない ということで間違っていないでしょうか。 (2)【適合度の検定】 標本調査の調査とりまとめにおいて、国勢調査の年齢別人口構成比率と有効票の年齢別構成比率対象者の年齢分布を比較し、有効票の回答者が調査対象を代表しているかを確認したい。 ■帰無仮説…有効票の回答者が調査対象を代表している(国勢調査の構成比率と差がない) ■カイ二乗値が理論値より大きい場合→帰無仮説の棄却→国勢調査の構成比率と差がある 小さい場合→帰無仮説は棄却できない→差があるとは言えない 年齢・■国勢調査 ・■標本調査結果 ■期待値 20-29歳■169,369 14.8%■ 3,236 15.0% ■ 3189.6 30-39歳 ■193,792 17.0% ■3,703 17.2% ■3649.5 40-49歳 ■172,233 15.1% ■3,291 15.3% ■3243.5 50-59歳 ■219,559 19.2% ■3,723 17.3% ■4134.8 60-64歳 ■103,743 9.1% ■2,024 9.4% ■1953.7 65歳以上 ■283,479 24.8% ■5,531 25.7%■5338.5 合計 ■1,142,175 100.0%■ 21,510 100.0% ■21,510 カイ二乗値:52.7 理論値(自由度5、危険率5%):11.07 結果 帰無仮説を棄却(国勢調査の構成比率と差がある) カイ二乗値ですが、標本数が多ければ多いほど、帰無仮説を棄却せざるを得ないように思うのは、単なる思い込みでしょうか。一般的にサンプルが多いほど、母集団に値が近づくと思う(思いたい)ですが…(この例も、割合だけみれば「母集団を代表している」と言いたいのですが…)。 「母集団を代表している」というのはかなりハードルの高い精度(期待値と回答者数の差が限りなく小さい)が求められるということなのでしょうか。。 (1)(2)に関し、ご意見を頂ければと思います。 (1)も関連しますが特にお伺いしたいのは(2)です。 (2)に関して回答とその理由をお教え頂けると大変助かります。 よろしくお願いします。
- みんなの回答 (1)
- 専門家の回答
みんなの回答
- kgu-2
- ベストアンサー率49% (787/1592)
統計の初心者ですが、 お考え通りだと思います。 >一般的にサンプルが多いほど、母集団に値が近づくと思う(思いたい)ですが 記述統計学(統計学)と推測統計学(推計学)の区別を明確にしています。統計学は、母集団の性質を明示する、そのためには全てのデータを欠けることなく得ることが前提です。推計学は、全てのデータが得られない、あるいは欠落している時にやむを得ず使用する、と考えています。 たとえば、「1年2組の身長」であれば、全員の身長の平均値が代表値でしょう。これは母集団そのものです。誰が測定しても同じになります。「1年3組と、どちらが高いか」では、1年3組も全員のデータがあるなら、平均値には、0.001mmであろうが差があります。必ず差があります。『大した差ではない』というのは、社会的な判断であって、数学的には0.001でも「差は差、に違いありません。すなわち、母集団どうしを比較すれば、差はあるのです。必ず。「差が無い」の表現が誤りなのは、これが根拠です。(これを理解するのに、10年以上かかりました) しかし、データが一つでも欠ければ、母集団ではありません。そのデータを想定して、比較するしかありません。それが推計学で、集団間の差を主張したいのなら、確率(5%か1%)で有意差を求める検定も必要になります。 標本数が多くなる、ということは、欠けているデータが少なくなる、すなわち、不確かな確率が小さくなります。母集団に近づき、有意差は出やすくなります(母集団どうしなら必ず差があることを思い出して下さい)。 >「母集団を代表している」というのはかなりハードルの高い精度 国勢調査は、国民を抽出して得たデータですが、それを母集団として述べます。国勢調査の目的から言えば、日本国民全体が本当の母集団になります。 国勢調査の替わりに利用できるように(母集団を代表するという表現は、違和感があります)、というのは国勢調査と標本集団が一致していることですから、「有意差有り」を証明したい推計学的とは根本的には矛盾します。そこで、この場合なら、国勢調査と調査結果との有意差を求め、有意差が見られなかったら、調査結果を国勢調査として扱う、ということでしょう。 というより、国勢調査の替わりになるように、標本を集めます。ランダムサンプリングの手法をウルサイほど勉強するのは、これが理由です。 替わりにならないのは、ランダムサンプリングをしていなかったなどのサンプリングの誤り(実際には、恣意的な場合も多い)、分布が異なる(貯蓄金額は、正規分布をしていない)などです。 教科書には、「こうやれ」と書いていますが、何故そうしないとイケナイノかについては、説明はありません。私なりに理解できるようになったのは、最近のことです。何十年もかかりましたが、未だに初心者で、多重比較などには手を出していません。 「母集団」は何か、を意識すると、分り易くなりました。