- ベストアンサー
歪度はゼロに近いのに、ヒストグラムは正規分布してない
以下のような20個のデータ(テストの点数)があります。 57, 82, 62, 53, 70, 69, 71, 68, 67, 72, 53, 75, 83, 69, 73, 70,66, 54, 54, 59 このデータの歪度をSPSSで算出すると、-0.01とほぼゼロに近い値だったので正規分布かなと思っていました。そこでヒストグラムを書いてみたら、全然正規分布とはほど遠い分布になっていました。 どうしてでしょうか?
- みんなの回答 (4)
- 専門家の回答
質問者が選んだベストアンサー
「標本が小さいから正規分布と言えない」という説明は誤解を招くかもしれませんので、補足です。 標本が小さいと情報がありませんから、正規分布であるかないか、肯定も否定もできません。実際、標本点が1つか2つしかなくて、これが正規分布かと言われても困るでしょう。 標本を大きくして行くと情報が増えて、正規分布「らしくない」ということは言いやすくなり、逆に正規分布「らしい」ということは言いにくくなります。これは正規分布がモデルであり、データはモデルから生成されるわけではないからです。 普通は「正規分布である」を帰無仮説、「正規分布でない」を対立仮説として検定するわけですけど、標本をじゅうぶん大きく取れば、帰無仮説は必ず棄却されます。つまり「正規分布ではない」という結果に必ずなります。 つまり帰無仮説が棄却されないのは、「正規分布でないとする理由は、この大きさの標本では、まだ見つからなかった」というだけのことで、「正規分布である」ということとは全く異なります。このへんは仮説検定の基礎です。 「正規分布らしい」ということを積極的に主張するには、正規分布以外にどんな分布をモデルの候補にするかを明確にして、「想定の範囲内では、この標本で評価する限り、正規分布が一番、近い」という言い方をします。この近さを計る物差しの1つが情報量基準です。 この言い方をするには、大きな標本が必要です。候補であるモデルの善し悪しをデータで評価するため、それなりの情報が必要なのです。 母数が2つの何らかの分布族の中から最適モデルを探す程度なら、データ点が 20 でも、意味のある議論ができる可能性が高いです。しかし混合分布とかの複雑で母数の多いモデルを想定すると、情報がないのにモデルをこじつけるような話になりやすいです。
その他の回答 (3)
- ur2c
- ベストアンサー率63% (264/416)
歪度が 0 だけれど正規分布でない分布はいくらでもあるからです。 http://ja.wikipedia.org/wiki/%E6%AD%AA%E5%BA%A6 なんか、質問に無関係な説明を長々としてしまい、すみませんでした。
お礼
補足いただきましてありがとうございます。 統計分析の世界はホントに難しいですね。教科書では「歪度がゼロなら正規分布に近い」としか書かれていないので・・。 これからも勉強を続けます!
- backs
- ベストアンサー率50% (410/818)
歪度が0だからといって、必ずしも正規分布に従うような分布型であるとは限らないからです。かといって、小標本の場合はヒストグラムを描いても、母集団が正規分布に従うことを仮定できるに値しないこともしばしばです。 だから頑健性の高い手法(分散分析とか)や、変数変換(対数変換や平方根変換など)が必要になるというわけです。
お礼
お礼が遅くなり申し訳ありません。 やはりデータ数が問題なのですね。 本当にありがとうございました。
- vzb04330
- ベストアンサー率74% (577/778)
心理学の教員です。 まったく計算もしないまま、あくまでも推測ですが、最も可能性が高いのは、サンプル数が少なすぎるためではないかと思います。 20個のデータでは、むしろ正規分布になることの方が少ないように考えます。
お礼
お礼が遅くなってすみません。 データが少ない・・確かにそうですね。 どうもありがとうございました。
お礼
お礼が遅くなり申し訳ありません。 また、非常に詳しい説明をありがとうございました。 どもくらいの標本数があればよいのか、まだよくわかってないのですが、SPSSで計算された歪度の値だけを信用するのは危険だということがわかりました。どうもありがとうございました。