- ベストアンサー
データが正規分布しているか判断するには???
初歩的なことですが。。急いでいます。 おわかりになる方 教えてください。 サンプリングしたデータが正規分布しているかどうかを確認するにはどうすればよろしいでしょうか。 素人でも分かるように説明したいのですが。。 定性的にはヒストグラムを作り視覚的に訴える方法があると思います。今回は定量的に判断する方法を知りたいです。宜しくお願いします。
- みんなの回答 (3)
- 専門家の回答
質問者が選んだベストアンサー
>機械的に処理してみるとできました。 >でも理屈を理解できていません。 とりあえず、理屈は後で勉強するとして、有意水準5%で有意差あり(有意確率が0.05以下)であれば、正規分布ではないと結論づけてお終いでいいのではないですか。 >この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。 私が知っている限りでは、紹介したURLのサイトが最も丁寧でわかりやすいサイトでした。 >データの区間を分けるときのルール等ありますでしょうか。 ヒストグラムを作成する場合、区間距離、度数区分数は、正規的なグラフになるように試行錯誤で行うことが多い(区間距離や度数区分数を本来の分布に則するようにいろいろ当てはめて解釈する。データ個数の不足や、データの取り方、または見かけ上の分布によりデータのばらつきが正しく反映されて見えないことがあるため)のですが、度数区分数は、機械的に、 =ROUNDUP(1+LOG10(データ個数)/LOG10(2),0):エクセル計算式 で区分数を求める方法があります。 また、区間距離は、=ROUND((データの最高値-最低値)/(度数区分数値-1),有効桁数)で求め、区分の左端は、 =ROUNDUP(データの最低値-区間距離/2,有効桁数) 右端は=ROUNDUP(データの最高値+区間距離/2,有効桁数) とします。 区間がと度数区分数が出たら、その範囲にあるデータ数を数えて、ヒストグラムができます。 >最小側、最大側は 最小値、最大値を含んだ値としなければならないのでしょうか。 ヒストグラム作成の処理に関しては、上記を参考にしてください。 その前に、データの最小値と最大値が、正しくとれたデータか検討するため、棄却検定で外れ値が存在するか否かを検定し、外れ値が存在しないと結論づけられたら、正規分布の検定を行ってみてください。もし外れ値が存在する可能性があれば、そもそも、そのデータの信頼性が失われます。サンプリング手法の再検討(データの取り方に偏りがなかったか、無作為に設定してデータを取っていたか等)をして、再度データを得る必要があります。また、そもそも検定する以前に、データ数が少ないと判断が付かなくなってしまいますので、データ数は十分揃える(少なくとも20~30個)必要もあります。
その他の回答 (2)
- zinchan
- ベストアンサー率49% (97/197)
正規分布への適合度の検定(下記URL参照)を行うことで検定することができると思います。 母平均、母分散がわかっていれば、Kolmogorov-Smirnovの1試料検定法にて正規分布に従う分布かどうか検定する方法もあります。 下記URLを参考に、やってみてください。
- fitto
- ベストアンサー率36% (1372/3800)
視覚的にはなりますが、一般的には正規確率プロットで確認します。 ↓のように、直線になれば正規分布です http://stat.eco.toyo.ac.jp/~michiko/ma09/sld039.htm
お礼
有り難うございます。機械的に処理してみると できました。でも理屈を理解できていません。この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。探してみましたが見つけられませんでした。 データの区間を分けるときのルール等ありますでしょうか。最小側、最大側は 最小値、最大値を含んだ値としなければならないのでしょうか。 宜しくお願いします。