- ベストアンサー
正規分布とヒストグラフ
現在、得られたデータをヒストグラムにして、正規分布と比べています。 得られたデータ(100個)の度数分布をヒストグラフにし、計算により、標準偏差と平均を求めました。 さらに、正規分布の式、f(x)=1/(σ*√2π)exp(-(x-μ)^2/(2σ^2))へ求めた標準偏差と平均を入れ、計算し、f(x)のグラフを描きました。 この二つのグラフを比較し、ズレがないことを視覚的に確認しようとしています。 ですが、エクセルにて比較したところ、概形は同じですが縦軸の目盛りが異なります。 正規分布は縦軸がf(x)で、ヒストグラフは縦軸が度数です。 概形は同じですが縦軸が一桁ほど違う形となっています。 具体的には、ヒストグラフの縦軸をちょうど10倍ほどすると正規分布の縦軸と同じになり、グラフがちょうどよく重なります。 ですが、合わせるためにちょうどいい数字の倍数していいとは思えませんし、軸の数字が違うものを比べるということ自体ができないと思います。 ということは比べる前に何かしらの比較するための計算を(何かをかけるとか)していないということになるのでしょうか。 そのままf(x)と度数を比べられるとは思いませんが、比べるためにはどういった計算処理をしなければいけないのでしょうか。 参考書や過去の質問も参照しましたが、なかなか理解できず質問させていただきました。 わかりづらい質問で恐縮ですが、ご教授よろしくお願いします。
- みんなの回答 (3)
- 専門家の回答
質問者が選んだベストアンサー
当然ですが、ヒストグラムの階層巾を考慮しないと一致しません。 相対度数分布は高さが確率を表し、 確率密度分布は面積が確率を表します。
その他の回答 (2)
- jamf0421
- ベストアンサー率63% (448/702)
ご承知のごとくf(x)のexpの前についている1/σ√(2π)は全体を積分した時に1になるための係数です。よって重ねるには実測グラフの積分値も1にしなければなりません。 横軸の値は、実測値のグラフを書く場合、ある幅で区切って度数をy軸に目盛るようにしているのでしょうね。その数字はわからないですが、例えば-3σから+3σまでの間をN区間に区切っておられたとすれば一区間幅が6σ/Nですね。それぞれの度数と区間幅を掛けて総合計をとると、確率密度関数の積分値に対応するSは S=Σ(6σ/N)xi=(6σ/N)Σxi...(1) となります。Σxiは度数の合計(=M)となります。-3σから+3σまででだと正確には99.7%かも知れませんが、概ね100%と見ることができます。すると(1)は S=(6σ/N)Σxi=(6σM)/N...(2) となります。これがそのまま1になっていれば理論式のプロットにあうはずです。 しかし、そうでは無い時はxi(度数)に定数(λ)を掛けて(つまりM→λMにすることになります)y軸に目盛ることになります。 S=(6σ/N)Σλxi=(6σ/N)λM≡1...(4) からλを解けば λ=N/(6σM)...(5) で与えられるFactorをxiにかけて目盛ればよいことになります。 (5)でM=100はほぼ大丈夫でしょうから(本当は3σより外にデータが飛び出しているかも知れません)(5)は λ=N/(600σ)...(5)' です。λ=10で辻褄があうということですと、N/σ=6000だったということになります。もし区切った区間の数Nが10ならばσ=1/600という小さな数字になるのですが... もし私に考え違いがあっても質問者さんが気付くと思います。ご検討下さい。
お礼
回答ありがとうございます。 返信がおそくなって申し訳ありません。 おかげでグラフを描くことができました。 詳しく書いて頂き、ありがとうございます。 jamf0421さんの回答して下さった内容は全ては理解しきれてませんので、これから思考し、自分の知識に加えさせていただきたいと思います。 ありがとうございました。
- Ishiwara
- ベストアンサー率24% (462/1914)
#1さんと同意見ですが、連続量と離散量を比べるときには、確率密度ではなくて累積確率を使うほうが、面倒な考慮が要らないのでラクです。正規確率紙がお勧めです。
お礼
回答ありがとうございます。 返信が遅れてしまって申し訳ありません。 おかげでグラフを描くことができました。 正規分布は式f(x)×nで面積により全体に対しての割合として、相対度数と比べました。 そこで、エクセルの関数で正規分布をかく関数があったことを思い出し、確認のためにエクセルの関数でも書いてみました。 関数の形式項目でTRUEかFALSEにすることで累積確立と分布密度がありました。 ヒストグラムの項(横軸の項数)が少ないので累積確立でやるとなめらかになりませんでした。よって分布密度に同様にnを掛けてエクセルでも式を描きました。 正規確立紙というのは正規分布か確認できるというものですよね。 存在は知っていましたが、詳しく知らなかったので、これから見てみたいと思います。 ありがとうございました。
お礼
回答ありがとうございます。 返信が遅くなって申し訳ありません。 おかげでグラフを描くことができました。 ありがとうございました。