• ベストアンサー

確率分布の推定方法

はじめまして。  さて,標記の件ですが,サンプル群が標準正規分布に従うと仮定して点数付けをしているのですが,どうもそのサンプル群が標準正規分布に従っていないため,いびつな点数付けになって困っています。  そうなると,他の確率分布(カイ2乗分布やt分布など)に従うと思うのですが,サンプル群がどの確率分布に当てはまりが良いかを推定する方法を教えて頂けないでしょうか。また,それが掲載されている本,ホームページ,解析ツールがあれば教えて頂けないでしょうか。  よろしくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
  • adinat
  • ベストアンサー率64% (269/414)
回答No.2

パラメトリックな方法を取るためには、分布の推定をしたいですが、それは純粋解析的な方法というよりはある種の仮説推定が手っ取り早いと思います。大雑把でもいいので、どのようなサンプル群から得たデータかを考えて、その分布を予想するのです。その上でパラメータの推定を最尤法、あるいはモーメント法、もしくは区間推定(正規母集団近似、できなければ精密法)などで予想することができます。 たとえば測定値の平均からのずれなどならば、正規分布に従うと予想できますし、毎時のメール着信数などであればポアッソン分布に従う、あるいは耐久時間などなら指数分布に従う、と予想されます。より一般的なサンプルの場合、これら既存の確率分布のどれにより近いかを想像するのは大変ですが、なんらかの理由付けで確率分布を推定するのは、解析的な方法よりは正確であるようには思います。そして推定したあとはたとえば適合度検定などを行ってみるとよいと思います。 またデータの平均、分散、さらに3次モーメント、4次モーメント(あるいは尖度、歪度)を計算してみて、既存の確率分布のそれと比較する(モーメント法とと同じことですが)、もしくは、実際にサンプルの分布をグラフ化して比較するのも視覚的にわかりやすいかも知れないと思います。エクセルが使えるなら一番てっとり早いと思います。 結構最近出た本ですが、【統計分布ハンドブック】という本はかなり詳しく分布についての辞典です。確率分布の公式集というのが役に立つかも知れません。連続分布ならグラフ化するのがよいですが、グラフ表示ソフトがあれば便利でしょう。お持ちでなければ、googleかyahooで適当な分布で検索されてみれば、どこかのwebページで掲載されていると思います。http://www.math.keio.ac.jp/edu/bookshelf/bookshelf.htm よく分布の当てはまりを調べるのにχ^2適合度検定などを行ったりしますが、これは「その分布は適当ではない」かどうかを調べる検定ですので、積極的にその分布を支持するものではないです。ですが、よくこういった手法も使われると思うので、予想が出来たら適合度検定を行われるのもよいかと思います。このあたりのことはほとんどすべての統計の本に記述があると思います。

wishlist
質問者

補足

お書きの回答は大変参考になりました。どうも有難うございます。統計学は大学でかじった程度で、あまり理解していませんので、これを機に勉強しようと思います。  ただあつかましいんですが、これを自動で計算してくれるようなツールはないでしょうか。サンプル群が30程度あって全部をその方法でやっていたら大変だと思いまして・・・

その他の回答 (1)

回答No.1

回答つきませんね まず些細なことですが、確認したいので... > サンプル群が標準正規分布に従うと仮定 このくだりは 「サンプル群が正規分布に従うと仮定し、サンプル平均と標準偏差で正規化」 の意味ですね? また、点数付けの意味がちょっとよくわからないので、補足をいただけますか? というのも素人目には、サンプルの分布の性質がわかっているから(点数付けがいびつであると)判断できるのでは?と思えるからです。 さて サンプルからその確率分布を推定するということですが、手順としてはヒストグラムを描く ことあたりからはじめ、歪度や尖度を求めてみて考えることになります。 その次は、最尤法でパラメータを推定し推定精度のよしあしを評価するか、ノンパラメトリックにナントカしようとするか、という話になってくるかと思います。

wishlist
質問者

補足

>「サンプル群が正規分布に従うと仮定し、サンプル>平均と標準偏差で正規化」 >の意味ですね?  その通りです。また、点数付けの方法ですが、正規分布を20%ずつ区切って上から順にランクA、B、C、D、Eと付ける方法をとっています。  このような点数付けをしますと、例えば、サンプル群が0以上の値しかないのに、ランクEが-10未満になり、ランクEに該当するサンプルが一つもなくなるといった事態が発生します。これに対して「いびつな」という表現をとりました。抽象的な表現ですいませんでした。  お書きの回答は大変参考になりました。どうも有難うございます。統計学は大学でかじった程度で、あまり理解していませんので、これを機に勉強しようと思います。  ただあつかましいんですが、これを自動で計算してくれるようなツールはないでしょうか。サンプル群が30程度あって全部をその方法でやっていたら大変だと思いまして・・・

関連するQ&A