- ベストアンサー
切断された正規分布
今ある標本(Y,X)の組があって、その母集団が正規分布であることがわかっているとします。 ただ、得られた標本(Y,X)はXがある閾値以上のものに限定されている(すなわち、正規分布の尾の部分のみが観測されている)としたとき、 母集団である正規分布の統計量を推定するにはどうすればよいでしょうか?
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
続きです. 後は, 1. 平均と分散の初期値を適当に決める 2. N個の標本が従う確率分布(正規分布の閾値Z未満の部分)を求める 3. N個の確率分布,およびM個の標本から平均と分散を再計算する 4. 2と3を計算が収束するまで繰り返す を行えば,母集団の平均と分散を推定することができます. ちなみにこの手法は, 「Expectation-Maximization (EM)アルゴリズム」と呼ばれる手法を用いています. 自分でいうのも何ですが,この説明だけでは分からないと思いますので 統計学や確率計算に関連する書籍などでフォローアップしていただければ,と思います. また,観測されなかった標本の数がMで既知だとしましたが, この値も未知の場合は,Mの推測も行う必要があります. 基本的には,M=1の場合の平均・分散,M=2の場合の平均・分散,… M=(十分に大きな数)の場合の平均・分散,を計算しておき, Mの値の「妥当さ」に基づいてこれらの平均・分散をまとめる, という計算を行う必要があります. こちらは,いわゆるベイズ統計学の知識が必要になるでしょう. いずれにしろ,「教えて」の回答に使える文字数で 正確に説明しきれる内容ではないので, 「EMアルゴリズム」等のキーワードを基に自身で調べるのがよいと思います.
その他の回答 (1)
- ltx78
- ベストアンサー率45% (10/22)
分かりやすく伝える自信はあまりないのですが… 一応,ご自分で問題を解決するためのとっかかり, になることを期待して,一通り説明してみます. 回答が長くなってしまったので,2つに分割しています. 以下の条件を仮定します. ・閾値は既知であり,値はZ ・観測された標本の数はM まず,「閾値が設定されておらず,すべての標本が観測された」状況を考えます. ただし標本の数はM+Nとします. この場合,平均と分散を計算するのは問題ないでしょう. ここから,「値がZ未満の標本が失われた」状況を考えます. 失われた標本の数はNとします. この場合,残ったM個の標本だけから平均と分散を計算することはできませんが, 仮に失われたN個の標本が復元できたとすれば, M+N個の標本から平均と分散を計算することができます. つまり,何とかして失われたN個の標本を推測できれば, その推測を元に平均と分散を計算することができる,ということになります. 後は,どのようにしてN個の標本を推測すればよいか,です. 母集団が平均と分散が既知の正規分布であるならば, その母集団から値がある範囲に含まれる標本が観測される確率を計算することができます. つまり,何とかして平均と分散を決めてしまえば, 失われたN個の標本を推測できる,ということになります. ここまでを大雑把にまとめると, 「平均と分散が決まれば,失われた標本を推測できる」 「失われた標本を推測できれば,平均と分散を計算できる」 ということです.
お礼
ありがとうございます!!! 非常に参考になりました。 本当に助かりました!!! とてもわかりやすかったです。 あまりの内容の素晴らしさに感動しました。