- 締切済み
確率密度と確率質量について
確率について,いまいち自分の知識が正しいのか不安なので, 確率密度と確率質量について確認させてください。 このような質問の仕方がよいのか分かりませんが,図を使って質問したいので,以下のリンクに質問内容をまとめました。 http://dataputon.seesaa.net/article/109758077.html 回答お願いします。
- みんなの回答 (2)
- 専門家の回答
みんなの回答
- jaspachate
- ベストアンサー率60% (32/53)
離散的な場合、確率質量は確率そのものです。 連続な場合、確率密度は確率そのものではありませんが、確率と呼んだりするのでややこしいところです。要は連続かどうかわきまえていれば良いのです。 離散的であっても連続であっても、N回の観測試行に対してある観測値x[i]がk回観測された場合の実験的な確率は、k/Nで与えられます。例えばサイコロを100回振って、1が20回観測されたとき1が出る確率の実験値は20/100であり、物差しである長さを100回測ったときに9.8cmから10.2cmの間に60回の測定値が観測されたとき、その確率の実験値は60/100です。 これらの理論値はサイコロの場合、 P(サイコロ、1が20回) = 100!/(20!80!) (1/6)^20 (1-1/6)^80 であり、100回の試行で出る目のすべての場合の数に対する、1が20回でる出方の場合の数の比になっています。また、1が20回でるとは限りませんから、100回の試行を非常に多数回繰り返したとき、1が20回出る場合が何回あるかの確率です。1が何回出るかの期待値は100×(1/6)ですね。 物差しの場合は正規分布に従うと仮定すると、 P(物差し、x=9.8~10.2) = (1/(sqrt(2π)σ)∫[x=9.8~10.2]e^{(x-<x>)^2/(2σ)} dx これは多数回の測定で xが9.8~10.2cmの間で観測される確率を表します。100回の測定で観測される数の期待値は、これに100をかけたものです。 では60回観測されたものと、この期待値のずれはどう考えたらよいか? 100回の測定を繰り返せば、xが9.8~10.2cmの間で観測される回数は60回とは限らず、ある分布になり、その期待値が100P(物差し、x=9.8~10.2)です。 それには、観測値xが9,8~10.2cmの間に観測される場合とそうでない場合の確率を考えると、2項分布で表されることを用います。 P=P(物差し、x=9.8~10.2) とすると、(x<9,8、10.2<x)となる確率は1-Pですから、n回の測定でk回xが9,8~10.2cmの間に観測される確率は、 P(n,k)= nCk p^k (1-p)^(n-k) となります。これはn回の測定を多数回繰り返したとき、xが9,8~10.2cmの間に観測される回数kの確率分布になります。これを用いて実験で観測された回数kが有意であるか否かの検定を行うことができます。 以上のように、サイコロの場合は初めから1から6まで離散化されており、これは各目の間の中間状態がない、ということに相当します。もし連続な中間状態があれば連続な確率密度関数を考える必要があり、それを幅1で積分すれば離散化された確率質量関数になるわけです。そのことは物指しの連続確率密度をある幅で積分すればその確率は離散化されることが、上の例からおわかりになるものと思います。 以上で答えになっているでしょうか?
質問の意味がいまいちよくわからないので確認させてください。 まず、離散分布か連続分布のどちらであるかはわかっているのですよね? > 以下の図のような赤で囲んだデータは,全体のデータの何割であるかを測りたいです。 とのことですが、これは例えばある連続分布から、 -2.12786314 -2.02894333 -1.32115202 -1.24755350 -0.89038412 -0.80348563 -0.41747334 -0.09277794 0.01947818 0.05981240 0.06217842 0.15326712 0.47591035 0.86545344 1.24445688 1.29291262 1.78093974 1.78464661 1.91211708 2.28736925 という標本を得た場合、[0.01947818, 0.86545344]の範囲のデータは全体の何割かを知りたいということですよね? これは、標本サイズが20で[0.01947818, 0.86545344]の範囲のデータの個数は6個だから6/20=30%ではよくないのですか? それとも、(おそらく知りたいのはこちらだと思うのですが)母集団における[0.01947818, 0.86545344]の範囲に入る確率を推定したいということですか? > 連続的な場合には,上記同様,確率密度の和 > ΣP(xi) i=1・・・n > を考えればいいのでしょうか? 何を求めたいかはよくわからないのですが、確率密度の和は1を超えることは十分ありので、このままでは全体に対する割合になりません。