- ベストアンサー
確率密度についての疑問
- 平均μ,分散σ^2 の正規分布の確率密度は,p(x)=1/√2πσ^2・exp{-(x-μ)^2/2σ^2} ・・・ (α)と表され,正規分布は,区間を指定していないのに確率密度が(α)式のようになるわけで,参考書にかかれている意味がよくわかりません。
- 確率密度p(x)に従って発生したデータzに対して,p(z)は zが発生する“確率”ではない。自分は今までp(z)ならzが発生する確率だと理解していたので,自分の理解が間違っていることに気づいたのですが,それでは,p(z)とはどういう意味なのでしょうか?
- みんなの回答 (5)
- 専門家の回答
質問者が選んだベストアンサー
> 「確率密度がp(x)であるとは,値が区間[a,b] 内に発生する確率が, > ∫p(x)dx [from a to b] > であるという意味である。」 > とある参考書にかかれているのですが,正規分布は,区間を指定していないのに > 確率密度が(α)式のようになるわけで,参考書にかかれている意味がよくわかりません。 p(x)=1/√2πσ^2・exp{-(x-μ)^2/2σ^2}というのは「確率密度」の話で、 参考書が言っているのは「確率」の話です。 「確率密度」と「確率」は違うものだということに注意して下さい。 参考書が言いたかったのは、 「値が区間[a,b]内に発生する確率」をP(a, b)とおくと、確率P(a, b)は P(a, b) = ∫p(x)dx [from a to b] で計算できる。 というお話です。 「p(x)には区間が必要」とは言っていません。 「確率P(a, b)を計算するためには、p(x)を区間[a,b]で積分しなくてはならない」と言っているんです。 区間が必要なのは確率密度p(x)ではなく、確率P(a, b)の方です。 確率密度関数がp(x)=1/√2πσ^2・exp{-(x-μ)^2/2σ^2}であれば、 確率P(a, b)は P(a, b) = ∫[ 1/√2πσ^2・exp{-(x-μ)^2/2σ^2} ]dx [from a to b] で計算されます。 > 「確率密度p(x)に従って発生したデータzに対して,p(z)は zが発生する“確率”ではない。」 > と記述されています。自分は今までp(z)ならzが発生する確率だと理解していた > ので,自分の理解が間違っていることに気づいたのですが,それでは, > p(z)とはどういう意味なのでしょうか? 確率密度p(x)とは、確率P(a, b)を計算するのに必要なものです。 ダーツ盤を考えて下さい。 ダーツ盤の中心を原点Oとし、誰かにダーツを投げてもらいます。 この時、ダーツが突き刺さった座標を(x, y)とします。 ここでダーツが座標(x, y)に突き刺さる確率をf(x, y)とした時、 例えばf(0, 0)がどれぐらいになるか分かりますか? 多分0になりますよね。 平面上には無限の座標が存在します。 座標(0, 0)にダーツがささっているように見てても、実は座標(0.001, -0.02)だったり、 座標(-√0.3, -0.2)だったり、座標(1/π, 1/e)だったりするからです。 ぴったり座標(0, 0)に刺さるなんて都合のいいことが起こるはずありません。 全ての座標にダーツを突き刺す場合の数は∞通りで、座標(0, 0)に突き刺さるのは1通りですから、 f(0, 0) = 1/∞ = 0 (限りなく0に近い)です。 以下同様の考え方をすると、全ての座標(x, y)に対してf(x, y) = 0 (限りなく0に近い)となります。 今回は座標を例に確率を考えましたが、この場合区画は無限に分割できてしまい、 「(x, y) = (0, 0)の時の確率」とかは上手く計算できない場合がでてきます。 f(x, y)自体は、限りなく0に近いという話でしたが、 限りなく0に近いものでも、無限に足し合わせれば何らかの値に収束するかもしれません。 そこで、区間を指定して、この限りなく0に近い確率f(x, y)を足し合わせるということを考えます。 この発想って積分(区分求積法)と近いものがありませんか? 「確率密度」と「確率」の関係はそんな感じです。 無限に足しあわされる、限りなく0に近い確率f(x, y)が「確率密度」で、 この確率密度をある区間で無限に足し続ける(∫∫f(x, y)dxdy)と、その区間の「確率」になります。
その他の回答 (4)
- R_Earl
- ベストアンサー率55% (473/849)
> 私は回帰やクラスタリングなどの分野を勉強しているのですが, > 確率・統計の基礎が不足しているため,また基礎から勉強し直そうと > 考えているのですが,なかなか確率・統計に関する良書が見つけられません。 > 確率・統計の良書がありましたら教えてください。 ごめんなさい。これに関しては答えられません。私もそういった本が欲しいです。 新しく質問を立てて、そこで確率・統計の良書について尋ねた方が良いと思います。 探すのであれば、本屋以外に図書館を利用するという手もあるでしょう。 気に入った本が見つかれば、無料でしばらく借りることができますし、 熟読してみて「実は自分に合わない本だ」と分かっても、無料なので金銭面では損をしないと思います。 お力になれず、申し訳ありません。
- R_Earl
- ベストアンサー率55% (473/849)
> よくデータだけが与えられた状況で真の分布を近似したいというとき, > モデルは正規分布に従う?orノイズは正規分布に従う?(すいませんどちらが従うのか分かりませんが) > と仮定しているのは,正規分布を重ね合わせれば真のデータを発生している分布を近似できるから正規分布に従うと仮定しているのですか? > それとも経験的に正規分布にすべきだからということでしょうか? もともと正規分布は、二項分布の近似です。 二項分布は二者択一の確率で、たとえば『ノイズが発生する』『ノイズが発生しない』といったように 2つの事柄しか起こらない場合の確率を考えたものです。 サイコロを振って 『1の目がでる』『2の目がでる』『3の目がでる』『4の目がでる』『5の目がでる』『6の目がでる』 というのは二項分布ではありません(ただし『1の目が出る』『1以外の目が出る』なら二項分布となります)。 『ノイズが発生する』確率をaとおくと、『ノイズが発生しない』確率は(1 - a)です。 この二項分布で、データサンプル数をnとした時、 1 << na(1 - a) (na(1 - a)が1と比べて非常に大きい)が成り立てば、二項分布を正規分布に近似できます。 nが十分大きくて、aと(1 - a)の大きさがそれほど離れていなければ、1 << na(1 - a)になりやすいです。 もし1 << na(1 - a)が成り立たなかった場合、二項分布を正規分布では近似できなくなります。 この場合はポアソン分布という別の近似方法を利用します。 nが大きくても、aと(1 - a)の大きさが離れていると a(1 - a)が小さくなりすぎて1 << na(1 - a)が満たせなくなることがあります。 (a = 10^(-40)ぐらいで考えてみるといいかもしれません。 aが小さくなると(1 - a)は大きくなりますが、(1 - a)は確率の性質上、1より大きくなれません。 a = 10^(-40)の時、(1 - a) = 0.9999… ≒ 1と考えると、na(1 - a) ≒ n × 10^(-40)となります。 データ数nが10000でも、na(1 - a)は1を超えません。) なので『考えている確率が二項分布で、かつ1 << na(1 - a)なら、正規分布にマッチする』となります。 そうでなければ、『正規分布で近似はできない』となります。 先ほどのノイズの例は、『ノイズが発生する』『ノイズが発生しない』の二者択一なので二項分布です(条件の1つをクリアしている)。 後はna(1 - a)が1と比べて非常に多いかどうかですが、こればかりは当てはめてみないと分からないと思います。 もし当てはめてみて正規分布にマッチしなかった場合、別のモデルに切り替えて検証する必要があると思います(ポアソン分布等)。 > また,確率分布と確率密度は同じものと考えてよいのでしょうか? 確率分布は、私がANo.2やANo.3で挙げたP(a, b)の事です(a~bの範囲の確率)。 良く使われるのは、a = -∞としたP(-∞, b)みたいです。 このP(-∞, b)を特に累積分布関数と呼ぶみたいです。
補足
回答ありがとうございました。 確率分布に関して理解できた気がします。 最後に, 私は回帰やクラスタリングなどの分野を勉強しているのですが, 確率・統計の基礎が不足しているため,また基礎から勉強し直そうと 考えているのですが,なかなか確率・統計に関する良書が見つけられません。 確率・統計の良書がありましたら教えてください。
- R_Earl
- ベストアンサー率55% (473/849)
ANo.2ですが、訂正と追記です。 > f(x, y)自体は、限りなく0に近いという話でしたが、 > 限りなく0に近いものでも、無限に足し合わせれば何らかの値に収束するかもしれません。 > そこで、区間を指定して、この限りなく0に近い確率f(x, y)を足し合わせるということを考えます。 > この発想って積分(区分求積法)と近いものがありませんか? ここが少し説明不足気味だと思ったので、追記です。 『区間を指定して足し合わせる』というのは、 例えばΣf(x, y) (x^2 + y^2 <= 1)とすれば、この計算結果は 『ダーツ盤中心から半径1以内の領域にささる確率』になるということです。 x^2 + y^2 <= 1に含まれる座標は無限に存在するので、たとえf(x, y)自体は限りなく0に近くても その確率の和はなんらかの値に収束する可能性があります。 > 「確率密度」と「確率」の関係はそんな感じです。 > 無限に足しあわされる、限りなく0に近い確率f(x, y)が「確率密度」で、 > この確率密度をある区間で無限に足し続ける(∫∫f(x, y)dxdy)と、その区間の「確率」になります。 この部分で訂正です。 『f(x, y)が「確率密度」』という部分が誤りです。 そもそも積分(区分求積法)と無限和の計算方法にはちょっとした違いがあります。 一番大きな違いは、区分求積法は積分範囲がaからbの時、(b-a)/nを関数にかけて総和をとります(nは区間の分割数)。 なのでΣf(x, y)が確率となるf(x, y)と、∫p(x, y)dxdyが確率となるp(x, y)(確率密度)は別ものです。 申し訳ありませんでした。 では確率密度とは何なのかという話ですが、これはf(x, y)の大きさの比を表したものだと思います 例えば数列a_n = 6 / nと、数列b_n = 2 / nは、n → ∞でともに0に収束しますが、 数列の比a_n / b_nはn → ∞でも3となります(数学的にはまずい表現ですが、0 / 0 = 3という感じです)。 つまり同じ0でも、『n → ∞のa_nの0』は『n → ∞のb_nの0』の 3倍の大きさだと考えることもできます。 f(x, y)は限りなく0に近い確率ですが、ダーツが上手い人が投げればダーツは中心寄りに刺さりやすくなります。 それでもf(0, 0) = (限りなく0に近い)です。 f(100, 50)も同じく、(限りなく0に近い)です。 しかし、もしかしたらf(0, 0)の(限りなく0に近い)は、 f(100, 50)の(限りなく0に近い)の20倍の大きさかもしれません( f(0, 0) / f(100, 50) = 20 )。 このように限りなく0に近い確率にも、比を考えることができます。 ただ、確率f(x, y)は常に0なので、f(x, y)の値だけではその比が分かりません。 そこでこの限りなく0に近い確率の比をもうちょっと分かりやすく、 具体的な数字(なるべく0ではない数)で表してくれたのが確率密度関数だと思います。 p(1) = 0.2で、p(2) = 0.05であれば、 『x = 1となる確率』も『x = 2となる確率』も限りなく0に近いですが、 『x = 1となる確率』は『x = 2となる確率』の4倍だということが分かります。 この場合、p(x)の値(0.2や0.05)自体に大した意味はありません。 大事なのは、0.2と0.05の比が、確率の比になるということです。 そういった意味では、p(x)の値を2倍して、p(1) = 0.4, p(2) = 0.1としても問題無いかもしれません (p(x)が確率の比だけを表すという観点だけから見れば)。 実際には∫p(x)dx [from -∞ to +∞] = 1となるようにp(x)の値は調整されます。 この調整を行うことで、∫p(x)dx [from a to b] = P(a, b)が成り立ちます。 (∫p(x)dx [from -∞ to +∞] = 1 = P(-∞, +∞) (確率の総和)となり、『確率の総和は1(100%)』を満たすため) まとめると、確率密度関数p(x)は 『確率の比を表し、また∫p(x)dx [from a to b]を計算するとP(a, b)になる関数である。』 と言えます。
補足
回答者:R_Earlさんの回答が私には非常にわかりやすく理解できました。 今回の回答からとてもわかりやすいので是非とも教えていただきたいのですが, よくデータだけが与えられた状況で真の分布を近似したいというとき, モデルは正規分布に従う?orノイズは正規分布に従う?(すいませんどちらが従うのか分かりませんが) と仮定しているのは,正規分布を重ね合わせれば真のデータを発生している分布を近似できるから正規分布に従うと仮定しているのですか? それとも経験的に正規分布にすべきだからということでしょうか? また,確率分布と確率密度は同じものと考えてよいのでしょうか? 図々しいようですが,もし御存知ならまた御教授おねがいします。
- ymmasayan
- ベストアンサー率30% (2593/8599)
確率と言うのは日頃意識している割にはとっつきにくいですね。 例えば雨が降りそうだか傘を持っていこうとか。 > 「確率密度がp(x)であるとは,値が区間[a,b] 内に発生する確率が, > ∫p(x)dx [from a to b] であるという意味である。」 > 正規分布は,区間を指定していないのに確率密度が(α)式のようになる どちらも矛盾していません。例えば正規分布でσを-2から+2の範囲で積分すると95%という確率が出ます。 > 「確率密度p(x)に従って発生したデータzに対して,p(z)は zが発生する“確率”ではない。」 > p(z)とはどういう意味なのでしょうか? 混乱されていることに対する答えは「確率は高さでは無く面積である」事です。 つまり、p(z)dzが確率だと言うことです。 積分して確率を求めていることからもお分かりでしょう。
お礼
いろいろありがとうございました。 また分からないことがあったときは,よろしくお願いします。