• 締切済み

試行回数が多ければ好きな事前分布を選んでもよい理由

機械学習について勉強している者です. 事前分布の性質について分からないことがあるので教えてください. http://gihyo.jp/dev/serial/01/machine-learning/0010?page=2 このページには 「どのような事前分布を持ってきても,試行の回数が十分多ければ,ベイズ事後確率の一番高い値は単純な『表の回数/投げた回数』に近づくことがわかっています」 と書かれています. なぜこのような性質が成り立つのでしょうか? また,この性質は一般的に成り立ちますか? このページの例に限って言えば,事後確率が二項分布に似た形になるので「試行回数を増やすと正規分布に近づくのかな?」と考えました.しかし,この説明だと,コイン投げ以外の問題で上記の性質が成り立つかどうか説明できません.もしコイン投げ以外の場合でも成り立つ性質であるならば,なぜ成り立つのかを知りたいです. よろしくお願いします.

みんなの回答

回答No.3

>大数の法則をどう結び付ければよいのか 初期の事前分布を一様分布とかベータ分布とかであれば式からも説明できますが、一般の分布では私の手には負えません。 概念的には次のように説明できるかと。D:事象「n回投げたらm回表」とします。 事後分布は P(Y|D) ∝ f(D|Y) P(Y) と表現できます。(全体をYの関数として見たとき分母は定数と見なせる) f(D|Y)は尤度です。f(D|Y=p) = p^m・(1-p)^(n-m)となります。この尤度はnが大きくなるにつれシャープな形になってきます。例えば、p=0.5のときn=10,m=8は起きてもそう不思議でもなn=10000,m=8000はまず起きそうもない。で、事後分布はこの尤度に事前分布を掛けたものですが、nが大きくなるにつれ尤度の値のほうに支配されていくということです。 >このページの例だと,X∈{X|0, 1} の場合に限って議論しているのですが,これを「Xが実数の場合」に拡張したいです. いまいち趣旨が理解できません。ベルヌーイ試行ですから、X∈{X|0, 1}以外に考える必要はありません。Yについては0≦Y≦1の連続分布と見なします。

回答No.2

私は、成り立たないと思っています。というか、ベイズ統計の事前確率という考え方は、あまり数学的に正当化されてないように思います。確率論の人間が首傾げていたし。。。 数学的に関係しているのは、一番簡単な場合だと、ペロン・フロベニウスの定理。マルコフ連鎖、力学系あたりだとおもいます。 機械学習はベイズ統計に関係なく存在すると思います。ベイズを使ってる部分に、最急降下法やカーネル法(ベクターサポートマシーン)を使う方ものが、普通のような。。。(わたしは、機械学習自体それほど詳しくありません) あと、教師なしの場合は自己組織化マップとか。。。

回答No.1

>どのような事前分布を持ってきても この事前分布とはなんのことかお分かりですか? P(Y)の事です。確率の確率(確信度)です。例えばP(Y=0.63)はこのコインの表がでる確率が63%である確率(確信度)です。 >ベイズ事後確率の一番高い値は この事後確率とはなんのことかお分かりですか? これも確率の確率(確信度)です。 >単純な『表の回数/投げた回数』に近づくことがわかっています 大数の法則の裏返しです。 >この性質は一般的に成り立ちますか 意味不明です。どう一般化したいのですか? >もしコイン投げ以外の場合でも成り立つ性質であるならば,なぜ成り立つのかを知りたいです あなたが言っている性質とは?

noname#198022
質問者

補足

ご回答ありがとうございます. > この事前分布とはなんのことかお分かりですか? > この事後確率とはなんのことかお分かりですか? このページの例における事前分布,事後分布が何のことかは理解できています.問題ありません. > あなたが言っている性質とは? 分かりにくくて申し訳ありません^^; 「どのような事前分布を持ってきても,試行の回数が十分多ければ,ベイズ事後確率の一番高い値は単純な『表の回数/投げた回数』に近づくこと」のことです.「大数の法則の裏返しです」と説明してくださった部分になります. > 大数の法則の裏返しです 大数の法則について詳しく教えてください. コイン投げの例で「n回投げたらm回表」の場合の事後確率を計算すると以下のようになると思います. P(Y|X_1, X_2, ... , X_n)=(((1-p)/(1-Z))^(n-m))((p/Z)^m)P(Y) nを大きくするとこの確率密度関数が「表の回数/投げた回数」に最も大きなピークを持つようになる,ということを大数の法則から説明できるということですよね? この確率密度関数の式と大数の法則をどう結び付ければよいのか理解できなかったので,詳細をお願いします. > どう一般化したいのですか? 説明不足で申し訳ありません. このページの例だと,X∈{X|0, 1} の場合に限って議論しているのですが,これを「Xが実数の場合」に拡張したいです. 具体的に事後確率の式を用いて説明すると, P(Y|X_1, X_2, ... , X_n)=(Π^N_{n=1}(P(X_n|Y)/P(X_n)))P(Y) nを大きくするとこの確率密度関数も X_1, X_2, ... , X_n の平均に最も大きなピークを持つようになるのか?について知りたいということです. 以上,よろしくお願いします.

関連するQ&A