- 締切済み
ベイズ統計の用語についてお尋ねします。
ベイズ統計において事前確率、事後確率というものが出てきます(有名なので、式は書きませんが)。私が読んでいる本では事前、事後、という言葉の語感と定義が一致していません。ただ、そのような名前で呼ばれるということのようです。 推測ですが、条件なしで単純に全データから発生事象の数を除したものが事前、条件付き確率が事後、すなわち、ベイズの式は単純な確率(事前)から条件付き確率(事後)を陽形式で表示できるということで、後で条件を付けたらどうなるかが分かるということなのでしょうか。 用語の語源を理解すると頭に入りやすいと思うのです。 よろしくお願いします。
- みんなの回答 (4)
- 専門家の回答
みんなの回答
- f272
- ベストアンサー率46% (8625/18445)
> つまり(n+1)を新たな(n)とみなして(n+1)を予測するというものです。そうしたらP(A|B)があらたなP(A)となり、その結果、新しい情報Cを用いてP(A|C)を知ることができるという風に発展するものはずだと直観した そういうことです。 > AとBは交換可能ということはずっと基本前提ではなかったのでしょうか。 これは私の言い方が悪かった。P(A|B)=P(A∩B)/P(B)とかP(A∩B)=P(B∩A)を考えているときはAとBは全く対称で交換可能です。しかし今考えている問題は時間発展する物理現象ではないですか?そしてAをパラメータとしてBというデータを加味すればAというパラメータの確率分布を更新することが出来ると言う状況だったのではないですか?こういう状況ではAとBは性質の違う変数であって,同じような計算が出来るわけではないということを言いたかったのです。 ”頻度主義”と言うのは,ランダムな事象が生起・発生する頻度をもって確率(の推定値)とする考えです。高校生までに習う確率はすべて頻度主義の確率と言って良いでしょう。頻度主義では真の確率というものがあり,無限に実験を繰り返せば真の確率が得られるが,実際には有限回の実験しか出来ないので不確かさがあると考えています。 ベイズ主義ではもともと真の確率は確率的にしかわからないと思っています。データが何もなければすべての確率は等しいと考えるのが素直かもしれませんが,もっと直感的に事前確率を与えても何ら支障はありません。データが増えていくにつれて確率分布を更新することが出来るのですから。 「「自分の仮説」が正しい確率が何%あるかがわかるベイズ統計と、ある仮説が正しかった場合に「データが得られる確率」は何%なのかを考える頻度論」と言う言い方をしている人もいます。 とりとめもない話ですいません。
- f272
- ベストアンサー率46% (8625/18445)
> P(A|B)を得た後、P(A)はどう更新されるのかという問題 P(A)はそのままですよ。P(A)の代わりにP(A|B)が使えるようになるということです。P(A)は事前分布で,P(A|B)は事後分布です。 新しい情報Cが得られて新たなベイズ更新を行うときはP(A|B)からP(A|B,C)を求めるのです。P(A|B,C)=P(A|B)*P(C|A,B)/P(C|B)ですね。でも新しい情報Cについて議論をしているときにはBのことはわざわざ明示しなくても構わないと考えればP(A|C)=P(A)*P(C|A)/P(C)となってP(A)からP(A|C)を求めるといういように略記できるわけです。 > 尤度P(B|A)をどう求めるか これはまた別の問題ですね。「例えば、P(B|A)を条件付き確率の定義に従って計算したとします」といいますが,それはいわゆる頻度主義に従った計算法で計算するイメージなのでしょう。しかし,そもそも真の確率が一定値に決まっていて実験を繰り返せばその確率分布に従った実験結果が得られるというやり方にとらわれる必要はありません。ベイジアンは一定値の真の確率などというものは前提にしません。 > しかし、P(B|A)が計算できたということは、そのやり方に従ってベイズの式を使わなくてもP(A|B)を計算できそうです。そうすると、ベイズのあの式は何なのだろうという疑問が出てきます。 P(B|A)が計算出来たからと言って同じやり方でP(A|B)が計算できるわけではありません。一般にはAとBは対称ではないのです。AとBを取り替えても議論ができることを前提とすれば,「ベイズのあの式」は当たり前のことを言っているに過ぎません。
- f272
- ベストアンサー率46% (8625/18445)
P(A|B) = P(B|A)P(A)/P(B) = P(A) * P(B|A)/P(B) という式でAの事後確率P(A|B)は,Aの事前確率P(A)に尤度P(B|A)をかけたものになっています。P(B)で割るのはP(A|B)を0から1におさめるためのスケーリングファクタです。いかにも情報の更新という気になりませんか? P(A)は,情報Bが与えらる前にわかっているパラメータAの事前確率です。 P(A|B)は,情報Bが与えられたときのパラメータAの事後確率です。 尤度P(B|A)は,パラメータAを決めたときの情報Bの事後確率です。ここでAは別に定数というわけではなく一般にはある確率分布を持った確率変数です。そしてまたこれは客観的に決まることはなく主観で決めることのできる確率変数です。 ちなみに従来の推計統計学では確率分布 P(A) は既に決定しているものですが,ベイジアンはP(A)も客観的に決まっているとは考えません。主観で決めることのできる確率変数です。
お礼
回答ありがとうございます。Aの確率P(A)について情報Bを絡めることによって新しい情報を得て変化していくという時間発展のように思えます。ただ、P(A|B)を得た後、P(A)はどう更新されるのかという問題(P(A)とP(A|B)は別)と、尤度P(B|A)をどう求めるかという問題が残ります。P(A)、P(B)はデータを調査して決めることはできそうです。例えば、P(B|A)を条件付き確率の定義に従って計算したとします。データからAのものばかり集めてその中でBとなっている数の割合を求めればよい、ということですね。そうすると、ベイズのあの式の右辺が確定するからP(A|B)が算出できそうです。しかし、P(B|A)が計算できたということは、そのやり方に従ってベイズの式を使わなくてもP(A|B)を計算できそうです。そうすると、ベイズのあの式は何なのだろうという疑問が出てきます。この疑問をどのように払拭できるでしょうか。
- f272
- ベストアンサー率46% (8625/18445)
確率P1があるとき、ある情報を得てそれを加味して確率を修正したらP2になったとき、P1を事前確率といってP2を事後確率といいます。 別に事前確率を考えているときに情報がなにもないことを仮定しているわけではありません。上記の状況で追加情報があってさらに確率をP3に更新できるなら、P2を事前確率と言ってP3を事後確率と言ってよいのです。
お礼
回答ありがとうございます。情報が加わることで確率が更新されるという意味で事前、事後という風になるのだろうと思います。 私の本(一般的な教科書でもそうだと思います)ですが、 P(A|B)=P(B|A)P(A)/P(B)という式で、P(A|B)が事後確率、P(A)が事前確率とのことです。前者は条件付き確率、後者は条件なしの確率という風に見えます。これは情報の更新と言えるのでしょうか。形式的には更新ではなく、条件付き確率という別の情報が抽出された、という風に見えてしまうのですが。
お礼
懇篤な回答ありがとうございます。私はベイズ統計について全く不案内で自分で確信しているところが全くありません。手探りでこのようなものなのか?とトライアルアンドエラー風に勉強しています。 ----- > P(A|B)を得た後、P(A)はどう更新されるのかという問題 P(A)はそのままですよ。P(A)の代わりにP(A|B)が使えるようになるということです。P(A)は事前分布で,P(A|B)は事後分布です。 --- 私は時間発展する物理現象の数値計算プログラムを作成しています。時刻nの情報その他を使って時刻(n+1)の現象を予測するということです。そのような目でベイズの事前、事後を見ると、事前が時刻n, 事後が時刻(n+1)の値であるとみなせるのかなと予見しました。この場合、(n+1)の情報は次の(n+2)を計算するための情報になります。つまり(n+1)を新たな(n)とみなして(n+1)を予測するというものです。そうしたらP(A|B)があらたなP(A)となり、その結果、新しい情報Cを用いてP(A|C)を知ることができるという風に発展するものはずだと直観したのですが、間違いでしょうか。 ところで「ベイズのあの式」の出発点はP(A|B)=P(A∩B)/P(B)であり、P(A∩B)=P(B∩A)が了解できれば自然な式と思われます。その際、この式ではA,Bについて何も言っていないのでAとBは交換可能というところから「あの式」が誘導されたと思っています。AとBは交換可能ということはずっと基本前提ではなかったのでしょうか。 ”頻度主義”と言われるのは、実際のデータを使って確率の実現値を求めて議論していくという言わば、帰納法ということでしょうか。そして一方でそれとは対比的な意味でベイジアンは演繹的に議論するということなのでしょうか。 本を読んで疑問がいろいろ出てきてしまいます。一旦疑問を封じた方が先に進めるものなのかも知れませんが。