• 締切済み

確率と試行回数について

たとえば,10回試行を行うよりも1万回試行を行った方がその結果の信頼度は高くなると思います. また,1万回よりも1億回の試行の方が信頼度が高くなると思います. そこで,ある処理を行うと x%でAがBになり,(100-x)%でAがCになる場合(xは未知) 試行回数がn回の時,得られた結果の信頼度がどの程度であるかを求める式を教えていただけないでしょうか. また,その信頼度から誤差がどの程度であるかを求める式も教えてください. よろしくお願いします.

みんなの回答

回答No.6

Wikipediaへのリンクを紹介しておきましたが、一応補足説明しておきましょうか。尤度に関しては、数式、あるいは概念的にいきなり理解するのは難しいんで、グラフを作成してみました。「これが貴方の訊きたかった事ではないか?」と言う事です。一応考えてみてください。 まず、二項分布B(n,p)に関して言うと、組み合わせをcombination(n, x)、成功確率をpと表記した場合、数式は次のようになります。 B(n, p)=combination(n, x)*p^x*(1-p)^(n-x) 一方、この尤度関数はL(p|x)とした時、次のように表記します。 L(p|x)=combination(n, x)*p^x*(1-p)^(n-x) 右辺比べてみると分かりますが、実は二項分布の場合ですと、「全く数式そのものは変わらない」んです。思わず「ふざけんな!!!」って言いそうになるんですが、実はこの二つは概念が違う、のです。数学的に言うと、「何の関数なのか」と言うのが丸っきり違うのです。 前者は「pは与えられていて固定されている」と考える。つまり、xは色々な値を取れるので、数学的には「xの関数」なのです。 (あくまで「数学的な形式上は」と言う事です。意味的には数学で言う関数とはとても思えない代物なんですが。) 後者は逆に、「xは与えられていて固定されている」と考える。これは逆にpが(確率、と言う前提上)0~1の範囲で好きな値を取ることが出来る「pの関数」です。これも「数学的な形式上は」と言う事ですが、取り合えずここは押さえておいてください。 さて、全く同じ式でも「どちらを変数として考えるのか」でグラフの概形はガラっと変わります。これが、少なくとも「確率分布」と「尤度関数」の見た目の違いを生み出します。ここまで良いでしょうか? ところで、 http://okwave.jp/qa4623344.html を見ると、質問的には >たとえば,AがB,Cどちらかになる確率は不明のとき >試行回数が1000回の時に >A→B になった回数が570回 >A→Cになった回数が430回であったとき と書いてますね。これはxが不明なのか、はたまたpが不明なのか?どっちでしょう? これは字面そのもの受け取る限り、「AがB,Cどちらかになる確率は不明」って言ってますね。と言うことはこれが示す事は「pが不明」なのです。 一方、 >A→B になった回数が570回 >A→Cになった回数が430回であったとき と言ってて、これは普通の確率分布で考えると明らかに確率変数の事を言ってるんですが、ところが「回数が」って言ってる限りもう既に確率「変数」じゃないんです。回数は「既に固定されています」。これ以上動きようがない。 つまり、この状況ですと、 ・データは与えられてハッキリとしている。 ・一方、パラメータたるpは分からん。 って事です。推定したいのはp。つまり、ここで議論しなきゃいけないのは、先ほどの例から見て分かる通り、「尤度関数」の方なんですよ。分かりますかね? とまあ、ここで、一回問題に沿った二項分布のグラフでも…そうですね、エクセル辺りで簡単に作れるでしょうから、そっちはご自分で作成して見てみてください。ここでは尤度関数のグラフを提示しておきます。「全く違う形のグラフだ」ってのが分かるでしょう。 違いは他にも、 ・二項分布のグラフは階段状で、いわゆる度数分布表(ヒストグラム)みたいだけど尤度関数は滑らかな曲線である。 ・横軸の範囲が違う。二項分布の確率分布のグラフは0~1,000だが、その尤度関数は0~1、である。 ・一番の違いは縦軸のラベルと横軸のラベルである。尤度関数の場合、横軸が「確率」になっていて、縦軸が「尤度」となっている。 これらの差を確認してみてください。そして尤度関数は繰り返しますが「確率分布」ではないのです。何故なら、一般的に尤度関数は定義域全域に渡って積分しても1になる保証はありません。確率分布は「1になる」のが定義ですんで、この辺は数学的には対照的なんです。 そして、尤度のもっとも大きい部分が何を表すのか、と言うと「最ももっともらしい」(ヘンな日本語ですが)確率がこれだろう、と言う値を示しています。尤度の一番デカいところから辿って、それが指している確率の値が何になるのか……。こう言う発想を「最大尤度推定法」、略して「最尤法」と呼びます。 この発想のバックグラウンドは「今起きた事象はもっともあり得るパラメータ(確率)が生んだ結果だ」と言う考え方、です。つまり、最大の尤度(もっともあり得そうな指標)が示している確率が、例えば「A→B になった回数が570回」を生み出したんだろう、と考えます。尤度が小さい確率が「A→B になった回数が570回」は生み出しづらいだろう、って事ですね。 つまり、この考え方で言うと、「誤差が「±5%である」なんて考え方はそもそも生じない、のです。 そして、この問題の場合、結論はあっけない程つまらなく簡単で……要するに「試行回数が1000回の時にA→B になった回数が570回」を「成功」と考えるのなら、570/1000が「最大尤度の」成功率、って事なんですよ。屁理屈みたいですが(笑)、1000回中570回成功した、って結果が出たのなら、成功率570/1000と言うパラメータがこの結果を生み出したのが「もっともあり得る」と言う結論になるのです。 この結果に納得しない、と仰るのなら、#5さんが示唆しているような「ベイズ統計」へと一歩踏み出さないとならないかもしれません。が、恐らくそこまでいくと、やっぱりOKWaveとか教えて!gooで気楽に質問出来る範囲から大きく逸脱するんで、専門書買って読んだ方がよろしいでしょうね。

  • arrysthmia
  • ベストアンサー率38% (442/1154)
回答No.5

もう、読んで居られないかも知れませんが… A No.2 の答え 99.86% は、 No.1 補足の質問 1 で訊いているものとは、別のものを求めています。 A No.1 No.2 の説明の如く、 「A→Bになった回数」は、平均 1000x、分散 1000x(1-x) の二項分布に従うのですが、 その実現値が 570 であったことからは、x の確率分布を特定することはできず、 したがって、0.52 < x < 0.62 となる確率も求まりません。 試行回数が 1 の場合で考えてみて下さい。   確率 x で成立する事象を一回だけ試行してみたら、成立したとする。   このとき、0.52 < x < 0.62 である確率は、どれだけか。   (成立しなかった場合で考えてもよい。) 求まる訳がないでしょう? 例えば、x の事前確率分布を 0 < x < 1 の一様分布などと仮定すれば、 この条件の下での事後確率分布を求めることはできますが…

回答No.4

いや、これは面白い質問なんですが……ぶっちゃけ、簡単に答えるのは難しいですよ。結構難問じゃないか、と思います。 大体「信頼度」って何でしょうか?その定義は突き詰めると結構難しいと思います。信頼度から誤差がどの程度あるか分かる?分かりますかね?これはかなり難問です。 そもそも「信頼度=信頼区間」じゃないですし。信頼区間、ってのは推定の文脈に於いて、「手法の信頼性」を問うているんで、決して推定される母数(パラメータ)の「信頼度」の話をしてるんじゃないんです。この辺、結構勘違いされるんです。 はてさて。マジメに知りたい、と言うのなら、OKWave/教えてgoo!辺りで回答求めて済むような話じゃない、と思います。残念ながら専門書買ってそれ読むしか無いでしょうね。 質問読んで解釈する限り、問うているのは最低でも「確率分布」からははみ出していますね。恐らく。「ちょっとした思いつきで」そこに考えが至ったのなら凄い、とは正直思いますよ。ただし、初等統計学で扱われる確率分布の範疇じゃなくなってきていますね。これは「尤度」って概念知らなきゃなんないと思います。 んで、尤度の説明がまた大変なんですよ(苦笑)。取り合えずWikipediaの解説でも読んでみてください。 尤度関数: http://ja.wikipedia.org/wiki/%E5%B0%A4%E5%BA%A6%E9%96%A2%E6%95%B0 これは単純に言うと、「推定されたパラメータの"もっともらしさ"」を計る指標です。この"もっともらしさ"を「信頼度」と捉えるなら、それはそうかもしれません。ただし、「誤差が出る」とか言うような類の指標じゃないですね。また、「尤度=××%」とはなりません。 まあ、この辺を取っ掛かりとして本格的な数理統計の本を読むしかないんじゃないのかな、と思います。

  • sanori
  • ベストアンサー率48% (5664/11798)
回答No.3

はい。それで合っています。 ちなみに、 1000回のときの標準偏差は、15.66 100回のときの標準偏差は、4.95 ということになりましたが、 この2つには、どういう関係があるかというと、 試行回数を10倍にしても、標準偏差は√10倍にしかならない、ということを表しています。 4.95×√10 = 15.66 ということは、逆に言えば、 ある、少ない試行回数での標準偏差をσo であるとして、 その標準偏差σo では大きすぎて不満であるとき、 試行回数に対する標準偏差の割合をN分の1にしたければ、 試行回数をNの2乗倍にすればよいということです。 実は、これ、先程の補足の2番目のご質問の答えになってます。 つまり、目標の信頼度を得るための試行回数の決定のためには、 まず最初に、何回か試行しなくてはいけないんですね。 (そもそも、ある程度試行しなければ、pの値さえも未知だということもありますが。) 今回は、これまでとします。 以上、ご参考になりましたら。

TpyLgW
質問者

お礼

ありがとうございました. 非常にわかりやすくとても参考になりました.

  • sanori
  • ベストアンサー率48% (5664/11798)
回答No.2

>>> 考え方は非常に参考になったのですが,しばらく数学と離れていたためなのかまだ理解するに至っておりません. そこで,よろしければ具体的な数字を使った計算をお願いできないでしょうか. ありゃ。そうですか。 少なくとも、補足質問の1番は、前回回答の内容を追っていくだけでわかるものですから、 自力で何の計算も行うことなく丸投げで質問されるのは、非常に残念です。 >>> たとえば,AがB,Cどちらかになる確率は不明のとき 試行回数が1000回の時に A→B になった回数が570回 A→Cになった回数が430回であったとき ということは、 p=0.57 n=1000 分散V = np(1-p) = 1000×0.57×0.43  = 245.1 標準偏差σ = √V = √245.1 = 15.66 です。 >>>1.AがBになる確率は52%~62%(結果の±5%)であるといえる信頼度は何%なのか ±5% ということは、具体的には ±50回 です。 50がσの何倍かといえば、 50÷15.66 = 3.20 です。 ですから、正規分布表で標準偏差の3.20倍になる数字を探します。 左の3.2 と 上の0 とが交わるところは、.4993 です。 0.4993 × 2 = 0.9986 → 信頼度は99.86% >>>2.また,「±5%のである」といえる信頼度が90%になる時の試行回数は何回か これは、別の質問として投稿してください。

TpyLgW
質問者

お礼

具体的な数字でのご回答ありがとうございます. 一応自分でも計算してみたのですが, σを求めてその後どうしていいのかわからず詰まってしまいました. 確認のために p=0.57 n=100 の時は v=100*0.57*0.43 v=24.51 σ=√24.51 σ=4.95 ±5%ということは5回なので 5 / 4.95 = 1.01倍 表を参照して0.3438になる. よって信頼度は68.76になる. ということでよろしいでしょうか? 2については新たに質問させていただくことにします. 本当にありがとうございました.

  • sanori
  • ベストアンサー率48% (5664/11798)
回答No.1

こんにちは。 p = x/100 n = ご質問文にあるn の二項分布です。 下記の記事の右側の表をご覧になってください。 http://ja.wikipedia.org/wiki/%E4%BA%8C%E9%A0%85%E5%88%86%E5%B8%83 分散Vは、 V = np(1-p) です。 そして、 表には載っていませんが、標準偏差σ(シグマ)は、 σ = √V です。 この、標準偏差が、信頼度を68%と設定したときの誤差を表す数値です。 (つまり、誤差の大きさをどう設定するかによって、信頼度は変わるということです。) AがBになった回数をNB、AがCになった回数をNC、ばらつきをεと置けば、 ばらつき込みの NB の表示は、 NB ± ε ばらつき込みの NC のばらつきは、 NC ± ε と書けます。 二項分布を正規分布に近似できるとして・・・ ε=σ と決心すれば、±ε の範囲内から外れるものは約68%が入り、 ε=2σ と決心すれば、±ε の範囲内に約95.4%が入り、 ε=3σ と決心すれば、±ε の範囲内に約99.74%が入ります。 正規分布表 http://www.koka.ac.jp/morigiwa/sjs/standard_normal_distribution.htm 0.3413×2 = 0.6826 → 68% 0.4772×2 = 0.9544 → 95.4% 0.4987×2 = 0.9974 → 99.74% 逆に、 「信頼度が90%になるようにするには、誤差の表示を標準偏差の何倍にすればよいか」 と考えるのであれば、 表の中から0.45になるべく近い数字を探せば良いです。 表の中に、.4495 と .4505 があるので、0.45は、そのちょうど中間です。 そこから左端に行けば、1.6、 上端に行けば、0.04と0.05で、その間を取れば0.045。 よって、 ε = σ×1.655 とすれば、信頼度90%の範囲になります。 以上、ご参考になりましたら。

TpyLgW
質問者

お礼

ご回答ありがとうございます. 考え方は非常に参考になったのですが,しばらく数学と離れていたためなのかまだ理解するに至っておりません. そこで,よろしければ具体的な数字を使った計算をお願いできないでしょうか. たとえば,AがB,Cどちらかになる確率は不明のとき 試行回数が1000回の時に A→B になった回数が570回 A→Cになった回数が430回であったとき 1.AがBになる確率は52%~62%(結果の±5%)であるといえる信頼度は何%なのか 2.また,「±5%のである」といえる信頼度が90%になる時の試行回数は何回か を求める方法を教えていただけないでしょうか.

関連するQ&A