• ベストアンサー

確率要件を満たすためには・・・

確率要件を満たすためには・・・ 1000x1000の組み合わせのデータが4つあるとします。 ここからランダムにデータを抽出して評価するとして、 かつ抽出段階で”ゆらぎ”が発生するとします。 この時に、抽出したデータを元データと比較して 80%以上が合致していると断言するためには どの程度の試行が必要となるのでしょうか

質問者が選んだベストアンサー

  • ベストアンサー
noname#227064
noname#227064
回答No.3

ANo.2を見直してみるとイマイチな回答をしていたので、正誤判定の結果が二項分布に従い、帰無仮説を「正しく判定できる確率はp以下」、対立仮説を「正しく判定できる確率はpより大きい」として、有意水準α、検出力1-βでΔ以上の差を検出できるような試行回数を求めてみます。 試行回数nは正規分布近似ができるほど十分に大きいとすると、棄却限界は p+z√{p(1-p)/n} と書くことができます。 ただし、zは標準正規分布の100(1-α)%点です。 真の確率がp+Δのとき1-βの確率で p+Δ-z√{(p+Δ)(1-p-Δ)/n} 以上の値をとるので、必要な試行回数は p+z√{p(1-p)/n} <= p+Δ-z√{(p+Δ)(1-p-Δ)/n} すなわち (z/Δ)^2{√{p(1-p)}+√{(p+Δ)(1-p-Δ)}}^2 <= n を満たすnとなります。 例えば、p=0.8で有意水準α=0.05、Δ=0.05以上の差を1-βの確率で検出したいとすると、必要な試行回数は、 n >= (z/Δ)^2{√{p(1-p)}+√{(p+Δ)(1-p-Δ)}}^2 = (1.96/0.05)^2*{√{0.8*(1-0.8)}+√{(0.8+0.05)*(1-0.8-0.05)}}^2 = 880.7362 つまり881回試行する必要があります。 実際に棄却限界を求めると、帰無仮説が正しい場合724以下の値が得られる確率が0.9530であることから725が棄却限界で、真の確率が0.85以上の場合725以上の値を得られる確率は0.9879以上となります。

optiplex755
質問者

お礼

何度も回答ありがとうございます。 また、お礼が遅れまして、申し訳ありません。 ご教示頂いた内容を全て理解できたわけではありませんが その内容をベースに検討を進めていきたいと思います。

その他の回答 (2)

noname#227064
noname#227064
回答No.2

まとめると、こういうことでしょうか? 1.4つのデータがあり、データの形式は(0, 0)から(999, 999)までの1000x1000の組み合わせである。 2.試行の間、4つのデータの組み合わせは固定。 3.データを抽出すると、4つの組み合わせの一つがランダムに選ばれる。 4.選ばれたデータは、揺らぎにより値が変化する。 5.変化したデータは、(0, 0)から(999, 999)の組み合わせ以外の値も取り得る。 6.抽出されたデータのうち80%以上は(0, 0)から(999, 999)の組み合わせであって欲しい。 この考えて間違いなければ、二項分布又は正規分布で近似できるとして、(0, 0)から(999, 999)の組み合わせが(80+Δ)%のとき95%以上の確率で検出できるような試行回数を求めることでよさそうな気がします。 なので、簡便な方法として > ランダムな入力に対して揺らぎを通過させ > 正誤判定を行い、それを正規分布とした場合にその分布が標準偏差の2倍以内に納まっていれば > その統計データは有意と言える でも良いと考えます。 ただし、標準偏差の2倍以内ではなく+標準偏差の2倍以上の間違いだと思います。

noname#227064
noname#227064
回答No.1

すみませんが、具体例をだして説明していただけないでしょうか? > 1000x1000の組み合わせのデータが4つあるとします。 からしてよくわかりません。 (1, 23), (456, 78), (98, 765), (43, 21) というような形でしょうか? > ここからランダムにデータを抽出して評価するとして、 > かつ抽出段階で”ゆらぎ”が発生するとします。 とは、上の例の場合データを一個抽出した場合、(1, 23)が選ばれたとしても(2, 23)というように変化するということでしょうか? どういう"ゆらぎ"が発生するのでしょうか? > この時に、抽出したデータを元データと比較して > 80%以上が合致していると断言するためには 80%以上とは何に対して何が80%なのでしょうか?

optiplex755
質問者

お礼

ご回答ありがとうございます。 情報不足失礼致しました。 > (1, 23), (456, 78), (98, 765), (43, 21) > というような形でしょうか? はい。イメージとしては、このような形となります。 > どういう"ゆらぎ"が発生するのでしょうか? quaestio様が書かれているように、”揺らぎ”=値が勝手に変化してしまう という状態で間違いありません。 ただ、当初のデータ形式を0-999までの数字の組み合わせとした場合には この範囲内に変化する場合もありますが、範囲外に変化することもあります。 しかし、ここで範囲内に揺らいだと仮定すると、揺らぎによる変化なのか 入力当初からそうであったのかを判定できないために、結果以下の正誤判定では 正しいと判定することになります。 > 80%以上とは何に対して何が80%なのでしょうか? 入力に対して揺らぎを通過した後で、入力値として取り得る範囲内に納まっているかを 検証する場合に、どの程度の試行で80%以上が納まると言えるかということが、 数学的な根拠付けができるなら、みなさまにお知恵を拝借したいと思い質問致しました。 質問後、自分で検討もしていたのですが、ランダムな入力に対して揺らぎを通過させ 正誤判定を行い、それを正規分布とした場合にその分布が標準偏差の2倍以内に納まっていれば その統計データは有意と言えるのかなと今は考えていますが、自信はありません。

関連するQ&A