- 締切済み
いくつのデータをサンプリングすればいいか?
数学の初心者です。 あるサンプルデータの配列Aがあり そのA配列の平均値をA'とします Aのデータはいくつでもサンプリング可能なデータです。 このとき、A'を指定の範囲に収めたいという要望が会社の上司からあり、 A'がその指定の範囲に収まる確率をBとして いくつのデータをサンプリングすればいいか、確率Bとともに提示せよと、上司から言われました。 どう計算すればよいのでしょうか? 提供できる情報に足りない要素があれば仰って下さい。
- みんなの回答 (2)
- 専門家の回答
みんなの回答
- kamiyasiro
- ベストアンサー率54% (222/411)
いやいや、ブラックでなくて、まじめに考えましょう。 きっと、上司の言っていることを聞き間違えているのでしょう。 いま、工程変更があったとします。 私たちは、以前の工程と同等であることを証明したい。 サンプルの平均が従来と比較して、Δx の範囲にあればOKだと言える。 とはいえ、サンプルの平均が Δx の範囲内でも、 もしかすると本当は従来とは異なっているかもしれない。 その呪縛から逃れるには、n増しするしかありません。 どこまでn増しすれば良いか。 ここからが本題です。 従来とは異なっているかもしれないのに、Δx の範囲内だからOKだとしてしまうのを 「ぼんやり者のあやまり」「第二種の過誤」βと言います。 今のご質問は、新しい平均がその範囲に収まる確率は、となっていますが それは通常95%としています。つまり、本当はOKなのに、違うと言ってしまう過ち、 「あわて者のあやまり」「第一種の過誤」αは5%としています。これは世間常識です。 でも、本当に怖いのは、異常品なのにOKと言う、病気なのに見逃す、といったβなのです。 サンプル数を増せば増すほど、βは小さくなります。通常これを10%になるよう、 サンプル数を稼ぎます。 (1-β)を検出力と言います。 きっと、上司は、βの確率を聞いているのだと思いますよ。 なお、計算は面倒なので、統計ソフトを使って下さい。
- stomachman
- ベストアンサー率57% (1014/1775)
答(A'の範囲)が先に決まっていて、「これこれのデータを平均したら、ほら、見事この範囲に入ります!」と言うために都合の良いデータを、沢山のデータの中から取捨選択して並べろ、という話ですよね。 これは「恣意的選択」と呼ばれる捏造です。捏造だということを自覚していないから、実直な部下に丸投げしてこんなところで無邪気にリークされる。その上司さんはいずれ会社を潰すようなトラブルを起こすかもね。 どうせ捏造をやるんなら勝手に数値を作ればいいわけで、わざわざサンプリングなんて手間を掛ける必要もないわけですが、一体どこのブラック企業ですか。