• 締切済み

いくつのデータをサンプリングすればいいか?

数学の初心者です。 あるサンプルデータの配列Aがあり そのA配列の平均値をA'とします Aのデータはいくつでもサンプリング可能なデータです。 このとき、A'を指定の範囲に収めたいという要望が会社の上司からあり、 A'がその指定の範囲に収まる確率をBとして いくつのデータをサンプリングすればいいか、確率Bとともに提示せよと、上司から言われました。 どう計算すればよいのでしょうか? 提供できる情報に足りない要素があれば仰って下さい。

みんなの回答

回答No.2

いやいや、ブラックでなくて、まじめに考えましょう。 きっと、上司の言っていることを聞き間違えているのでしょう。 いま、工程変更があったとします。 私たちは、以前の工程と同等であることを証明したい。 サンプルの平均が従来と比較して、Δx の範囲にあればOKだと言える。 とはいえ、サンプルの平均が Δx の範囲内でも、 もしかすると本当は従来とは異なっているかもしれない。 その呪縛から逃れるには、n増しするしかありません。 どこまでn増しすれば良いか。 ここからが本題です。 従来とは異なっているかもしれないのに、Δx の範囲内だからOKだとしてしまうのを 「ぼんやり者のあやまり」「第二種の過誤」βと言います。 今のご質問は、新しい平均がその範囲に収まる確率は、となっていますが それは通常95%としています。つまり、本当はOKなのに、違うと言ってしまう過ち、 「あわて者のあやまり」「第一種の過誤」αは5%としています。これは世間常識です。 でも、本当に怖いのは、異常品なのにOKと言う、病気なのに見逃す、といったβなのです。 サンプル数を増せば増すほど、βは小さくなります。通常これを10%になるよう、 サンプル数を稼ぎます。 (1-β)を検出力と言います。 きっと、上司は、βの確率を聞いているのだと思いますよ。 なお、計算は面倒なので、統計ソフトを使って下さい。

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.1

 答(A'の範囲)が先に決まっていて、「これこれのデータを平均したら、ほら、見事この範囲に入ります!」と言うために都合の良いデータを、沢山のデータの中から取捨選択して並べろ、という話ですよね。  これは「恣意的選択」と呼ばれる捏造です。捏造だということを自覚していないから、実直な部下に丸投げしてこんなところで無邪気にリークされる。その上司さんはいずれ会社を潰すようなトラブルを起こすかもね。  どうせ捏造をやるんなら勝手に数値を作ればいいわけで、わざわざサンプリングなんて手間を掛ける必要もないわけですが、一体どこのブラック企業ですか。