• ベストアンサー

誤差範囲を小さくする方法

全体の95%が平均値の±10%に入る母集団があったとして、(平均値が50だとした場合、45~55の間に全体の95%が入る。) そこから、サンプルを3つ取り出して、真ん中の値を見たとき、その値と平均値との誤差は95%の確率で±何%になるか。 (サンプルが47,51,52の場合、51と平均との誤差は2%。これを無数に繰り返したときに95%の確率で言える 誤差。) 上記は私の仕事上の悩みです。 母集団の平均値が分からない状態で、 なるべく平均値に近いサンプルを得たいと考えています。 サンプルの取得に非常に手間が掛かるので、サンプル数は3つ以下にしたいと考えています。 また、サンプルの平均値を用いるのもある事情があり難しいです。 上記の方法以外にもうまい方法がございましたら、 ご教授をお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
  • 0shiete
  • ベストアンサー率30% (148/492)
回答No.5

#2の方にしたがって、Excelにて数値計算をしてみました。 ==やり方== 1)A列に1行目から0->999の数字をたてに並べる 2)B列1行目に =2.55*SQRT(-2*LN(RAND()))*COS(2*PI()*RAND())+50 を入れる(45以下、55以上になる確率が5%の正規分布) これを下にドラッグし、999の横まで同じ式を入れる 3)E列、F列、G列1行目に =VLOOKUP(INT(RAND()*999),$A$1:$B$1000,2,) を入れる(3つ取り出すところに対応します) これを下にドラッグし、999の横まで同じ式をいれる。 4)I列1行目に =MEDIAN(E1,F1,G1) をいれる(3つのうち、中央値をとる作業です) これを下にドラッグし、999の横まで同じ式を入れる。 こうして、I列に一連の操作後の分布ができます。 別の適当なセルに =STDEV(I1:I1000) といれるとI列の標準偏差(約1.65)が計算できます。 これとB列の標準偏差 =STDEV(B1:B1000) の比をとると、およそ0.65ぐらいになります。 つまり、もとの分布より平均値近くに集まった 分布ができます。 シミュレーションですので、 シートを再計算させて、値を見てみてください。 また、[ツール]-[分析ツール]で、統計量や ヒストグラムを見てみてください。 (ご質問の一連の操作後の分布が正規分布を保っているのかどうか、チェックする必要があるかと思いますが、目安にはなるのではないでしょうか?)

yoyogi
質問者

お礼

ありがとうございます。 なんとかできそうな気がしてきました。 私の稚拙で心許ない質問にご対応いただき 本当にありがとうございます。

すると、全ての回答が全文表示されます。

その他の回答 (5)

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.6

 「累積分布φに従う母集団からサンプルを3個とって、真ん中のを拾ったとき、その分布は?」という問題として考えてみました。  そうやって取った3つのうちの中央値がx~x+dxの範囲(以下、区間I(x)と書きます)に入る。これはどういう時に起こるか。  一回のサンプリングでサンプルの値がxより小さい確率はφ(x)、サンプルの値がxより大きい確率は(1-φ(x))。ゆえに一回のサンプリングでサンプルの値が区間I(x)=[x,x+dx]に入る確率は φ(x+dx)-φ(x) です。だから、3つのサンプルのうち丁度一つだけがI(x)に入り、しかもそれが3つの内の中央値であるという確率は 6(φ(x+dx)-φ(x))φ(x)(1-φ(x+dx)) となります。これをdxで割ってdx→0の極限を取ると、3回のサンプリングの内の中央値の確率密度関数は 6φ'(x)φ(x)(1-φ(x)) となります。  ついでに、一般に2n+1回のサンプリングで中央値を取り出した場合、その確率密度関数は (2n+1)((2n)Cn) φ'(x) (φ(x)(1-φ(x))^n ここにpCqはp個の中からq個を選ぶ組み合わせの場合の数=p!/(q! (p-q)!) です。  元の分布が例えば平均0分散1の正規分布だとすると、φ(x)はexcelではNORMSDIST(x)となり、またφ'(x)(これがガウス曲線のグラフになります)は、たとえば =NORMSDIST(x+0.001)-NORMSDIST(x-0.001))/0.002なんてやって計算できます。

yoyogi
質問者

お礼

>「累積分布φに従う母集団からサンプルを3個 >とって、真ん中のを拾ったとき、その分布は?」 >という問題として考えてみました。 こういう風に問題を表現できれば、良かったんですね。 私に統計的な素養が無かったので、 問題の本質が分かりづらく皆様にはご迷惑をお掛けしたしました。 ご回答が正解だとは思うのですが、 私が文系のため、理解するだけの力がございませんでした。今後はその辺りも伝わるように質問をさせていただきます。 ありがとうございました。

すると、全ての回答が全文表示されます。
noname#21649
noname#21649
回答No.4

>分からないものでしょうか? 既にあるように計算自体は比較的簡単にできますが.私が行うと計算間違いをするので.回答しません。

すると、全ての回答が全文表示されます。
  • 0shiete
  • ベストアンサー率30% (148/492)
回答No.3

補足をいただきたいのですが、 無数に繰り返すことができるなら、 サンプルは3つだけというわけではないのでは? 一回に3つかもしれないですが、別の箇所に 数字を記録しておけば、たくさんサンプルを とったことになるのではないでしょうか? そして、その記録をもとに、平均値をもとめ、 それに近いシートがでてくるまでサンプルを繰り返せばよいのではないでしょうか?

yoyogi
質問者

補足

ご返答が遅れ大変申し訳ございません。 シートの出力に時間が掛かるので、 3回がMAXと考えております。 シートの内容に誤差があり、それが±10%となっております。 イメージとしては、計測器が近いのかもしれません。 例えば測定誤差が10%ある体脂肪計で3回測定した場合の中央値の誤差を知りたいということです。 よろしくお願いいたします。

すると、全ての回答が全文表示されます。
noname#108554
noname#108554
回答No.2

>この場合の理論的な誤差が何%になるのか分からないものでしょうか? 分かると思いますよ、確率分布が分かっているなら。 そして、それが分散が有限な分布なら。 私は、Gauss分布を仮定して計算しようとしたのですが、 あまりきれいな式になりそうにないのでここには載せられません。 いっそのこと、モンテカルロ法でも使って求めた方が早いんじゃないでしょうか。

yoyogi
質問者

お礼

なるほど、力技で計算するという手があったんですね。 ありがとうございます。

すると、全ての回答が全文表示されます。
noname#21649
noname#21649
回答No.1

>なるべく平均値に近いサンプルを得たい より.層別サンプリングの話題です。 個のような場合には.具体的に何をサンプリングするか.という話になりますので.サンプリング技術の話題ですから.数学の範囲では.解答が困難です。 なお.統計が成立するためには.ランダムサンプリングが原則であり.ご指摘のように偏ったサンプリングをした場合には.一切の統計処理が無効になります(つまり.平均値が存在しない)。 したがって.統計処理を行わない.という.観点から行うのであれば.適当な標準を作り.この標準だけを測定すれば.常に平均値付近の値をえられます(データの捏造とも呼びます)。

yoyogi
質問者

お礼

分かりにくい質問ですみません。 そんな質問にもかかわらず、 ご回答いただきありがとうございます。

yoyogi
質問者

補足

なかなかうまく説明できないのですが、 サンプルとして取得した値(現実にはもの(データシート)になります)の内、 1つ(1枚)しか提供できない状況で、 何とか母集団の平均に近いものを選びだせないか 悩んだ末に 3つ(3枚)の内、中間にあたる1枚を 選ぶ方法を考えた次第です。 この場合の理論的な誤差が何%になるのか 分からないものでしょうか? (知識不足で文章がうまくまとまってなくて 申し訳ありません。)

すると、全ての回答が全文表示されます。

関連するQ&A