- 締切済み
平均値の誤差の求め方は?
平均値の誤差を見積もりたい考えています。 ただ、抽象的な話では私には難しいので具体例をあげて 質問させてください。 ========== 日本国民男性20歳の平均身長を求めたい。 条件にある人を無作為に1000人集めて身長を測定すると、 平均=170cmで、分散=10cmとなった。 日本国民男性20歳の人は100万人おり、 身長の測定誤差は、0.5cmと仮定してください。 ========== 「日本国民男性20歳の平均身長」は、170cmに であると言ってよいと思いますが、この平均身長の誤差は どのように見積もればよいでしょうか? ここでいう誤差は、10万人の人、全員を集めて、 (測定誤差がなく)測定した身長の平均を真の値として、 そのずれを見積もりたいと考えています。 例えば、信頼度99%で、平均身長は170cm±Xcmと いうときの、Xの値をどのように計算すればよいのでしょうか? ちょっとネットで調べて自分なりには以下の計算式になるのでは ないかと考えています。 X=2.58 x 0.5cm / sqrt(1000) = 0.04 cm ただ、これが正しいか少々不安です。 理由は、Xが測定誤差(0.5cm)より小さくなってしまうことと 全母集団の数値(10万)を用いていない点にあります。
- みんなの回答 (4)
- 専門家の回答
みんなの回答
- gootaroh
- ベストアンサー率47% (396/826)
よく、アンケートなどで統計学的に意味のあるサンプルの大きさを計算する際に、次のような算式を用います。 ・係数=ABS(NORMSINV((1-信頼率)/2) ・サンプルの大きさ=ROUNDUP(母集団の大きさ/((要求精度/係数)^2*(母集団の大きさ-1)/(母比率*(1-母比率))+1),0) この場合、 ・「係数」は、「信頼率」が0.99なので、2.58となります。 ・「母集団の大きさ」は1000000(100万)です。 ・「母比率」は一般的に0.5を用います。 答えである「サンプルの大きさ」が1000なので、逆算すると、「要求精度」4.1%が算出されます。 「要求精度」とは、許容できる最大誤差のことなので、±約2%(±なので4.1%の半分)ということでいかがでしょう? (単位がcmでないので、回答になっていないと思いますが・・・ごめんなさい)
- stomachman
- ベストアンサー率57% (1014/1775)
もし身長1億メートルの人が一人でもいたら、その人がサンプルに入るかどうかで平均は全く違ってしまう。だから、分布の形を(未知ではあるけれど)なんらか仮定しないと、話は全く進みません。 例えば、正規分布を仮定できるときには、F分布(あるいはt分布)が、以下のようにして利用できます。 母集団が正規分布(平均m,分散σ^2)に従うとします。そこからサンプルxi (i=1,2,…,N)を取ったとすると、 v = サンプルから計算した「母集団の平均の不偏推定量」 = Σxi / N u^2 = サンプルから計算した「母集団の分散の不偏推定量」= Σ((xi-v)^2) / (N-1) について、 y = N ((v - m)^2)/(u^2) は自由度が(1,N-1)のF分布に従います。(また、√yは自由度N-1のt分布に従う。) Nが大きいときには、自由度(1,N-1)のF分布は、自由度(1,∞)のF分布で代用して構わない。すると自由度(1,∞)のF分布の5%点は3.84なので、95%の信頼度で y≦3.84 であると言えます。 つまり、 |v - m| ≦ √(3.84(u^2)/N) これで「サンプルから計算した平均v」が持つ誤差の程度が分かります。 さて、測定値自身が標準偏差0.5cmの誤差を持つとするとどうか。誤差に偏りがない(誤差の平均が0だ)とすると、Nが非常に大きいときにはvには影響しません。しかしuには影響があります。身長の大きさと測定誤差が無相関だと仮定し、測定誤差があるときの母集団の分散の不偏推定量」をu1^2とすると、 u1^2 = u^2 + (0.5)^2 となりますから、この関係式を使ってサンプルの実測で得たu1^2からu0^2を計算すれば、vの誤差の程度が分かります。(うるさいことを言えば、この関係式の誤差まで評価しなくちゃいけませんけれども、Nが大きいときには問題ないでしょう。)
- hitokotonusi
- ベストアンサー率52% (571/1086)
1です。質問をよく読んでいませんでした。 測定対象がある決まった分布に従うものであれば#1でいいのですが、人の身長となると決まった分布に従うというものではないので、統計的にどうこうはいえません。 平均が170cmで、【分散】が10cm^2であるならその場合の結果の表記は標準偏差sqrt(10)~3cmを使って、±3が標準偏差であることを明記した上で 170±3[cm] とするしかないですね。ただし、分布が正規分布ではないので±3cmが何%の信頼区間となるかはいえません。そもそも、下記のとおり信頼区間という考え方が成立しません。 >身長の測定誤差は、0.5cmと仮定してください。 この0.5cmは測定の精度ではありますが、個人差による身長のばらつきとは何の関係もないので使いません。これは測定値の有効数字を決めるのに使用しますが、今の場合は測定精度よりも個人差のほうがはるかに大きいでしょう。 また、 >平均値の誤差を見積もりたい考えています。 ということですが、身長のばらつきは誤差でも不確かさでもないので、これが目的なら人の身長は例として不適切です。
- hitokotonusi
- ベストアンサー率52% (571/1086)
【平均値】の誤差(不確かさ)ですね? はなせば長くなりますが、データ数をnとすれば、 平均値の分散=(測定値の分散)/(n-1)、平均値の標準偏差=sqrt(平均値の分散)で、平均値の不確かさは分散ではなく標準偏差を使ってあらわします。 念のためですが、測定値をxi、平均を<x>として 測定値の分散=Σi(xi-<x>)^2/n =<x^2>-<x>^2 xの単位がcmなら、分散の単位はcm^2です。 >分散=10cmとなった。 単位が間違っていて分散=10cm^2であるなら、平均値の標準偏差σは σ= sqrt(10/999) ~ 0.1[cm] 分散が間違いで10cmが標準偏差なら σ=10/sqrt(999) ~0.3[cm] 信頼度99%なら±2.58σ