- 締切済み
サンプルの離散値化による平均値の誤差はどれくらいか
先日、質問の中に 「整数でサンプルを取って得た平均値は、小数点以下は意味がない」 という意味の文章があったので、私は「そんなことはない」と書きました。 質問者の意図からは少しずれましたが…。 (http://oshiete1.goo.ne.jp/kotaeru.php3?q=494822) それはいいのですが、その後、 「サンプルで得た平均値は、真の平均値と正確に同じか?」 という疑問が湧き起こってきました。 事前の仮定として、確率変数は正規分布N(μ, σ^2)するとします。 (↑これも多少問題はあるけれど) サンプル数は十分に多く、連続量として取り扱えるものとします。 サンプル値を四捨五入して整数として取り扱い、得られた平均μ0が、 真の平均μと一致するかどうかです。 正規分布は左右対称だから、 μが整数の時には一致することはわかります。 またμの小数部分が0.5だったときも、同様に一致することはわかります。 問題はその中間です。 誤差が出るにしても、それほど大きくないことは常識でわかるのですが、 真に一致するかどうかわかりません。 統計学は大学の時に(簡単に)やったのですが、これについては調べられませんでした。 自分で積分しようかとも思ったのですが、積分は苦手なので…。 それで、質問ですが、 ・この値は正確に一致するのか? ・誤差があるとすれば上限はどれくらいか? ・これについて定理があるとすれば、その定理には何か名前が付いているか? を知りたいのです。 よろしくおねがいします。
- みんなの回答 (4)
- 専門家の回答
みんなの回答
- nubou
- ベストアンサー率22% (116/506)
質問の意味が難解なので勝手に解釈して質問と回答を提示してみます 質問: 確率変数Xの密度関数をp(x)としたとき Xを四捨五入してできる確率変数Yの密度関数q(y)と平均λを求めよ 回答: q(y)= Σ(-∞<n<∞)・δ(y-n)・∫(n-0.5<x<n+0.5)dx・p(x) λ=∫(-∞<y<∞)dy・y・q(y)= Σ(-∞<n<∞)・n・∫(n-0.5<x<n+0.5)dx・p(x) なお ψ(n)=∫(n-0.5<x<n+0.5)dx・p(x) は数値計算するしかありません
- nubou
- ベストアンサー率22% (116/506)
確率変数X1,・・・,Xnが皆N(μ,σ^2)の正規分布をとり 確率変数W1,・・・,Wnが皆密度関数w(x)の一様分布をとり (|x|<0.5でw(x)=1であり0.5<|x|でw(x)=0である) X=(X1+・・・+Xn)/nとし W=(W1+・・・+Wn)/nとし Y=X+Wとすると XはN(μ,σ^2/n)の正規分布をし Wは平均0,分散1/12/nの確率分布をし 従って Yは平均μ,分散(σ^2+1/12)/nの確率分布をする 従って 0<σの大きさがどうであっても小さくとも n→∞で分散が0になりYの密度関数→δ(y-μ)であり nが限りなく大きくなるとYは限りなくμしかとれなくなる
- nubou
- ベストアンサー率22% (116/506)
確率変数X1,・・・,Xnが皆N(μ,σ^2)の正規分布をすると Y=(X1+・・・+Xn)/nはN(μ,σ^2/n)の正規分布をします だからnが大きくなるとYはμ馬鹿利を取るようになるのです つまりn→∞とするとYの密度関数p(y)→δ(y-μ)となるのです 極限ではμ市か取れなくなるのです なおN(μ,σ^2/n)は畳み込み積分すればでます
- pancho
- ベストアンサー率35% (302/848)
かなり前になりますが、 「どんな分布を持った母集団でも、複数のサンプルを抽出してその平均を求めると、その値は正規分布する」 という定理を見たことがあるのですが、ご存知でしょうか? つまり、母集団が正規分布していなくても、例えば二項分布・ポアソン分布などであっても、複数個の平均値を統計処理すると正規分布をとなるということなのですが、今考えると「複数」というのはある場合は2個、べつの場合は3個と個数自体を特定してはいけない気がします。 この定理が真ならば、正規分布の平均は、元の母集団の平均と一致するので、質問の答えが「一致する」になりそうですが...。 以上。
お礼
回答ありがとうございます。 ですが、私の考えている問題と少し違うようです。 考えているのは、 「サンプル数が無限。 一方は、値を正確に(実際上は不可能だが)記入する。得られた平均値がμ。 一方は、値を整数に四捨五入して記入する。得られた平均値がμ0。 このときμとμ0は最大でどのくらいの差があるか」 というものです。 どっちかというと確率と言うよりも積分の問題ですが、 ガウス記号[]が入ってくる積分なので、難しいです。 統計学の方で、何か名前が付いた定理があるかなと思ったのですが…。
お礼
回答ありがとうございます。 ですが、すみませんがこれも私の問題と違うように思います。 (#1のお礼の続き) 考えている内に、「一致しない」例を思いつきました。 真の平均μが1/8、標準偏差σも1/8とすると、 -0.5~+0.5の区間には、サンプルの約99.85%が含まれます。 これらの値がすべて「0」としてカウントされるので、 μ0の値は1/8よりも0.0に非常に近くなるはずです。 これは、「離散値の間隔に比べて、標準偏差がかなり狭い」条件ですが、 標準偏差を使った式で誤差の最大値が決まるように予想しています。 なにか上から押さえられる式があるのではと思うのですが。