• ベストアンサー

標本平均、分散、期待値・・・混乱しています。。。

統計の勉強をしていますが、 標本平均、分散、期待値とたくさん用語が出てきて、計算の仕方も混乱しています。 まず、標本平均x’(’は上の棒線) の期待値E[x']とは何を表しているのでしょうか? E[x]=npとの違いは?  pは確率 nは個数? あと、標本平均の分散V[x']=σ^2/nと 分散V[x]=npq  の違いが解りません。 i番目のV[xi]やE[xi]と言うのも出てきて更に混乱しています。 問題によって表し方が違うのでしょうか?

質問者が選んだベストアンサー

  • ベストアンサー
回答No.1

 標本平均は何千,何万ものサンプルの中から無作為(ランダム)に抽出(取り出す)したサンプルの平均のことを言います。(抜き取り検査などで使用)  もう一つ母平均というのがありますこれは上記のサンプル数全てにおいて平均を求めることを言います。この母平均はサンプル数が多くなると標本平均を使用してそのサンプルの平均を求めていきます。母平均はサンプルが少ないときに使用します 期待値  期待値とは平均のことです。EはExpectationの略です。E(x)=npというのは,分布平均を指していて,この質問だと二項分布の平均を指します。 標本平均の分散(標本分散)  標本によって抽出された,データにおいてのばらつきのことを指します。すなわちばらつき=分散です 分散を求めるとき平均を求めておかないと求めることができません。σ^2/nは1/nとσ^2を掛けたものです。 この式を見ると分かりますが1/nの部分は平均を求める式からきてます。平均からどのくらいばらついているのかを意味します。  つまりサンプルから平均を求めその平均を使ってデータの二乗と平均二乗の差を取ることでσを求めることができます。  分散=npq  これは,分布の分散を指します(二項分布)確率と統計には様々な分布関数が出てきます、二項分布,ポアソン分布,正規分布,指数分布などありますこれらはいろいろ特徴があり,使い分けます。 二項分布:失敗と成功、表と裏のような二つの可能性についての規則化し出されたのがこの分布で、平均npも分散npqも求められます。  ポアソン分布:単位時間において発生する出来事を分布化したもの平均分散ともにλ  正規分布:もし試験等で点数グラフ等で用いられる分布です(本当はすごく奥深いですが説明上ここまでにしておきます)  指数分布:機械等の故障率など求めるときに使用するグラフ分布です。平均は1/λ分散は1/λ^2 v[xi] E[xi]というのは,データの個数によって求められる分散と平均例えば10個の場合i=10です。10個のデータの分散と平均をもとめる意味です 問題によってiが変化してきますが一般化させた式を用いるときが多いのでiのままでi=1,2,3...,nというような表し方をしているテキストが多いかと思います。以上長くなりましたが概略は上記の通りです。最後に私は,博士課程の学生です。                       

その他の回答 (3)

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.4

[1] 何の話か  確率変数Yが他の確率変数A1, A2, …, Anによって Y = a1 A1 + a2 A2 + … + an An と書けて(a1, a2, … は定数)、しかもA1, A2, …, Anが互いに独立であるならば、 E[Y] = a1 E[A1] + a2 E[A2] + … + an E[An] V[Y] = ((a1)^2) V[A1] + ((a2)^2) V[A2] + … + ((an)^2) V[An] が成り立つ という定理はご存知でしょうか。ご覧になっている教科書のページは、この定理を応用しているところです。 [2] 標本と標本平均  同じ対象をn回測定して、得られたデータを順番に並べてワンセットにすることを考えます。このワンセットが標本で、(x1, x2, …,xi,…, xn)と表します。  標本平均とは、このワンセットについての平均 x' = (x1+x2+…+xn)/n のことです。 (なお、標本分散は「標本平均の分散」ではありません。標本分散(1/(n-1))Σ((xi-x')^2) (Σはi=1…nの総和)については、ご質問に記載がありません。ご覧の教科書のページでは、標本分散の話は関係ないからでしょう。) [3] 確率変数としてのxi  さて、このワンセットを作ることを無限回繰り返すと考えるのです。  すると、x1, x2, …, xnがそれぞれ無限回繰り返して測定されますから、それぞれを確率変数と考えることができます。例えばi番目の確率変数xiに注目すると、繰り返しによってxiは変化するけれど、期待値E[xi] と分散V[xi]を持ちます。  しかし、確率変数x1もx2も、元々同じものを測っているんですから、期待値も分散も全部同じになる筈です。期待値をp、分散をσ^2と書くと、 E[x1] = E[x2] = … = E[xi]= … = E[xn] = p V[x1] = V[x2] = … = V[xi] = … = V[xn] =σ^2  さらに、確率変数x1, x2, … , xnは互いに無関係(独立)です。 [4] 確率変数としてのx'  標本平均x'も繰り返しによって変化する確率変数です。[2]より x' = (x1+x2+…+xn)/n = (1/n) x1+(1/n) x2+…+(1/n) xn だから、標本平均x'の期待値と分散は、[1]の定理を使って E[x'] = (1/n) E[x1] + (1/n) E[x2] +…+ (1/n) E[xn] V[x'] = ((1/n)^2) V[x1] + ((1/n)^2) V[x2] +…+ ((1/n)^2) V[xn] と計算できます。さらに[3]を使うと E[x'] = E[xi] = p V[x'] = V[xi]/n = (σ^2)/n が出ます。 [5] 教科書に於いて、期待値pが「確率」と呼ばれていることについて  「同じ対象を測定」する話だと[2]で申し上げました。ご覧の教科書では、この測定対象はもっと具体的に決められています。それはすなわち「確率pで1、確率qで0になるもの(ただしp+q=1)」です。例えば、「ある偏ったコインを投げると確率pで表が出る。表が出たら1と記録する。裏なら0と記録する」という測定を行う訳です。だから、xiは0か1の値を取る確率変数であり、xiの期待値E[xi]は表が出る確率と等しくなります。 [6] 二項分布について  このコインについてn回測定したときに丁度r回表になる確率は、二項分布B(n,r,p)に従います。 B(n,r,p) = (nCr) (p^r)(q^(n-r)) そして、この確率分布に従う確率変数(0,1,2,…,nのどれかの値を取る)は、期待値np、分散npqを持ちます。(念のために繰り返しますと、「このコインについてn回測定して、何回表が出たか」を調べる事を無限回繰り返した場合、表が出る回数の平均はnp、分散はnpqである。)  さて、新しい確率変数xを x = x1+x2+…+xn とすると、xは「このコインについてn回測定したとき、何回表になったか」を表しています。だから確率分布B(n,r,p)に従うので、 E[x] = np V[x] = npq です。 [7] (σ^2) 最後に、[1]の定理と[3]を使うと E[x] = np V[x] = n(σ^2) であることが分かります。これを[6]と比べると V[x] = n(σ^2)= npq です。  つまり、[5]の測定をやった場合には (σ^2) = pq になることが分かります。従って V[x'] = pq/n です。 [8] 意味  ところで、コインを何度も何度も投げただけの話を、なぜわざわざn回ごとにまとめたりするんでしょうか。どれも同じ期待値と分散を持つに決まっている確率変数x1, x2,…,xnなんてものを持ち込んで、話をややこしくしているだけではないか!  いやそうじゃないんです。この話は、「pが未知の場合に、pをどうやって調べるか」について語っています。もちろん、n回コインを投げて得た標本からpを推定する。標本平均x'をpの推定値として使う訳ですが、その推定に誤差はどのぐらいあるか、という話をしているんです。  x'の期待値は確かにpになっていますが、分散がpq/nです。nが小さいときには分散が大きい。つまり誤差が大きい訳です。誤差の標準偏差を1/10にしたければ、nを100倍に増やす必要があることが分かります。このことを使って、「ある精度でpを推定しようとすると、nを幾つ以上にしなくてはならないか」が計算できます。(こちらもご参照あれ→ http://oshiete1.goo.ne.jp/kotaeru.php3?q=2386661 )

RE-CONFIRM
質問者

お礼

皆さん> ご回答ありがとうございました。 参考にさせていただきます。

  • Ishiwara
  • ベストアンサー率24% (462/1914)
回答No.3

1. 問題ごとに標本をハッキリ定義しなければなりません。例えば5枚のコインを同時に投げたとき、オモテを1点、ウラを0点として、標本(データ)が5つある、と考えることもできるし、5個のオモテ合計だけを考え、標本が1つあると考えることもできます。これは、出題者と解答者の間の了解によります。 2. 標本や分散は、特に断りがない限り「現実に起こったデータ」を指します。しかし「‥‥の期待値」というときは、それを無限回行ったときの平均値の理論的な予測値です。E( ) は、数学で「演算子」というもので、「の期待値」という言葉と全く同じ意味です。 3. それゆえ、E(xの平均) という表現は、ふつう用いません。なぜなら、E(xの平均) はE(x) とまったく同じものですから。 4. 「分散」の場合は、多少クセモノです。「現実に起こったデータ」の分散の値を示す場合もありますが、これから起こるデータの分散の期待値を、単に「分散」と呼ぶ場合があります。扱い慣れた人にとってはほとんど自明なのですが、初心者にとっては「つまずきの石」となりかねません。 5. そのようなわけで、あなたの質問には情報不明瞭なところがあります。このサイトの規約では、問題を「丸投げ」できないことになっているので、質問者が情報をピックアップする際に不明瞭化してしまうケースが多いようです。規約に反しない範囲で、できるだけ正確に表現していただければ、親切に回答してくれる人がたくさんいると思います。

  • ymmasayan
  • ベストアンサー率30% (2593/8599)
回答No.2

まず「母集団」と「標本」をきちんと分離して考える必要があります。 npqということは二項分布ですね。 期待値E[Xバー]・・・荒っぽく言えばXバーを無数に求めたときのその平均です。   理論的に予想される値と言ってもいいでしょう。   実は数値的にはE[x]=npと一致するはずです。 分散V[x]=npq・・・これは母集団の分散です。 標本平均の分散V[x']=σ^2/n・・・Xバーを1個の標本とみなしてその分散を求めると言うことです。 最後の2行はどう言う場面で出たのかわかりませんが標本グループのことなのでしょうか。