- ベストアンサー
中心極限定理とパレート分布
- 中心極限定理によると、パレート分布でもサンプリングを繰り返せば正規分布に近づく可能性があります。
- 所得の分布では、中央値の方が平均よりも事実に近い値を示すことがあります。しかし、期待値で計算することも有効な方法です。
- 統計学的には、期待値で計算する理由がなかったり、平均を使用することが一般的です。
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
> また、以下の米印の部分が理解できませんでした。もしお時間があれば、具体例交えて説明して頂けると幸いです。 > > ※Σx_i P(X=x_i) が期待値となるのは、x_i が「サンプリングして得られたもの」ではなくて「Xの取りうる値をくまなく『1回ずつ』列挙したもの」の場合です。つまり、値の列 {x_i} が何であるかによって、期待値を {x_i} から計算する方法が異なるということです。 すみません。確かに具体例があった方が分かり易いですね。 例えばくじで 1% の確率で X=10000円、9% の確率で X=100円、90%の確率でX=0円もらえるとします。この時、 P(X=10000)=0.01, P(X=100)=0.09, P(X=0)=0.90 となります。 x_i が「サンプリングして得られたもの」という時は、実際にくじを 1000 回引いたとして、例えば、 { x_i }_i = { (i回目に引いたくじの結果) }_i = 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 100, 0, 0, 0, 0, … といった様な具合になります。この時、平均(期待値)のもらえる金額を求めるには、 Σx_i/n = (0+0+0+0+0+0+0+0+0+0+100+0+0+0+0+… )/1000 (→ E(X) as n→∞) とすれば良い訳です。そもそも x_i の各値が登場する回数が P(X) で決まっているので、上記の和の中には P(X) による重みは既に含まれています。 一方で「Xの取りうる値をくまなく『1回ずつ』列挙したもの」というのは、単に取りうる値 X = 0, 100, 10000 を一回ずつ {x_i} に入れた場合のことを指しているつもりでした: { x_i }_i = 0, 100, 10000. この時、平均(期待値)のもらえる金額は、 E(X) = Σx_i P(x_i) = 0×0.90 + 100×0.09 + 10000×0.01 = 109 と求められます。 先の回答で書いた「値の列 {x_i} が何であるかによって、期待値を {x_i} から計算する方法が異なる」というのは、同じ記号で x_i と書いていても x_i の中身が違えば同じ式は使えないというごくごく当たり前のことを言いたかっただけでした。わざわざいう程の事ではなかったので却って混乱させてしまったかもしれません。
その他の回答 (1)
- akinomyoga
- ベストアンサー率85% (100/117)
中心極限定理の主張を正しく理解されていますか? もしくは、確率変数 X の分布と、標本平均 (1/n)ΣX_i の分布を混同されていませんか? (1) 中心極限定理は X の分布が何であっても X の分散が有限の時に適用できます。パレート分布の場合にはパラメータ a>2 の時に分散が有限になるので、a>2 の時に中心極限定理を適用できます。(現実世界の所得では、明らかに所得の上限(例えば世界中のお金の総和)があるので、裾野でパレート分布からずれて分散は必ず有限になるはずだとは思います。) 従って、サンプリングを繰り返して計算した標本平均 "(1/n)ΣX_i" の期待される分布は正規分布に近付きます。ここで注意しなければならないのは、「標本平均 (1/n)ΣX_i の分布」というのは「n回サンプリングして平均する」という操作を更に複数回(例えばm回)繰り返してできる分布のことです。例えば「標本平均 (1/n)Σx_i」をm点取る為には、実際には確率変数 X を n×m 回サンプルする事になります。一方で、確率変数 X の分布自体はパレート分布であって、たくさんサンプリングしたからといって別の分布になったりはしません。 > 中心極限定理から導かれた分散、σ/√nを利用して所得の平均の信頼区間を推測することに違和感を感じます。 所得の「平均」の推計なので (十分大きなnに対して) 中心極限定理から得られる正規分布を使う必要があります。逆に、単一の変数 X についての分布であるパレート分布を用いて、標本平均(1/n)Σx_i の検定を行うのは不適切です。 ただ、そもそも「所得の平均」を考えることにどれだけ実際的な意味があるのか・直接役立つのか、という点については疑問を持って頂いてもおかしくはないと思います。しかしそうは言っても、分布を特徴付ける統計量として有効かつ取り扱いやすいものが他にありません。何も分からないのに比べれば、「所得の平均」という情報が取り出せるだけで母集団を推定することができますので (あくまで分布を表現する1パラメータという意味合いにすぎませんが) 貴重な情報となります。 (2) 平均と期待値は同じものです。そしてそれは今回の場合 Σx_i/n です。 > 平均(Σx_i/n)ではなく、期待値(Σx_i*P(X=x_i))で計算する方が、 とありますが、そもそも x_i はサンプリングして得られた物のはずです。そのため、**既に登場する確率として P(X=x_i) が入っています**。逆に Σx_i*P(X=x_i) という表式には、確率が二重に入っているので不自然です。この様な変な統計量は確率変数の分解能や分類・集計の仕方によって値が一定しないので使い物になりません。 ※Σx_i P(X=x_i) が期待値となるのは、x_i が「サンプリングして得られたもの」ではなくて「Xの取りうる値をくまなく『1回ずつ』列挙したもの」の場合です。つまり、値の列 {x_i} が何であるかによって、期待値を {x_i} から計算する方法が異なるということです。
補足
回答ありがとうございます。 1、2共に大変わかりやすかったです。中心極限定理に関しては、 >>中心極限定理は X の分布が何であっても X の分散が有限の時に適用 この条件を忘れておりました。 また、以下の米印の部分が理解できませんでした。もしお時間があれば、具体例交えて説明して頂けると幸いです。 ※Σx_i P(X=x_i) が期待値となるのは、x_i が「サンプリングして得られたもの」ではなくて「Xの取りうる値をくまなく『1回ずつ』列挙したもの」の場合です。つまり、値の列 {x_i} が何であるかによって、期待値を {x_i} から計算する方法が異なるということです。
お礼
回答ありがとうございます。 理解できました。 与えられた式に数字を放り込むのではなく、 その数値が持つ意味をもっと考えないといけない、ということに気づかされました。 ありがとうございます。