- 締切済み
ウエイト付け集計
広島と岡山で質問紙調査を実施し,回収数が広島116,岡山154でした.「広島+岡山」のある物の所有率Xの信頼区間を計算する際に,人口構成比でウエイト付集計をしました.(広島:岡山=4.73:1.00). その結果,広島548人,岡山154人として比率Xを計算したのですが,このウエート付Xの95%信頼区間を計算するときの標本サイズは,ウエイト付の標本サイズ「702」を使えばいいのでしょうか?. それとも,回収数そのものの「270」で推定すればいいのでしょうか.統計学的には,どうするのが正しいのでしょうか?
- みんなの回答 (2)
- 専門家の回答
みんなの回答
以下、記号の意味と仮定はANo.1と同じす。 質問文の > ウエイト付の標本サイズ「702」を使えばいいのでしょうか?. > それとも,回収数そのものの「270」で推定すればいいのでしょうか. が謎だったのですが、貴方はXを (4.73x + y)/(4.73*116+154) ・・・ (1) 標本サイズ「702」の場合 または (x + y)/(116+154) ・・・ (2) 標本サイズ「270」の場合 で推定できないかと思われたわけですね。 (x, 116を4.73倍すると整数にならないでしょうが、ここではそのままにしておきます) 残念ながらそれはよい推定方法とは言えない場合があります。 なぜなら(1), (2)の期待値はXに一致しない場合があるからです。 E[]で期待値を表すとすると、 (1)の期待値 = E[(4.73x + y)/(4.73*116+154)] = (4.73E[x] + E[y])/(4.73*116+154) = (4.73*116m/M + 154n/N)/(4.73*116+154) となりますが、 (4.73*116)N = 154M m/M = n/N のどちらかを満たさない限りXとは一致しません。 同様に、 (2)の期待値 = E[ (x + y)/(116+154)] = (E[x] + E[y])/(116+154) = (116m/M + 154n/N)/(116+154) となりますが、 116N = 154M m/M = n/N のどちらかを満たさない限りXとは一致しません。 しかし、ANo.1の Xの推定値 = (M/(M+N))(x/116) + (N/(M+N))(y/154) は、上記のような条件なしで期待値に一致します。 ご質問の場合では (4.73*116)N = 154M 116N = 154M m/M = n/N のどれかを満たしていますか? あるいは満たしていると仮定できますか? (推定量の分散も考慮すべきですが、とりあえずそれはおいておきます)
広島と岡山の対象となる母集団の大きさをそれぞれM, Nとし、あるものを所有している人数をそれぞれm, nとします。 貴方が知りたいのは X = (m+n)/(M+N) だと思いますが間違いないでしょうか? それでよければ、次のように考えれば求められると思います。 xを広島の116人のうちのあるものを所有している人数、同様にyを岡山のそれとすると、M, Nが十分大きければ、x, yはそれぞれ二項分布Binomial(116, m/M), Binomial(154, n/N)に従うとみなせます。 また、m>5, n>5, M-m>5, N-n>5ならば、x, yはそれぞれ正規分布N(116m/M, 116m(M-m)/M^2), N(154n/N, 154n(N-n)/N^2)に従うとみなしてよいでしょう。 (5としたところは10とする場合もあります) 求めたい比率は X = (M/(M+N))(m/M) + (N/(M+N))(n/N) と変形することができるので、m/M, n/Nをそれぞれx/116, y/154で推定すれば、 Xの推定値 = (M/(M+N))(x/116) + (N/(M+N))(y/154) となります。 この推定値は、前述の仮定を満たせばN((m+n)/(M+N), {(116m(M-m)+154n(N-n))/(M+N)^2})に従うので、分散の式のm, nをxM/116, yN/154で推定すれば、求める信頼区間は Xの推定値-1.96√{(xM^2(1-x/116)+yN^2(1-y/154))/(M+N)^2} ≦ X ≦ Xの推定値+1.96√{(xM^2(1-x/116)+yN^2(1-y/154))/(M+N)^2} と近似的に推定できます。
補足
quaestio様 早速のご回答ありがとうございます。 quaestio様が計算式で示してくださっている 広島「116」と岡山「154」を、ウエイト付けした後の 広島「548」と岡山「154」で計算する方が、 実態をより反映しているということになるのでしょうか?? 広島「116」と、ウエイト付けした後の「548」のどちらで計算する方が、 より実態を正確に表しているといえるのでしょうか。。 「548」を使用するほうが統計学的にも適切だとされるのでしょうか?? それとも統計学で示される様々な公式において、 ウエイト付けした後の数字を票本数として使用することはそもそも誤りなのでしょうか。。 ご教示頂けますと幸いです。