- 締切済み
統計に関する質問:サンプル調査の有効性の確認
以下のような内容の質問をうけたのですが、統計そのものがよくわかりません。 どなたか教えてください。 今、ある県の住民を属性別(性別、年齢層、学歴別)にサンプル抽出し、職業(10分類)や購入した製品の種類(6分類)や満足度(5段階)を調査したデータがあります。 1000人を抽出し、そのうち半数から回答がありました。 以下のようなデータがあるとき、2番目の男性群の人数(補正後)はどの程度正しいか(信頼性があるか)というものです。それぞれのセルで回答者数が少ないので、最低どの程度の回答者数が必要なのでしょうか。 お願いします。 性別 年齢層 学歴 職業 製品 満足度 人数(補正後) 回答数 ------------------------------------------------------------------- 女 21-40 高卒 会社員 製品A 非常に満足 5.32 5 男 41-60 大卒 会社員 製品C やや不満 10.10 8 : : : : : : : : : :
- みんなの回答 (3)
- 専門家の回答
みんなの回答
- 井口 豊(@Iguchi_Y)
- ベストアンサー率68% (157/228)
さきほどの説明で一部訂正です。 標本1000人(n = 1000)中10人がA購入だとすると,その標本確率は0.1。 と書きましたが,確率は,0.01です。 式自体は同じです。
- 井口 豊(@Iguchi_Y)
- ベストアンサー率68% (157/228)
絶対数というのは,母集団における数という意味ですか? 最初の回答でも述べたように,直接的に問題となるのは,そのAが占める比率なのです。 もちろん,比率が推定できれば,数も推定できるわけですが。。。。 お礼に述べられた疑問と質問内での疑問は,内容がやや異なるようです。 お礼の中の,「A」を購入したかどうかという問題は,二者択一の二項分布の問題です。 したがって標本が大きければ,正規分布で近似でき,それによって信頼区間も推定できます。 標本1000人(n = 1000)中10人がA購入だとすると,その標本確率は0.1。 この値を母集団中の推定比率として利用します。 サンプルn 人中,Aを購入した(確率p)か,しなかった(確率1-p)かは,平均p分散SQRT[p(1-p)/n]の二項分布に従います(SQRTは平方根)。 それを正規近似して,例えば,95%信頼区間なら,標準正規分布の両側5%点 z(0.05) = 1.96を用いて区間推定します。 すると, 1.96 * SQRT[p(1-p)/n] = 1.96 * SQRT[0.1 * 0.9/ 1000] = 0.019.... したがって,信頼区間は,0.1±0.019 となります。 上式から分かるとおり,母集団が大きくなると,質問者のいう「実数」は関係しなくなるのです。 母集団が1万人でも100万人でも,直接的な問題は標本サイズnと,そこでの比率だということが分かります。 この計算は,世論調査(支持する,しない)とか視聴率調査(ある番組を見た,見ない)などで普通に用いられるものです。 厳密に言うと,標本は非復元抽出(元にもどさない抽出)ですから,母集団が小さいと,上の式は修正が必要です。例えば,下記のサイトを参考にしてください。 http://www.npo-scop.jp/web/column/img/column001.pdf ただし,注意したいのは,これは最初の質問内容に対する回答ではないという点です。 Aを購入したかどうかの信頼性は判定できますが,それは男女や年齢関係なく,すべてひっくるめた統計であり, 女 21-40 高卒 会社員 製品A 非常に満足 5.32 5 男 41-60 大卒 会社員 製品C やや不満 10.10 8 にある,5人とか8人とかの信頼性の検定はできないからです。 もちろん,このような細分された標本データも,その出現確率を計算すれば良いのですが,それは二項分布ではなく多項分布になります。 細分項目が多いほど,複雑な式(分布)になり,項目全体での出現比率の信頼性は,例えば5%水準を設定し,シミュレーションをやってみないとわかりません。 ですから,例えば生態系の調査でも,1種だけに注目し,それが集団中に何%いるかを調べるだけなら,二項分布で信頼度を検定できます。 ところが,A種10%,B種8%,C種5%,....と出てきたとき,この10,8,5....という組み合わせがどの程度信頼できるか,という問題はシミュレーションが必要なのです。 このようなわけで,冒頭,お礼に述べられた疑問と質問内での疑問は,内容がやや異なる,と述べました。
- 井口 豊(@Iguchi_Y)
- ベストアンサー率68% (157/228)
私は生物集団を研究していますので,似たような問題に行き当たることがあります。 もしかすると,質問事項は,ある生物集団中の各種の個体数割合を求める問題に似ているかもしれません。 顕微鏡での研究対象となる微化石の調査では,通常,200個体抽出すると,種の個体数比が安定してくると言われます。しかし,これまで実際にそれで十分かどうか検証されてきませんでした。 最近,鈴木紀毅・木田真太郎(2004)による実証的研究が発表され,600~700個体抽出すると,集団中の種の組成(どの種が何%いるか)が安定してくることが示されました。 http://www.terrapub.co.jp/onlineproceedings/nom/pdf_sp/13/nom_sp_13221.pdf 質問の場合も,この結果が適用できそうな感じです。 上記論文の内容は,専門外だと分かりにくいかもしれませんが,図1のグラフから直感的に必要標本数が分かると思います。
お礼
どうもありがとうございます。 まだよくわからないのですが、ある県で「製品A」を購入した人の絶対数をサンプル調査から推定したい場合、サンプル調査で「製品Aを購入した」と回答した人が計10人で、属性分布に従って人口(絶対数)を推定したら400人(補正済み)となる場合、この400人の推定値はどの程度正しいのか、または信頼度はどの程度なのか、判断できるのでしょうか。