締切済み

無作為抽出でないサンプルから母集団を推定する

2006/11/07 15:13

初めて質問させていただきます。よろしくお願いします。ある高校の入試結果データから、その県の高校受験者全体の分布を推定できるでしょうか？その高校のレベルが、県内で中の上程度だとします。当然、その高校を受験するのは、中の上付近の生徒が多くなります。このため、その高校の受験データは正規分布に従いません。この状態から、県全体の高校受験者の平均と標準偏差を推定したいのですが、可能でしょうか？　できないとしたら、どのような条件を付ければ、可能になるでしょうか？

m_yamac
お礼率50% (1/2)

数学・算数
回答数2
ありがとう数1

みんなの回答 （2）
専門家の回答

みんなの回答

age_momo
ベストアンサー率52% (327/622)

2006/11/08 18:34 回答No.2

正規分布の一部を切り取ったと言えども完全に作為がありますので母集団の再現にはならないですね。『難関高の滑り止め』や『だめもと』で受ける人もいたと思いますが普通に考えてその高校の合格レベルあたりの人たちが主に受けていると思います。なので本当の分散より小さくなっているでしょう。ところで＞完全な無作為抽出なんてあり得るんだろうか？これはその通りでRDDなどでも答える、答えないの差がありますし、そもそもダイヤルを公表しているか否かの差も有るでしょう。だから完全にはランダムにはなっていないとは思います。そこで例えば電話番号の公表の義務化の賛否なんて調査をすれば明らかに偏った結果がでると思いますが、内閣支持率のような調査ならある程度のランダム性があるのではないでしょうか。同様にある高校を受験した男子の身長を測定して県全体の標本として捉えるのはある程度の信頼できるように思いますが、成績で集まった集団で全体の成績を推定するのは明らかに無理があると思います。

質問者

補足 2006/11/09 09:27

回答をありがとうございます。書かれたことはよく分かります。もしかしたら、私の質問の仕方がまずくて、意図が伝わっていないのではないかと思い、少し補足させてください。たとえば、ある市に20の高校があるとします。全部の高校の全生徒が参加して統一模擬試験を実施します。その結果は正規分布に従うものとします。さて、試験の当日に何らかの事情が発生し、もっとも優秀な１高校だけが試験を実施できなかったとします。得られた試験結果のデータは、当然無作為抽出ではありません。残りの19校のデータから、標準偏差と平均を算出してもいいのですが、知りたいのは、優秀な1高校が参加した場合の分布はどうなっていたか、なのです。 19校も参加したわけですから、地道にデータを拾ってグラフ化していけば、かなり正確なグラフがかけます。一部分データの欠落（最優秀の高校のデータ分）がありますが、それらを補って全体の分布を描くことも不可能ではないと考えます。もちろん、不正確さが発生するのは覚悟の上です。この作業を、手作業でやるのではなく機械的に、つまりコンピュータプログラムにやらせたいのです。もしそれが可能であるならば、参加しなかった高校が、2校、3校……と増えても信頼性は落ちるにせよ、元の分布（すなわち全校が参加した場合の分布）が推定できるのではないか？　と考えたのです。これが私の意図する、無作為抽出でないデータから、元の分布を復元するという意味なのです。お手間を取らせて申し訳ありませんが、なにかご教示いただけると幸いです。

ログインすると、全ての回答が全文表示されます。

backs
ベストアンサー率50% (410/818)

2006/11/07 18:03 回答No.1

統計学の立場からいえば無作為抽出でない場合は母集団の値を推定することはできません。ですから「どのような条件をつければ可能になるか」という答えは有意抽出ではなく無作為抽出するということになります。

質問者

お礼 2006/11/08 11:30

早速の回答をありがとうございます。「無作為抽出ではない」とはいっても、悪意（？）のある抽出方法ではなく、この場合は母集団の正規分布の一部を切り取る形になるので、サンプル数さえ十分であれば元の正規分布を復元できるかも、と考えたのですが、やはり素人考えだったようですね。でも素朴な疑問として、完全な無作為抽出なんてあり得るんだろうか？とも思ってしまいます。「完全な無作為」の定義が、かえって難しいような気がします。ご教示ありがとうございました。

ログインすると、全ての回答が全文表示されます。