• 締切済み

無作為抽出でないサンプルから母集団を推定する

初めて質問させていただきます。よろしくお願いします。 ある高校の入試結果データから、その県の高校受験者全体の分布を 推定できるでしょうか? その高校のレベルが、県内で中の上程度だとします。当然、その高校を 受験するのは、中の上付近の生徒が多くなります。このため、その高校の 受験データは正規分布に従いません。 この状態から、県全体の高校受験者の平均と標準偏差を推定したいの ですが、可能でしょうか? できないとしたら、どのような条件を付けれ ば、可能になるでしょうか?

みんなの回答

  • age_momo
  • ベストアンサー率52% (327/622)
回答No.2

正規分布の一部を切り取ったと言えども完全に作為がありますので母集団の再現には ならないですね。 『難関高の滑り止め』や『だめもと』で受ける人もいたと思いますが普通に考えて その高校の合格レベルあたりの人たちが主に受けていると思います。なので本当の 分散より小さくなっているでしょう。 ところで >完全な無作為抽出なんてあり得るんだろうか? これはその通りでRDDなどでも答える、答えないの差がありますし、そもそも ダイヤルを公表しているか否かの差も有るでしょう。 だから完全にはランダムにはなっていないとは思います。そこで例えば電話番号の 公表の義務化の賛否なんて調査をすれば明らかに偏った結果がでると思いますが、 内閣支持率のような調査ならある程度のランダム性があるのではないでしょうか。 同様にある高校を受験した男子の身長を測定して県全体の標本として捉えるのは ある程度の信頼できるように思いますが、成績で集まった集団で全体の成績を 推定するのは明らかに無理があると思います。

m_yamac
質問者

補足

回答をありがとうございます。書かれたことはよく分かります。 もしかしたら、私の質問の仕方がまずくて、意図が伝わっていないのでは ないかと思い、少し補足させてください。 たとえば、ある市に20の高校があるとします。全部の高校の全生徒が参加して 統一模擬試験を実施します。その結果は正規分布に従うものとします。 さて、試験の当日に何らかの事情が発生し、もっとも優秀な1高校だけが試験を 実施できなかったとします。得られた試験結果のデータは、当然無作為抽出では ありません。残りの19校のデータから、標準偏差と平均を算出してもいいのですが、 知りたいのは、優秀な1高校が参加した場合の分布はどうなっていたか、なのです。 19校も参加したわけですから、地道にデータを拾ってグラフ化していけば、かなり 正確なグラフがかけます。一部分データの欠落(最優秀の高校のデータ分)が ありますが、それらを補って全体の分布を描くことも不可能ではないと考えます。 もちろん、不正確さが発生するのは覚悟の上です。 この作業を、手作業でやるのではなく機械的に、つまりコンピュータプログラムに やらせたいのです。 もしそれが可能であるならば、参加しなかった高校が、2校、3校……と増えても 信頼性は落ちるにせよ、元の分布(すなわち全校が参加した場合の分布)が 推定できるのではないか? と考えたのです。 これが私の意図する、無作為抽出でないデータから、元の分布を復元するという 意味なのです。 お手間を取らせて申し訳ありませんが、なにかご教示いただけると幸いです。

すると、全ての回答が全文表示されます。
  • backs
  • ベストアンサー率50% (410/818)
回答No.1

統計学の立場からいえば無作為抽出でない場合は母集団の値を推定することはできません。ですから「どのような条件をつければ可能になるか」という答えは有意抽出ではなく無作為抽出するということになります。

m_yamac
質問者

お礼

早速の回答をありがとうございます。 「無作為抽出ではない」とはいっても、悪意(?)のある抽出方法ではなく、 この場合は母集団の正規分布の一部を切り取る形になるので、サンプル数さえ 十分であれば元の正規分布を復元できるかも、と考えたのですが、やはり 素人考えだったようですね。 でも素朴な疑問として、完全な無作為抽出なんてあり得るんだろうか? とも思ってしまいます。「完全な無作為」の定義が、かえって難しいような 気がします。 ご教示ありがとうございました。

すると、全ての回答が全文表示されます。

関連するQ&A