- ベストアンサー
統計学のサンプル数2000の根拠は?
みなさんこんにちは. 既出でしたら申し訳ないですが,トリビアの泉等で何か統計を調べる際に,統計の専門家が出てきて「2000人も調査すればデータの信頼性は十分だ」などと言っていますよね. その根拠となる数式なり方法論なりがあるのかな?と思って調べてみたらどうやら↓のページに掲載されている数式のようなのですが,このページを作られている方もその数式の妥当性に疑問を感じておられるらしく,読んでいて余計わからなくなってしまいました. 世論調査におけるサンプリング数の決定 http://www.wound-treatment.jp/next/wound225.htm どなたか統計学にお詳しい方,簡潔に教えていただけませんでしょうか?(あまりに専門的な議論は理解不能ですのでお手柔らかに‥)よろしくお願いします.
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
統計的な結果を出す際に、ある信頼度を確保するために必要となる必要サンプル数を決定することはできます。実際、臨床試験や疫学調査などでは必ず行われます。しかしその求め方は、サンプリングや割付の方法といった研究デザインや結果指標として何を見るか、どのような統計的分析方法を使うかによって変わります。それが決まったとしてもどの程度の信頼度を確保するかによって得られる必要サンプル数は変わります。 例えばご質問のリンク先に示されているのは、「単純無作為抽出で結果指標を 2 値の割合とし、正規近似に基づく 2 項確率の推定を行う」場合の式です(サイトの作者はそこまで理解はされていないようですが)。従って「単純無作為抽出で対象者を選び、内閣支持率といった割合で、その真値が極端に 0% や 100% に偏っていないと考えられる場合に、その割合を推定する」のには有効です。そうではなく例えば 2 段階層化抽出で世帯収入の平均値を推定したいといった場合にはまた違った式になります。 つまりどのような場合でも通用するような最小サンプル数といったことは本来言えませんが、ごく一般的に世論調査のような形で単純に内閣支持率のようなものを“それなりの”信頼度をもって調査するのに必要なサンプル数は、通常は 2,000 よりももっと少ないと思います。例えば関東や関西の視聴率調査などはそれぞれ 600 世帯のサンプルに基づいています。その意味で「2,000 あれば十分」という言い方は間違ってはいないと思いますが…。 しかし統計調査の信頼性はサンプル数ももちろん重要ですが、それ以上に調査対象の選定方法(サンプリング方法)が重要です。そのことに言及せずサンプル数がいくつあれば信頼性は充分などと言うのはおかしな話です。1936 年の米国大統領選挙の際にリテラリーダイジェスト社が多額の費用をかけて膨大な人数のアンケート結果を元に共和党の勝利を予想したのにもかかわらず、民主党のルーズベルトが当選して見事に予想が外れたのは有名な話です。これはその後の分析で調査対象に偏りがあったことが主な原因と言われています。 ちなみに「データの信頼性」と「結果の信頼性」は指しているものが異なりますのでご注意ください。サンプル数は「結果の信頼性」にはかかわりますが「データの信頼性」には関係ありません。対して、調査対象の選定方法は両方にかかわります。
その他の回答 (1)
極端に簡略化します。したがって.正確な表現ではありません。 20回に1回間違う確立が.危険率5%という普通の検定の場合。大体2シグマ離れていると20回に1回間違えるが.それなりに正しい値となる。 100回に1回間違う確立が危険率1%という検定の場合で.大体3シグマ離れていると.100回に1回間違えるがそれなりに正しい値となる。ただし.癖がある場合(例.トレミドレミドレミ...)は正しい値を示さない場合がある。 3シグマの精度がある指標値を計算するのに必要なデータの個数が大体1000個。2倍の数があれば大体変なことにはなっていなすはず。 注意点として.サンプルの対象を間違わないこと。 一例として「国鉄民営化で便利になった」と答える人は.日本全体の面積で約10%の割合に住む人だけ。残る90%の人は「国鉄が廃止になって不便になった」となります。 近年.世論調査が若小者の切り捨てを目的に使われることが多いですから。
お礼
「3シグマの精度がある指標値を計算するのに必要なデータの個数が大体1000個」というところがミソのようですね.そちらの根拠はよく理解できませんでしたが,「2000というのは間違ってはいない.ただし,サンプリングに注意」という点でNo.2さんとも共通の見解ということでよろしいでしょうか?確かに母集団の抽出が「無作為」と「作為」では結果に影響するのは想像に難くありませんね.
お礼
大変丁寧な回答ありがとうございます.調査対象の数だけ多様なサンプリング手法があると考えてよろしいでしょうか.そうなると統計学では,ことサンプリングに関しては「一般的」手法というのは中々難しそうですね.調査対象によってサンプリング方法をカスタマイズしていくのが統計学の醍醐味?なんでしょうか.抽出したサンプルを分析する手法は有効な手法がたくさん確立されていそうですが‥.