- ベストアンサー
何%くらい調べたら正当性がおおよそ証明できるもの?
今手元に20万件のデータがあります。 このデータが正しいかどうかを検証したいのですが、20万件全部に目を通すわけにはいきません。 こういう場合何%確認すれば統計的に正しいと証明できるのでしょうか。 よくトリビアとかで出てきているのですが、肝心なところが思い出せませんでして。
- みんなの回答 (5)
- 専門家の回答
質問者が選んだベストアンサー
こんにちは。いくつかお聞きしたいことがあります。 > このデータが正しいかどうかを検証したいのですが、20万件全部に目を通すわけにはいきません。 問題は「このデータが正しいかどうか」という箇所ですが,何をもって正しいとするのでしょうか? 20万件データは「事実のデータ」なわけですから,その意味では既に「(20万人にとっては)正しい」ということになります。 あるいは,20万件を調べることは難しいので,そこから一部を標本抽出して,その標本データで20万件データを代用することが「正しい」と言えるかどうか,ということをお知りになりたいのでしょうか? あるいは…… このように,質問文からは「何をもって正しいとするか」が疑問です。どのような問題設定を行っているかによって,回答が異なってきています。 ひとまず,「20万件データの代わりに,抽出した標本でデータを代用したい」という問題であると解釈して,話を進めます。 母集団には,無限母集団と有限母集団の二種類二分けられ,今回の「20万人データ」は有限母集団となります。 無限母集団から10人を抽出する場合と,1000人の有限母集団から10人を抽出する場合,15人有限母集団から10人を抽出する場合とでは,同じ10人であっても,情報の大きさが全く違ってきます。この辺の「情報量の大きさ」を統計学では,次のような「修正項」を設けて表現しています。 有限母集団における修正項:√[(N-n)/(N-1)] ※N…有限母集団の人数,n…標本の人数 1000人有限母集団中の10人であれば √[(1000-10)/(1000-1)]=0.99549 15人有限母集団中の10人であれば √[(15-10)/(15-1)] =0.59761 10人有限母集団中の10人であれば √[(10-10)/(10-1)] =0 さて,このような修正項ですが,何に対する修正項かと言いますと,「推測における誤差」における修正です。 推測統計学の特徴は,「本来は大量なデータの特徴を調べたいが,全部調べるのは難しいので,抽出した小数データで代用して推測する」というものです。代用・推測であるために,どうしても誤差が生じてしまいます。この誤差の情報は,「★★の平均値は120.5である。正確には,誤差はプラスマイナス3のため,95%の確率で,117.5~123.5の間に平均値が存在する」などのように使われます。 誤差は当然小さければ小さいほど良いわけですので,調査を行うときには,誤差をなるべく少なくしようとします。 有限集団の誤差:無限母集団の誤差×修正項 有限母集団の誤差は,修正項の計算式からも分かるように,データの人数に大きく左右されます。標本人数が,有限母集団の人数に対して,大きければ多いほど誤差は小さくなります(有限母集団10人,標本10人ならば,誤差項は0となります。これは10人の母集団の特徴を推測するために,10人データ全てを使っているので,推測ではなく,そのものをはかっているわけですの,当然ですね)。 さて,標本におけるサンプル数の決定法ですが,ようするに,上記の修正項を使うことになります(他にもサンプルの決定法はありますが,ここでは比較的簡単な者を説明しています)。参考urlは,比率の場合のサンプル数決定法が書かれています。式を一見しただけでは,どこに修正項があるかわからないでしょうが,式変形を繰り返していますので,わかりにくくなっています。 平均値の場合は,以下の式がベースとなります。 平均値における無限母集団の誤差計算式×修正項 =Z(α/2)×標本標準偏差/√標本人数×修正項 この数値を「許容できる誤差数値」以内におさまるようなnを設定すればよいわけです。
その他の回答 (4)
- kentarou2333
- ベストアンサー率42% (65/152)
トリビアに出てくるようなのは、2000件と言われますがこれは今回のようなケースには適用できません。 これは、アンケートのような2%程度の誤差を許容できる場合の件数です。 例えば、10万人に一人という特異体質があったとします。 こういう体質の人がどれぐらいいるかというのを調べるのに、2000人をサンプリングして調べても、 一人もいなかったから、そんな人はいません!って言っても意味がないですよね。 また、統計的にということであれば、「証明」というよりも「推定」が正しい表現になります。 今回は、20万件全てに間違いがないという事を証明するんですよね。 その場合、「証明」という事であればサンプリングで証明を行う事はできないというのが回答になってしまいます。
お礼
なるほどちょっと質問の仕方が悪かったですね。 間違ってるデータが何%くらいあるかというのを調べたかったのですが、1件あたりの確認に時間がかかるものでして。
- sqwe-ir
- ベストアンサー率23% (79/332)
5パーセント調査でも、95パーセント以上正なら、残りのばらつきが公平、平均なら、 既に正の方が多いと計算出来るのでは? 80パーセントでも2割調べればほぼ確定でしょう。 70パーセントなら3割調べればほぼ確定でしょう。 これ以上はちょっと。(全部ちょー適当^^;) もちろん、正しいと言う質問ですので、全て調査して、全て間違い無かった。 と報告すべき。
お礼
5%だと10000件ですか... これはかなり大変な作業になりそうです。
- yoneda_16
- ベストアンサー率47% (166/350)
統計学の基本として、参考URLはいかがでしょう。 ご質問の件については参考URLから「無相関検定」のあたりを調べて見ては。
お礼
すごくわかりやすく作ってくれてるページでしたが、書いてあることは難しいですね^^; どうもありがとうございました。
- sunasearch
- ベストアンサー率35% (632/1788)
どんなデータであるか、データの分布によります。 トリビアであれば、2000件に目を通せば十分と言えるでしょう。
お礼
それでも2000件ですか... どうもありがとうございました。
お礼
ご丁寧に説明どうもありがとうございます。 参考URLも見てみましたが、統計って結構いい加減なものなのかもしれませんね^^; あいまいな質問ですみません。そんなに大層なものと思っていなかったので。