- ベストアンサー
アンケート統計で弾いても良い回答
ネット上でアンケート統計をとっているんですが、その中に「明らかにおかしい」と言えるような回答が混ざっていることがよくあります。 例えば、年齢が「0歳」になっていたり、身長が「10cm」になってたりするようなケースです。 こういう回答は統計分析の際に弾いても良いのでしょうか?
- みんなの回答 (4)
- 専門家の回答
質問者が選んだベストアンサー
用途しだいでしょう そのような「欠損値」をどう扱うかはいろいろです 例えば年0歳でも、身長が妥当ならば母集団の身長サンプルには使えますが でも、それを年齢別の成長曲線にはつかえませんよね。
その他の回答 (3)
- TIGANS
- ベストアンサー率35% (245/681)
>「一見普通に見える適当回答」が他にもあるはずなので、統計的に弾いて良いものなのか疑問に思っているのです。 とりあえず故意の悪意回答は考えないとします (実際にはネットアンケートでは、ちゃんと考えないと全然ダメですが) 本人アンケートなら「0歳」は信憑性に欠けるでしょうね。 とすると、「3歳」「6歳」「9歳」「12歳」 どこから信憑性があることになるのでしょう? じゃあアンケートがもともと、ママさんへの赤ちゃんに対するアンケートなら? という問題に行き着きます。つまり「明らかにおかしい」という概念が恣意的なものです つまり、統計的に弾いて良いものなのかは、恣意的に決めるしか道はありません。
- hue2011
- ベストアンサー率38% (2801/7250)
普通に統計で行う方法を知りませんか。 極端値の除去、です。 一番大きい値、一番小さい値を集計から外すのです。 これは、何かの事故で取得された信頼性のないデータと疑われるから除去であって、事実と違うからではありません。 たとえば血圧の値で258なんて言うのがあったとすれば、それを集計から外すのです。 で、一番困るのは、自分の価値観でデータをフィルタリングすることです。 あなたのやろうとしていることで、これは明確に不適切なことです。正しくありません。これは変だと思うから抜こうという話でしょう。 それは一般的にデータの改ざんといって一番やってはいけないことです。自分が希望している集計結果を生むのに便利ですから。 たとえば大学の学費無料化をしたいと考えている人間が、現在の学生たちにアンケートを取って、もし月の生活費が50万以上だというような集計がでそうだったら、それは「おかしい」として高額のを全部抜くと、学生の平均生活費が10万以下になって、こういう人たちを助けるために学費無料化が必要だという結論を出そうとしたりするのです。 別に今回あなたがそういうことをしようとしているとはいいませんが、自分の価値観でこれは無効だと判断することがいかに間違ったことかご理解いただきたい。 こういうのを、感情的でも価値観でもない形で雑音として除去するのが極端値の除去という思想なんです。 統計分析をする場合は、極端値を抜いた集計をし、集計前の除去数がいくつであるという追記をするのです。それでフェアです。 少し書き足しますが、例えば身長平均をとろうとしたとき、2メートル3というのがあったら極端値として抜かれますが、これは無効なデータではないかもしれない。バスケットボールの八村塁の身長です。明らかにこういう人がいるのに集計から外すかというのは面倒ですが、除去数1としてそういうものがあったことを明示すればインチキではなくなるのです。
お礼
言いたいことはわかりますが、物理的にあり得ない数字もあると思います。 収入なら10億だろうと100億だろうと事実である可能性もありますが、 「0歳」「身長10cm」は100%あり得ないと言い切れる数字です。 他にも、矛盾する場合なんかもあると思います。 「身長120cm」なのに「座高121cm」とか。 これも100%あり得ない構図です。 こういうのは自分の価値観ではなく客観的な価値観であり、有効回答から弾くという選択肢があっても良いような気がするんですが・・・。
- qwe2010
- ベストアンサー率19% (2193/11072)
弾かないと、正しい統計は取れません。 一応、弾くのと、弾かないのでは、どれくらい数字が違うのか、計算するとよいですよ。 入れても、入れなくても、あまり変わらないのか、 大きな影響があるのかで、何らかの対策が、必要なのか、必要ないのかがわかります。
お礼
ネット上の統計なので、「0歳」という回答が入ってるとそれ以外の部分も極めて信憑性に欠けると思うんですが、どうでしょうか。 その人の身長項目が「140cm」という妥当な範囲の数字だったとしても、適当に入力した可能性が高いと考えてしまいますよね。 ただ、それを言い出すと「一見普通に見える適当回答」が他にもあるはずなので、統計的に弾いて良いものなのか疑問に思っているのです。