• ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:統計 アンケートの例外データの削除)

統計 アンケートの例外データの削除

このQ&Aのポイント
  • 統計を用いて行われるアンケート調査において、5点という点数が誤りである可能性がある場合、どのように有効範囲を決めて5点を除くか悩んでいます。
  • 現在考えている方法は、t分布に基づいた信頼区間の範囲外かどうかを確認することです。
  • 具体的には、平均±標準偏差×3で求まる範囲を有効範囲として考えていますが、正しいやり方が分からず困っています。

質問者が選んだベストアンサー

  • ベストアンサー
  • ur2c
  • ベストアンサー率63% (264/416)
回答No.4

例外の除去は普通、データの捏造とみなされます。それを認めると「都合の悪いデータはみな例外」でどんな珍説も「実証」できてしまいますから。定性的に除去するなら、説得力のある議論を準備しておかないと。 異常値が結論に及ぼす影響を定量的に軽減する方法はあって、その理論が頑健統計です。頑健統計は普及しており、分野によってはむしろ「この人、何で敢えて頑健でない古い方法を使うんだろ?」と思われたりします。 参考 URL に頑健統計の概説があります。これでは難しすぎるなら、頑健推定とかロバスト(robust)推定とかで検索してみてください。考え方は、たとえば誤記による異常値が考えられるなら、誤記の可能性を組込んだモデルをたてます。

参考URL:
http://www.esri.go.jp/jp/archive/bun/bun166/bun166ai.pdf
s0832080
質問者

お礼

回答有難う御座います. 今回は誤記による異常値である可能性が高いです. 頑健推定とかロバスト(robust)推定については知らなかったため参考にさせていただきます. 参考URLについても有難う御座いました. 次に進む指針になる知識が皆様の回答で得られましたので,解決とさせて頂きます.

すると、全ての回答が全文表示されます。

その他の回答 (3)

回答No.3

そもそも標本数が少ないからそうなって可笑しくない。誤差を少なくするには標本数を増やすしか無い。                                                                                                                                                                                           

s0832080
質問者

お礼

ご回答有難う御座います. 確かに標本数が多ければ,これの誤差を直接的に減らすことが出来ると思いますが・・・. これは具体例なので実際の標本数はこれより多いです. 書く側の都合で適当に10という標本数にしてしまいました. 申し訳ないです.

すると、全ての回答が全文表示されます。
  • TANUHACHI
  • ベストアンサー率31% (791/2549)
回答No.2

 >この時,5点という点数は誤りである可能性があるため計算に入れたくありません この考え方はどうですかね?  少なくともアンケートの条件に「ある物事に対して1~5点の点数を付けて頂く」との一節があるのですから、5点と評価したことも回答にはなりえることとなります。その前提を自ら否定してしまうならば、アンケート調査に対する信頼性に疑問を着けてしまうことにもなります。  結論を正当化する目的でデータを取捨選択する姿勢をプロクルーステースの寝床、や我田引水、牽強付会などと呼び、厳しく誡めており、「統計値」と「統計の意味」をもう一度想起されることもお勧めします。  例外に意味はないのか、とは統計学で学ぶ基本事項の一つです。

s0832080
質問者

お礼

ご回答有難う御座います. プロクルーステースの寝床についてはwikiで調べてみました. 確かに,やりすぎるとそういわれても仕方ないとは思います. 統計については少し調べ,誤解している点が多数あったことには気がつきました. 最初から,いわゆる,外れ値を除くべきだとしか考えていなかったので,削除するべきかどうか考えるという視点を知り,視野が広がったように思います.

すると、全ての回答が全文表示されます。
  • whitf
  • ベストアンサー率0% (0/1)
回答No.1

「t分布に基づいた信頼区間の範囲外かどうか」や「平均±標準偏差*3」はこの場合判断基準になりません。なぜなら両方共誤った値(外れ値)を示す基準ではなく、「真の平均がこの範囲にある確率が高い(推測統計)」という範囲を表しているだけだからです。 例えば平均±標準偏差*1.96(95%信用区間)ならこの範囲に真の平均がある確率が95%であることを示すのですが、その前提は元となったデータが推測する対象(例えば100人のアンケートで全日本人の好みを推測するまら100人がデータで、全日本人が推測する対象)からランダムに正しく選ばれている(無作為抽出されている)とことです。 つまりt分布などを使う地点で誤った点数が含まれていては駄目なのです。 この場合なら数値で基準を作るというよりは論理的に5点が誤りである理由を説明して(例えば5点という点数が出る確率が非常に低い)分析から取り除くというのが良いでしょう。しかし往々にして誤りに思える外れ値が分析にとって重要であることもあるので取り除く理由はしっかり説明する必要があります

s0832080
質問者

お礼

ご回答有難う御座います. ご回答を頂いてから,統計についてさらに色々調べまして多数の勘違いが私の中にあったことに気がつきました. 論理的に5点が誤りである理由を説明するべきという視点については持っていなかったため,視野が広がりました.参考にさせていただきます. 私の書き込みは実際のデータとは大きく異なる例え話なのですが,実際のデータについて申し上げますと,結果の理由はおそらく打ち間違えなどによるものだと考えています.

すると、全ての回答が全文表示されます。

関連するQ&A