- ベストアンサー
はずれ値の選定
下記データがある中で、はずれ値を選定するのはどういう基準ですればよろしいのでしょうか。 最低値1 最高値100 データ数50
- みんなの回答 (3)
- 専門家の回答
質問者が選んだベストアンサー
A No.2 の論点2のようなことが、 本物の統計学と数理統計学との相違点かなと思う。 統計学は、データの取り扱いに関する実験科学であり、 数理統計学は、そこでの計算の数学的根拠に過ぎない。 私のような数学原理主義者に言わせると、 統計学的判断なんて主観だよ…ということになるが。
その他の回答 (2)
- ramayana
- ベストアンサー率75% (215/285)
1 抑制的であるべきこと はずれ値を除去すると、ANo.1さんの指摘のとおり、何らかの恣意性を免れません。これを安易に行うと、都合の良いデータだけを集めて結論付けることにもなりかねません。これは、統計を扱う場合に絶対にしてはいけないことです。 2 はずれ値の除去が有効な場合 しかし、データに想定外のものが混じっていることを疑う積極的な理由があるときに限り、例外的に、はずれ値の除去が有効な場合があります。 例1 人の体重を50人分集めたことになっているが、実は、少数の猫の体重が混じっている疑いがある場合 例2 経済指標のように、モデルで表現されない突発的な変動(リーマンショックのような)を考慮すべき場合 実用化されている時系列モデルにも、はずれ値を除去することにより、パフォーマンスが格段に向上することが(理論的でなく)経験的に知られているものがあります。 3 数学や統計学の範囲では答がない はずれ値を除去すべきなのか、その場合に、どういう手法ではずれ値を抽出するか、さらに、そのしきい値をいくつかに設定するか、という問題は、数学や統計学の範囲で結論が出ません。具体的な対象に依存することから、むしろ、経済学や、疫学など、専門分野の問題です。 以上の理由から、「最低値1、最高値100、データ数50」という情報だけからはずれ値の基準を求めるのは、不可能です。敢えて言わせていただければ、そういう基準を求めようとする発想自体が、統計を扱う態度として、極めて不適切と考えます。
- alice_44
- ベストアンサー率44% (2109/4759)
どんな基準で選定するにせよ、はずれ値を除去すると、 以後の統計処理の結果は全て主観的評価でしかなく、 数理統計学とは無縁のものになる。