- 締切済み
相関を求める時の、はずれ値のはずし方
こんにちは 現在、ある2つのデータの相関関係を調べています。 そのデータを散布図にしたところ、数個はずれ値が確認できました。 これのはずし方をご質問させてください。 はずれ値のはずし方について、標準偏差を考えるやり方などがありますが、そういった統計的手法ではなく、単に『はずしてみて分析してみた』というのは、ありなのでしょうか? 私は、この2つのデータの相関があることを言いたいだけで、それ以上に詳しい分析を行うつもりはありません。 しかし、統計的におかしはことはしたくありません。 そこで、話の流れとして、 『散布図を作って、相関係数を求めてみた。相関があった。けれど、はずれ値もあった』 ↓ 『はずれ値っぽいのを外してみて、相関係数を求めてみた。やっぱり相関があった』 ↓ 『いずれにせよ、相関はある』 はずす値がはずれ値であるかどうかが、主観によってしまうので、統計的にどうなのかな?と思ったので、ご質問させていただきました。 けれど、結局、はずしても、はずさなくても相関があるのなら、統計的にも話しの流れ的にも問題はないのでしょうか……。
- みんなの回答 (2)
- 専門家の回答
みんなの回答
- High_Score
- ベストアンサー率25% (45/176)
外すかはずさないかは、主観しかありません。 直線から○○以上ズレていたら、何らかの原因で壊れている可能性が高いので、はずすことにする。ただ、予想されるトラブルとしては「実は壊れているのではなく、こういう特性だった」事が判明することです。 ただしこの場合「外してもやっぱり相関はあった」は通用しません。相関から外れたのを削除するのだから、当たり前です。相関が強まるように操作しているのだから。 「相関直線を作成したが、明らかに外れている値を除外することで直線の精度を上げる」事は可能です。
削除する『明確で妥当な理由』があるなら外せます。例えば、 計測器が壊れてたとか突然停電して正しく測れたのか不明とか。 その場合は当然、その理由に当てはまる「一見正しそうなデー タ」も全て外す必要がありますが。 『飛んでるデータを選択して外す』というのは絶対にナシです。 それは『不正なデータ操作』に他なりません。これをした瞬間、 質問者さんのデータは全く信用できないモノになりますよ。