• 締切済み

統計 異常値の棄却

気温とビールの消費量についての関係式をつくり、気温からビールの消費量を見積もるとします。(実際の検討内容を公開できませんので、置き換えて質問しています) まず、ビール消費量は気温と関係すると予想し、過去の事例から、「気温」と「ビール消費量」のデータを集め、散布図を作成、回帰式を算出しました。 データは概ね正の相関を示し、このような方法で見積もりのための算出式を得ることは妥当と思えます。 ただし、問題となっているのは (1)データのばらつきが大きい (2)データが等しく分布していない(低い気温のデータに比較し、高い気温のデータが少ない、またばらつきは高い気温で大きい) ことです。 データがばらつくのは当然なのですが、データが外れるもっともな理由があり、それを根拠にデータを棄却するという他に、数学的処理によって外れ値を棄却する方法があるのかどうか知りたいのです。 自分で探した中で、「平均値+-σから外れるものを棄却する」という方法があったのですが、今回のデータは、ある等しいxに対して複数のyをとった実験のようなデータではなく、x(気温)の値はまったくバラバラに分布しているので、xについての平均値+-σということができません。 このような場合にできる棄却方法があれば、ご教授ください。 よろしくお願いします。

みんなの回答

  • ur2c
  • ベストアンサー率63% (264/416)
回答No.5

おっしゃるような状況でしたら、私なら何らかの頑健推定をやります。 > 頑健推定をすることによって、回答者が誤解したデータによる影響を小さくすることができる、また気温以外の影響を大きく受けたデータはこの直線から外れることになるので、このようなデータの影響を小さくし、気温の影響が主となるデータに基づく回帰式を出せる、ということになるでしょうか? そう思います。 > 私は回答者が質問内容を誤解をしたまま気温や消費量ではない値を提出した可能性があると思っています。 > しかし、今回はこれを材料とするしかないので、ここを疑っても仕方がなく、正しく回答されたデータであるとみなして解析を始めることとしました。 ここを疑うのが頑健推定で、異常値を捨てる根拠です。疑ってもしかたがないとするなら、正しく回答されたデータを単に自分にとって都合が悪いから捨てる、ということになってしまいます。 あらましについては www.econ.aoyama.ac.jp/~yasuto_yoshizoe/econstat/stat200809.pdf がわかりやすいと思います。データ点がたくさんあるなら、たとえば p.5 左にある最小刈り込み2乗法のような贅沢な方法でも採用できるでしょう。その場合、半分は異常値とみなすことになります。この手法は R にあると書いてありますから、 http://www.okada.jp.org/RWiki/ を見て使えば楽だと思います。只です。 数値例については、ちょっと調べてみたところでは、南山大学の卒論集 http://www-g00.seto.nanzan-u.ac.jp/msie/gr-thesis/ms/ の、木村研究室によくあります。 http://www.seto.nanzan-u.ac.jp/msie/gr-thesis/ms/2004/kimura/01mm004.pdf http://www-g00.seto.nanzan-u.ac.jp/msie/gr-thesis/ms/2006/kimura/03mm052.pdf http://www.seto.nanzan-u.ac.jp/msie/gr-thesis/ms/2004/kimura/01mm029.pdf など。他にもいろいろな所、特に外国に文献がたくさんあります。 それから報告や発表では、もとの散布図と異常値除去後の散布図を必ず両方、合わせて提示する必要があります。それをしないでいると、データの捏造と言われても反論に困ります。老婆心ながら。

natsuro
質問者

お礼

ur2c様 どうもありがとうございました。 参考文献まで丁寧に教えてくださって、感謝しています。 統計の基礎ができていないので、用語を調べながら読んでいますが、ゴールには最短距離で近づけた気がします。 本当にありがとうございました。

  • ur2c
  • ベストアンサー率63% (264/416)
回答No.4

> 全データのグラフと共に説明用のきれいなグラフが必要であるらしく それなら、No.2 を採用するべきでしょう。 気温以外の要因の影響を除去して、調整後のデータとしてグラフを示すのは普通のことだと思います。頑健推定を考えるのは、そのあとのことになります。

natsuro
質問者

お礼

再度ご回答いただき、ありがとうございます。 >気温以外の要因の影響を除去 それが得られた情報だけからは難しいのです。他の要因が消費量に影響を与えることは想像できますが、気温以外の情報が十分そろっていません。 また今回扱っているデータというのは、こちらの質問に対する回答の形(ペーパーテスト形式)で集めたデータであり、正しく回答されたかどうかについて若干疑問があります。私は回答者が質問内容を誤解をしたまま気温や消費量ではない値を提出した可能性があると思っています。 しかし、今回はこれを材料とするしかないので、ここを疑っても仕方がなく、正しく回答されたデータであるとみなして解析を始めることとしました。 1.まず全データを散布図にしてみたところ、直線回帰らしく見えるが外れた値もそこそこある。 2.外れ値の外れている所以がわからない。 3.今回の目的が散布図から現象を解析することではなく、見積もり用の関係式をつくることである。 という状況の場合、決定係数が低くてもバシッと回帰式を引いてしまえばいいと思うのですが、そこへ 4.見た目にばらつきの少ない散布図の要求 となると、最初に引いた回帰式を基準に、そこから大きくずれるデータを排除する、ということになるかと思います。 この時点で頑健推定を試みるのはどうでしょうか? 頑健推定の例として、データの書き写し時のミスがあった場合にその影響を小さくする、といった説明がありました。このような場合と似ているかと思ったのです。 頑健推定をすることによって、回答者が誤解したデータによる影響を小さくすることができる、また気温以外の影響を大きく受けたデータはこの直線から外れることになるので、このようなデータの影響を小さくし、気温の影響が主となるデータに基づく回帰式を出せる、ということになるでしょうか? 長くなりましたが、お時間がありましたらご返答よろしくお願いします。

  • ur2c
  • ベストアンサー率63% (264/416)
回答No.3

> 数学的処理によって外れ値を棄却する方法があるのか 測定誤差が「正規分布よりも裾の重い分布」に従うと考えられることを理由に、外れ値にはより軽い重みを与える推定法は、よく使われます。重みが 0 なら、その測定値を捨てたことになります。「頑健推定」で検索してみてください。

natsuro
質問者

お礼

ご回答どうもありがとうございました。 お礼が遅くなり申し訳ありません。 「頑健推定」で検索しました。今の私にはだいぶ難しい内容ですが、探していたものが何であるかが明確になり、助かりました。 少し時間をかけて勉強します。 また質問させていただくことがあると思いますが、今後ともよろしくお願いします。 ありがとうございました。

  • bluemtg
  • ベストアンサー率37% (6/16)
回答No.2

ばらつきの大きいデータは棄却することを考えるケースが多いのですが 棄却できることが技術的に納得出来ればそれはそれでよいでしょう。 今回の場合、気温とビールの消費量の関係を把握したいとありますが、 データのばらつきが大きいということは、他にも消費量に影響する 大きい因子があるということではないのでしょうか。 例えば、気温だけではなく、天候・湿度・曜日・景気などの因子も考えられるので これらを含め重回帰分析を試みては如何でしょうか。 より納得できる結果の出ることが、期待されます。 以上、ビールの消費については全くの素人からの意見です。

natsuro
質問者

お礼

ご回答どうもありがとうございました。 お礼が遅くなり申し訳ありません。 >他にも消費量に影響する大きい因子がある おそらくありますが、今回は「一番大きい因子と考えられるもので回帰式出す」というところまでは、この仕事の前提なのです。 重回帰分析というのは、いくつかの因子のうちどれがどのくらい関係するかを示すものでしたっけ?(すいません、一度聞いたことがある程度です。) 書きながら思ったのですが、こういうときは、まずはじめに重回帰分析をして、「気温」を変数に選ぶことの妥当性を検討をすべきだったのかもしれません。業界の感覚で「気温」を選んでしまいました。 ありがとうございました。

  • takurinta
  • ベストアンサー率71% (64/90)
回答No.1

棄却することを最初に考えない、というのはどうですか。 値が大きいとばらつきが大きい、ということですが、その場合、適当な変数変換で分散の安定化を図ることをまず考えてはどうか、と思います。 対数変換か平方根変換あたりを試す価値はあると思います。

natsuro
質問者

お礼

ご回答どうもありがとうございました。 お礼が遅くなり申し訳ありません。 >棄却することを最初に考えない 私も賛成です。ですが、全データのグラフと共に説明用のきれいなグラフが必要であるらしく、データ改ざんにならない範囲での取捨選択をしようと思います。 「不均一分散の場合には適切な変数変換を行う」という作業を今回初めて知りました。適切なものの選び方について勉強しなければならなそうです。 ありがとうございました。

関連するQ&A