• 締切済み

決定係数の傾き依存性について

決定係数の傾き依存性について証明 決定係数の傾き依存性を知りたいのですが、文献を調べても出てきません。 自分で手を動かしても証明はできませんでした。 どなたか途中式を含めて教えていただけないでしょうか。 お願いいたします。 補足 私が使用しているデータを回帰分析すると傾きが0に近いため、決定係数が役に立ちません。ただし予測値と実測値をプロットしてみるとある程度 回帰分析が正常に動作しています。 そこで回帰分析の使用について妥当性を証明したいと考えています。 しかし、周囲は古い体質のため、決定係数を強く盲信しています。 先ずは傾きが0に近いときの決定係数という指標が役に立たないことの証明をしたいと考えています。 その後他の手法で回帰分析の妥当性を証明したいのですが、今回のケースに適する手法を教えていただけますでしょうか。 例えば、評価指標に残差プロットなどがあげられますが、具体的に数値で妥当性を論じることはできますでしょうか。 よろしくお願いいたします。

みんなの回答

  • f272
  • ベストアンサー率46% (8469/18131)
回答No.2

適当にデータを作ってみました。 1つ目(青)は=A1+(RAND()-0.5)*0.2 2つ目(橙)は=1+(RAND()-0.5)*0.2 です。これを使ってエクセルのグラフを作り、直線で近似曲線を作ってR2値を表示させると添付図のようになります。これは https://ja.wikipedia.org/wiki/%E6%B1%BA%E5%AE%9A%E4%BF%82%E6%95%B0 でいうところのR2_1に相当します。グラフではどちらも当てはまっているように見えますが、R2の値は全く違います。これはR2=1-SSR/TSSとしたときのTSSの計算がこの評価に役立っていないことに起因します。#1さんが言うとおりですね。例えばR2の定義をR2_7に変えてみます。例えばTSS=SUMSQ(B2:B12)とすれば求められます。これを使ってR2を計算するとどちらのケースもR2の値がほぼ等しくなって回帰分析の妥当性が言えそうです。 残差標準偏差を使って妥当性を言ってもいいですね。例えば青では0.05022、橙では0.06685となって、どちらの場合でも小さくなっています。 いかがでしょうか? 追記:別にエクセルグラフのやり方がまずいと言いたいわけではなく、使い方をちゃんと考えなければならないということです。あてはめモデルの適合度を評価したいのなら決定係数ではなくて、例えばAICとかもありますので、いろいろと考えてみてください。 これも参考にどうぞ。 https://biolab.sakura.ne.jp/r2-fitness.html

  • ddtddtddt
  • ベストアンサー率56% (179/319)
回答No.1

 Excelを利用すると相関係数(決定係数)としてR2値を手軽に使えるので、以下では決定係数としてR2値をとります。厳密には、相関係数と決定係数の定義は微妙に違いますが(^^;)。  あなたが扱っているデータは、添付図のCase-3のようなものと想像しました。次にR2値は添付図の(1)で計算されます。(fj)はj=1~n個のデータ,fmは(fj)の平均,a,bは最小二乗法で与えた回帰直線の係数です。最小二乗法は、最良2乗近似の意味でR2値を最大化する計算法です。グラフの回帰直線は青ラインで引きました。y=-0.0072x+0.9743とR2=0.014は、青ラインの式とR2値です。  まず典型的にR2=0の場合が、Case-2です。これは半径1の円周上に原点対称になるようにデータを載せました。この場合、回帰直線の傾きは0,切片も0です。a=b=0。最小二乗法で傾きa=0なら、切片は必ずb=fm(データの平均)になるのはご存じと思います。そうすると(1)の分母=分子ですから、分子/分母=1となり、R2=0です。ここで分子,分母をデータ数nで割れば、分母はデータの分散,分子は「直線回帰を仮定した場合の分散」という事になります。これの解釈は、「データそのものの分散」と「回帰直線からの分散」が等しいので、「直線回帰は何の説明にもなっていない」という意味にとれます。  直線分布の傾向を持つデータを想像すればわかると思うのですが、データが完全に直線に載ったとしても、その分散は0ではありません。しかし回帰直線からの分散をとれば0です。よってR2=1であり、回帰直線によってデータ傾向を完全に説明できた事になります。同様にCase-2であっても「円分布の曲線回帰を仮定」すれば、R2=1です。  次に典型的にR2値が「無意味」になるのが、Case-1です。Case-1は厳密にy=1にデータを載っけたものです。図ではR2=#N/Aとゼロ割りエラー(プログラム用語でdivision by 0)が出ています。これの原因は、回帰直線の傾きa=0でb=fm=1。よって、fj-fm=1-1=0,fj-axj-b=fj-fm=1-1=0となり、分子,分母とも0でゼロ割りになるからです。しかし実情を言うと、y=fmという回帰直線で完璧な説明になってるはずです。  そこでCase-3です。これは、y=1に-0.5~0.5の範囲の疑似乱数を、刻み値0.1で加えたものです。さっき述べた理由により傾きa=-0.0072が小さいために、切片b=0.9743はfm=0.9707に近く、分子/分母はほぼ1で、R2=0.0014と決定係数は0に近いです。しかしこれはある意味、妥当な結果です。回帰直線の傾きが小さいという事は定数分布に近く、説明変数xと無関係という意味にもとれます。しかし「定数近似が妥当」という意味に解釈すれば回帰直線で十分な説明になっているとも考えられます。そう考えるならR2=1-分子/分母ではなく、R2=分子/分母とすべきでしょう。こういう決定係数の「定義」もあったはずです(8つくらいあるらしいです(^^;))。  決定係数,相関係数は「データそのものの分散」との相対比です。データ変動が小さい場合、分散も小さいですから大きなR2値になるのには、かなりデータが規則的に並んでいる必要があります。ところが測定値の絶対変動が小さいと、そのような敏感な傾向は測定誤差に埋もれて見えにくくなります。そういうわけで結局、決定係数,相関係数の善し悪しはその解釈に依存すると言えます(だからケースバイケースに8つもある?)。  あなたが傾きが小さく決定係数が小さくても、「予測値と実測値をプロットしてみるとある程度 回帰分析が正常に動作している」と判断するなら、回帰分析が正常に動作し決定係数も大きい、比較相手がいるはずです。つまり測定系(測定プロジェクト?)全体を見渡し、どのような測定を行い、どのような状況で得られたデータであるかの解釈まで提示しないと、「決定係数妄信派」は納得しないと思います。  ・・・あんまり役に立ってない気もしますが (^^;)。