• ベストアンサー

回帰直線と相関係数

ある任意の回帰直線に対する相関係数の求め方をどなたか教えていただけないでしょうか。 EXCELでは近時曲線(直線)を書いて、その曲線に対する相関係数を算出していると思います。 また、切片を任意に変更することによって相関係数が変わっています。 説明不足でしたら、ご指摘いただけたら幸いです。

質問者が選んだベストアンサー

  • ベストアンサー
  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.4

No2です。 >エクセルでどのように回帰式を出しているのか?最小二乗法?  回帰式は、通常、最小2乗法では出しません。YのXによる回帰です。回帰式から、データの点まで、垂線を引き、その距離が最小になるように計算します。  したがって、XとYを逆にすると、微妙に違ってきます。統計学のテキストには、そのように書いてあります。  この違いは、最小2乗法だと、XとYの値を逆にし回帰式を書いても、変形すれば同じになります。エクセルが、どのようにしているかは、確かめていません。  回帰直線は、相関係数が高くなるように描きます。また、相関係数の計算式を見ていただければ、データのxとyの値だけで計算されます。すなわち、回帰式のaとbは、入っていません。ですから、勝手に回帰式を描いて、その相関係数は、というのは不可能です。  相関係数の絶対値を最も高くなるように、回帰式を計算する、というのが手順です。回帰式を描いてから、相関係数を算出することは、できません。  もちろん、勝手に回帰式を描くのは、自由です。が、その根拠を示すのが困難です。  No2で、エクセルでは、回帰式を描けば、相関係数は自動的に、と書き込んだのは、エクセルの手順がそのようになっているからです。 >実際のデータはばらつきをもっているため、私の知識では、そのような関係の相関?回帰?線が、つくれまん。 エクセルで、回帰式を求めたご経験があってのことなら、最小2乗法による回帰式のプログラムがあればOKでしょうが、知りません。  エクセルが、最小2乗法を用いているかどうかは、先に述べたように、確認していません。高次式の相関係数も算出しているので、最小2乗法かもしれません。 >そこでAの傾きをもった回帰?相関?線を条件として Aの値は、理論的に決められるのですか。そうでないのなら、データから素直に相関分析をして、回帰式を決定するのが科学的です。  それから、数値は、対数に変換した方が、相関係数が高くなる場合が珍しくありません。対数回帰、べき乗回帰などになります。高次回帰は、解釈が難しいので、好きにはなれません。最も相関が高くなる回帰式を選ぶのが原則です。

その他の回答 (6)

  • solla
  • ベストアンサー率59% (45/76)
回答No.7

おそらく#1さんがおっしゃっているように、質問者さんは回帰と相関係数について誤解されていると思います。エクセルで散布図を描いたときに近似直線の追加で表示されるのは相関係数ではなくて決定係数R2(=1-回帰による残差の二乗和/目的変数の偏差の二乗和)です。Excel2003で確認しましたが、近似直線の追加ダイアログにも「グラフにR-2乗値を表示する」と書いてあり、相関係数という表現にはなっていません。 回帰分析においてY=aX+bという、傾きと切片をパラメータとする線形回帰を、最小二乗法を用いて行った場合(Excelでは最小二乗法を用いています。また誤差に独立等分散の正規分布を仮定した場合は最尤法でも同じ結果になります。)に、この決定係数が相関係数の2乗に一致するということです。したがってY=aX(つまり切片を0とした線形回帰)のように前述のような回帰式ではないような場合は決定係数は相関係数の2乗にはなりません。Excelで相関係数を求めるのなら、CORREL関数を使えばよいと思います。 > そこでAの傾きをもった回帰?相関?線を条件として(切片Bは分からない)、 > 実際のデータに当てはめて、その領域内での、 > その線に対する相関?係数を評価したいのです。 > また、Bを変化させることによって、 > 最良の係数を出す方法が知りたいのです。 統計ソフトを使えば大抵はY=aX+bでa=A(=const.)という制約をおいて回帰分析ができますが…。Excelで行うには、bの部分をパラメータのセルとして回帰直線からの残差二乗和のを求めるセル(=Σ{Yi-(A*Xi+bのセル参照)}^2; Xi,Yiはデータの組)を作成し、残差二乗和のセルの値が最小になるようにソルバーを使ってbの最適解を求めればできます(最小二乗法)。またこの時の残差二乗和を用いて前述の式で回帰の決定係数を求めることができます。念のため繰り返しますが、このような場合の決定係数は相関係数の2乗にはなりません。

noname#21649
noname#21649
回答No.6

>リンクから探すことができませんでした。 青木さんのどこかにエクセルの説明書の間違いが書いてあったはず。まずこれを見つけてください。5年くらい前に見たときにはあったのですが。 >が知りたいのです。 >ある周波数領域(x軸・横軸)において、 より 横軸の「実際のデータ」を実験者が任意に決定でき.結果として縦軸の値を測定する場合は「回帰分析」 ただし.任意の点Xにおける測定値Y1, Y2,..,Ynの分布は正規分布であること。 決定できないので不特定の結果の中から「(X,Y)の組み合わせ」を拾って計算する場合が「相関分析」 ただし.相関曲線の方向とその90度ずれた方向を軸線として度数分布を取ると正規分布を示すこと。 Y=aX+0 をした線に対して残さを0とする値を求める方法はありますけど.科学的意味がありますか。多くの場合「Y方向に測定の偏り」が存在するので測定の偏りを補正する意味でY=aX+bを使います。 1,2,3とかJCalk での計算方法は探せばあるはず(5インチなので読めるかどうかは別)ですが.エクセルの使用経験はありません。方法だけ書きますか。 かなり面倒くさいですよ。

回答No.5

No.1 です。 (x, y) の組から、最小2乗法で y= ax + b を求める式は、結論だけ言えば、 a = (データの数 * (x*y の総和) - (x の総和 * y の総和)) / (データの数 * (x^2 の総和) - (x の総和)^2) b = ( (x^2の総和) * (yの総和) - (xy の総和)* (x の総和))/ (データの数 * (x^2 の総和) - (x の総和)^2) になります。 C++で書けば、 double getA() { return (num * sumXY - sumX * sumY) / (num * sumX2 - sumX * sumX); } double getB() { return (sumX2 * sumY - sumXY * sumX) / (num * sumX2 - sumX * sumX); } ここで、 num : データの(組の)数 sumX : X の総和 sumY : Y の総和 sumX2 : X^2 の総和 sumXY : X*Y の総和 です。

noname#21649
noname#21649
回答No.3

「回帰線」を求めるのか 「相関線」を求めるのか どちらですか。回帰線を求めるのであれば「相関係数」という言葉を使いません。 「相関曲線」を求める場合に「相関係数」を使います。 どちらを求めるのか補足ください。両者の区別は下記リンク集参考。 http://oscar.lang.nagoya-u.ac.jp/ref/statistics.html

vabulic
質問者

お礼

なんとなくですが、 私の求めたいのは回帰線だと思います。 回帰線については自身で調べて違いについて、 理解してみます。 ありがとうございました。 今後とも宜しくお願いします。

vabulic
質問者

補足

リンクから探すことができませんでした。 質問に具体性が欠けていました。 私が相手にしているものは以下の通りです。 ある周波数領域(x軸・横軸)において、 その領域中のデータ(Y軸・縦軸)は 直線的にある傾きを持って落ちる(Y=-Ax+B:A>0)関係を理論的にもっています。 しかしながら、 実際のデータはばらつきをもっているため、 私の知識では、そのような関係の相関?回帰?線が、 つくれません。 そこでAの傾きをもった回帰?相関?線を条件として(切片Bは分からない)、 実際のデータに当てはめて、その領域内での、 その線に対する相関?係数を評価したいのです。 また、Bを変化させることによって、 最良の係数を出す方法が知りたいのです。

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.2

 回帰式を描けば、相関係数は、エクセルでは自動的に計算されます。    その場合、エクセルでは、切片を強引にゼロに設定できたように記憶しています。 >切片を任意に変更することによって 切片を任意の値に設定して、回帰式と相関係数を計算したい、ということでしようか。  この場合、意味があるとは思えませんし、そのようなソフトは知りません。  強引にゼロにする場合は、吸光度の検量線の場合ですが、それでもあまり賛同できません。ゼロをとおらないのは、それなりの理由があるからです。

vabulic
質問者

補足

ご回答ありがとうございます。 混乱しているのですが、 エクセルでどのように回帰式を出しているのか? 最小二乗法? 切片を変えることによってR^2が変化するのはどうしてかです。

回答No.1

おそらくは、「相関係数」という言葉が間違っています。 というのも、相関係数自体は、近似曲線とは直接関係ないからです。 相関係数の計算式自体は、例えば、下記の URL にあります。相関係数は、2組のデータに対して、一方のデータの増減と他方のデータの増減がどの程度関係しているかをみるためのものです。

参考URL:
http://www.neurosci.aist.go.jp/~kurita/lecture/statimage/node4.html

関連するQ&A