- 締切済み
相関係数について教えて下さい
算出された相関係数の見方について疑問があります。 知識のある方、教えて頂ければ幸いです。 下のようなデータがあるとします A 100→200→400→800 B 50→100→200→400 C 50→150→350→750 AとB AとC、の数列の相関について考えるとします。 *BとC の相関については考えません。 Aの数列は100からスタートして次は2倍、その次は前の数字の2倍と、倍、倍で増加します。Bの数列は、50からスタートして、次は2倍、その次は前の数字の2倍と、倍、倍で増加します。 AとBは数の増加率が同じ場合です。ここでA,Bの相関係数を 計算すると、1と算出されました。 次にCですが、Cの数列はAの数列の増加する値と同じ値を 加算していきます。Aは最初の100に対して、次は200なので、 100の増加、するとCも、最初の50に対して100増加させています。 2行目以降も同じです。このAとCの相関係数を計算しても、1と算出されました。 AとB の相関係数は1 AとC の相関係数も1 Bと、C の数の増加は明らかに違うのに、両方共に Aに対する相関係数が1と出てきてしまいました。 どのように解釈して良いのか困っています。 私が素人判断で勝手に考えていたのは、 AとBは相関が一致していて、 AとCは増加する傾向は同じであるが、変化量の割合に違いがある為、 AとBほどには相関が高くない数字が出るとばかり思っていました。 相関係数も様々な種類があるようなのですが、変化の量も測定できるような、統計数値はありませんでしょうか?
- みんなの回答 (4)
- 専門家の回答
みんなの回答
- sanori
- ベストアンサー率48% (5664/11798)
こんばんは。 すべてのデータが、直線 y=ax+b の上にあるとき、 相関係数rは必ず1か-1になります。 a>0であればr=1、a<負であればr=-1です。 rが正のときは「正の相関がある」と言い、xが大きくなるほどyも大きくなります。 rが負のときは「負の相関がある」と言い、xが大きくなるほどyが小さくなります。 相関係数は、一次近似の最小二乗法の産物ですが、 一次近似の最小二乗法というのは、何をやっているのかというと、 「グラフ用紙を縦か横に引き伸ばして、 直線の傾きを45度か、-45度のどちらかに規格化している」 ということをやっています。 これは、まったく合理的なことです。 このことは、そうでないことを考えれば明らかです。 45度からかけ離れた角度、たとえば、10度以下とか80度以上のグラフを描くと、 どんなデータであっても、直線の関係があるように見えてしまいます。 --------------------------------------- ちなみに、 相関係数には、というか、一次近似の最小二乗法には、大きな欠点があります。 それは、 左右対称、または、上下対称のデータの場合、r=0(相関なし)になってしまうことです。 <例1> 円の円周上の点の座標を1°刻みで、360個の(x、y)データにしたとしましょう。 半径の長さや中心の座標は、どこでもよいです。 相関係数は、ゼロになります!!! <例2> 左右対称な二次関数のデータ、たとえば、 -10 ≦ x ≦ +10 という範囲で、 y = 3x^2 + 5 の上の点の座標を、x座標を 0.1 刻みで計算して、(x、y)データにしたとしましょう。 これも、相関係数はゼロになります!!! つまり、人間の目には明らかに相関があるデータ(グラフの図形)なのに、 一次近似では、まったく相関がないことになってしまうことがあるわけです。 --------------------------------------- >>>相関係数も様々な種類があるようなのですが、変化の量も測定できるような、統計数値はありませんでしょうか? 「変化の量も測定できるような、統計数値」 は、y=ax+b における a だけ見ればよいだけの話です。 得られた式のaやbの信頼度、つまり、aの誤差やbの誤差は、最小二乗法の結果の一つとして求まります。 これらは、数字の大きさも加味されます。 Excelの関数にもあるはずです。 ただし、r=1 の場合は、当然ながら、aの誤差もbの誤差もゼロになります。 相関係数について「変化の量も測定」というのは、 上記した「45度からかけ離れた角度」のグラフを描くことと同じですから、全く無意味です。 これに関しては、相関係数の種類を変えても同じことです。 以上、ご参考になりましたら。
- okormazd
- ベストアンサー率50% (1224/2412)
y=F(A) が、 直線上に乗るのであれば、 yが、どんな値であろうと、 相関係数は「1]になります。 要するに、 y=kA+Const になっていれば、相関係数は「1]です。 直線に乗るというのは、決定係数が「1]になるということです。 相関係数は、決定係数の平方根です。
- 25no12
- ベストアンサー率53% (35/66)
相関係数は、「各データの平均からのずれを表すベクトルのなす角の余弦」なのだそうです。 「平均からのずれ」だけが問題になるわけです。 AとCを比べると、各因子がすべて、c=a-50の関係になっています。 平均からのずれは・・・当然ぴったり一致しますね。
相関関係をみる場合、まず散布図を描かれることをお勧めします。