相関がないのに相関係数が1???
相関係数の意味を考えていて、理解できないことが出てきたので教えて下さい。
変数Xと変数Yの相関係数の求め方は、データ数がnの時、
1.変数X,Yの平均値を求める。ここでは、X^、Y^と書くことにします。
2.変数X,Yの標準偏差を求める。ここでは、σx、σyと書くことにします。
3.変数X,Yを基準化する。
基準化したX=(X-X^)/σx、 基準化したY=(Y-Y^)/σy
4.基準化したX,Yの積の平均が相関係数である。
r=1/n・Σ{(基準化したX)・(基準化したY)}
となります。
基準化したXと基準化したYの積が全て1のデータの場合、
例えば、(1,1)、(0.5,2)、(0.4,2.5)、(0.1,10)、(0.01,100)、(-1,-1)、(-0.5,-2)、(-0.4,-2.5)、(-0.1,-10)、(-0.01,-100)‥‥‥
双曲線になりますが、平均値と標準偏差で元のデータに戻しても、双曲線みたいなデータの散布図になります。つまりXが大きければYも大きいという関係がないにもかかわらす相関係数は1になってしまいます(というか1になるようにデータを選んだ)。
考え方に間違いがありますか。
補足
ご回答ありがとうございます。 わかりづらい表現で申し訳ございませんでした。 学校の課題ではありません。問題を作る側です。(詳しくは言えないですが) 高校生に出題する問題を考えているのですが,計算が複雑にならないような問題を出題したいのです。 電卓や表計算ソフトを用いないで解かせるつもりなので,データ数は10個程度でいいです。 勿論そんな程度のデータ数で標準偏差や相関係数を求める意味はないのかもしれないですが,あくまで手計算をさせる練習問題が作りたいのです。(現実的ではないのかもしれませんが) 今はエクセルを用いて,標準偏差であればルートが外れるもの(もしくは√2,√3),相関係数であれば0.5などになるように数値を適当に打ち込んで,そのようになる数値を見つけるという状態です。 これではなかなか見つかりません。 なので,例えば問題作成において「標準偏差が5になる数値データが10個欲しいな」というときに瞬時に出力されるものが欲しいです。 「プログラミングで作ることは不可能ではないけれでも命令文が長くなる」というのは友人からも聞いたのであきらめます。 エクセルでそのようなことはできないでしょうか。再度お尋ねします。 ※「相関係数が綺麗になる」という表現は不適切でした。不勉強で申し訳ございませんでした。