数学カテで「ふわっと」を期待されてもな。
モノが沢山(N個)ある。これらのモノに番号k = 1,2,…, Nを付けておきます。
そして、モノkについて、M種類の計測をやった結果が、
計測1の結果=x[k,1], 計測2の結果=x[k,2], …, 計測Mの結果=x[k,M]
という風に得られているとします。たとえば計測1は長さ、計測2は重さ、計測3は電気抵抗、のように単位が違っていても構いません。N個のモノのそれぞれについて、M種類の計測結果があるわけです。
さらにそれぞれのモノkについて、何かもうひとつの計測結果y[k]が得られているとします。
ですから、N×(M+1)個のデータを持っている。
さて問題は、「モノ1~N以外に、もうひとつ新しいモノpを持って来る。そのモノについて、計測1~計測Mを行い、結果x[k,p](p=1,2,…,M)を得ます。で、それらの結果だけを見て、そのモノのまだ測っていないy[p]の値を推定しろ」
ということです。
どうやるかというと、まずx[k,1], x[k,2], …, x[k,M]からy[k]をうまく推定する式をナントカしてこしらえておきます。得られた式を「モデル」と呼び、f(x[1], x[2], …, x[M]) とします。ここにx[1]~x[M]はどれも変数です。fはM個の変数がある式ですね。fをこしらえる作業が「回帰分析」です。一番簡単なモデルは
f(x[1], x[2], …, x[M]) = a[0] + a[1]x[1] + a[2]x[2] + … + a[M]x[M]
(係数a[0]~a[M]は定数)という一次式のモデルで、これを「線形モデル」と言います。(よく「直線を当てはめる」なんて言うのは、線形モデルでしかもM=1である、最も簡単な場合の話です。その場合にはy=f(x[1])が直線の方程式になっているからです。)
しかし、yの値とx[1], x[2], …, x[M]との関係を説明する理論が何かある場合には、その理論から導かれる複雑な関数を使うことになります。
ともかくfが出来ていれば、新しいモノpのy[p]の推定値y*[p]を
y*[p] = f(x[p,1], x[p,2], …, x[p,M])
と計算できます。実際に測定したy[p]とこの推定値y*[p]との差r[p]を「残差」と呼びます。すなわち
r[p] = y*[p] - y[p]
です。
さて、x[k,1], x[k,2], …, x[k,M]からy[k]をうまく推定する式f(x[1], x[2], …, x[M])をどうナントカ作るのか、というところが話のポイントです。それには、x[k,1], x[k,2],…, x[k,M], y[k]が分かっているN個のモノの情報を使って、残座
r[k] = f(x[k,1], x[k,2], …, x[k,M]) - y[k]
がどのkについても「小さく」なるようにfを決めておく(たとえば、上記の線形モデルの場合なら、係数a[0]~a[M]の値を旨く調節しておく)のです。この時に最もよく使われるのが、
E = Σ(r[k]^2) (Σはk=1,2,…,Nの総和。^2は2乗するという意味。)
を最小にするようにfを決める、というやり方で、これを「最小二乗法」と言います。Eを「残差二乗和」と呼びます。
相関関係との関連について。
fは一次式とは限りません。一次式でない場合、x[1], x[2], …, x[M]とyとの相関関係を見てもナニガナンダカ分からんということになりましょう。それは相関関係の正しい扱い方ではありません。
さて、もしfが推定値y*を計算する性能が非常に良いのであれば、y*[p]とy[p]とはほとんど同じになる筈です。その場合、k=1,2,…,Nについて、横軸をy*[k]=f(x[k,1], x[k,2], …, x[k,M]) 、縦軸をy[k]にして散布図を作れば、原点を通る直線になるでしょう。しかし、もしfが推定値y*を計算する性能が悪いと、この散布図は点がばらばらに散ったものに成ってしまうでしょう。ですから、yとy*の相関関係を調べることによって、fの性能の良し悪しが分かる訳です。
さて、たまたまfが線形モデルでしかもM=1であるとき、すなわち
f(x[1]) = a[0]+a[1]x[1]
である、という場合、もしこのモデルの性能が非常に良いなら、横軸x[1]、縦軸yの散布図を作ると、直線
y = a[0]+a[1]x[1]
が現れるでしょう。ですから、散布図を見るだけで大体のa[0], a[1]の値が読み取れることになります。しかし、このやり方は「たまたま線形モデルでしかもM=1」という場合にだけしか通用しません。
残念ながら、「線形モデルでしかもM=1というのが(そしてこれだけが)回帰分析だ」と誤解している人は非常に多くて、教師の中にすら時々います。困ったもんです。
お礼
回答ありがとうございます!