• ベストアンサー

回帰分析について概念的なところを教えて下さい

回帰分析について、統計学の初心者の私にふわっとどういうものか教えて頂けますか? 自分の理解としてはAとBがあって、AがこのくらいならBはこのくらいだよというのが 分析できる(?) です。 また、相関関係との関連を教えて欲しいです。 相関関係を出してから回帰分析するのかなど。

質問者が選んだベストアンサー

  • ベストアンサー
  • trytobe
  • ベストアンサー率36% (3457/9591)
回答No.3

2つの項目、たとえば、「身長」と「体重」のデータを、何人分も「身長」を横に、「体重」を縦に目盛りをつけて、グラフ上に点を打って(プロットして)おきます。 そのデータを見たときに、「身長と体重の間になにか関係式・計算式が作れたら、大体の予測に使えるよね」ということで、サンプルデータに一番近づくように近似式を求めるのが「回帰分析」です。 回帰分析(1) http://www.aoni.waseda.jp/abek/document/regression-1.html ただ、完全に回帰式にピッタリあう人ばかりではないので、関係式(近似式)との誤差の大きさによって、完璧に近似式に合致する相関係数1(または-1)から、外れるデータが増えたり外れ幅が大きかったりすることで相関係数が0(全く相関関係なし)に近づいていってしまいます。 統計解析Q&A-相関と回帰分析- http://www.hs.hirosaki-u.ac.jp/~pteiki/research/stat/qa/qacor.html 基本は、昔ながらにまずはデータをグラフ用紙にプロットして、直線関係なのか曲線なのかで、近似式の計算式の形を選び、それをフィッティングするように近似式の係数を最小二乗法で決めて回帰分析をし、その近似式に対して相関係数を求めることで、どれだけフィッティングができているかを定量化してみる、という流れが一般的と思います。

noname#233678
質問者

お礼

回答ありがとうございます!

すると、全ての回答が全文表示されます。

その他の回答 (2)

回答No.2

確率変数 B=(B1,…,Bk), A=(A1,…,Am) が何らかの関係を持っている時、B と A がどの様な関係を持っているかを推定する手法です。より具体的には、 B = f(A; θ); 但し θ=(θ1, …, θn) はfの関数形を決める未知パラメータ達 という式で B が A を用いて説明できると仮定します。しかし、実際には上の式で完璧に説明できる事はなく、差 E = B - f(A, θ) が生じます。この E ができるだけ小さくなる様にパラメータθを決定する事によって f() の関数形を求めようというのが回帰分析です。 実際には * f の関数形はどの様にするか (f = θ・A + θ0 とか f = θ・F(A) (Fは何かの基底関数系) だとか f = より一般 ) * 「E ができるだけ小さい」とはどういう事と定義するか などによって様々な具体的手法があります。 具体的・厳密な事については No.1 の方が書いてくれた様ですのでそちらを読んで下さい。

noname#233678
質問者

お礼

回答ありがとうございます! 参考になりました。

すると、全ての回答が全文表示されます。
  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.1

数学カテで「ふわっと」を期待されてもな。  モノが沢山(N個)ある。これらのモノに番号k = 1,2,…, Nを付けておきます。  そして、モノkについて、M種類の計測をやった結果が、   計測1の結果=x[k,1], 計測2の結果=x[k,2], …, 計測Mの結果=x[k,M] という風に得られているとします。たとえば計測1は長さ、計測2は重さ、計測3は電気抵抗、のように単位が違っていても構いません。N個のモノのそれぞれについて、M種類の計測結果があるわけです。  さらにそれぞれのモノkについて、何かもうひとつの計測結果y[k]が得られているとします。 ですから、N×(M+1)個のデータを持っている。  さて問題は、「モノ1~N以外に、もうひとつ新しいモノpを持って来る。そのモノについて、計測1~計測Mを行い、結果x[k,p](p=1,2,…,M)を得ます。で、それらの結果だけを見て、そのモノのまだ測っていないy[p]の値を推定しろ」 ということです。  どうやるかというと、まずx[k,1], x[k,2], …, x[k,M]からy[k]をうまく推定する式をナントカしてこしらえておきます。得られた式を「モデル」と呼び、f(x[1], x[2], …, x[M]) とします。ここにx[1]~x[M]はどれも変数です。fはM個の変数がある式ですね。fをこしらえる作業が「回帰分析」です。一番簡単なモデルは   f(x[1], x[2], …, x[M]) = a[0] + a[1]x[1] + a[2]x[2] + … + a[M]x[M] (係数a[0]~a[M]は定数)という一次式のモデルで、これを「線形モデル」と言います。(よく「直線を当てはめる」なんて言うのは、線形モデルでしかもM=1である、最も簡単な場合の話です。その場合にはy=f(x[1])が直線の方程式になっているからです。)  しかし、yの値とx[1], x[2], …, x[M]との関係を説明する理論が何かある場合には、その理論から導かれる複雑な関数を使うことになります。  ともかくfが出来ていれば、新しいモノpのy[p]の推定値y*[p]を   y*[p] = f(x[p,1], x[p,2], …, x[p,M]) と計算できます。実際に測定したy[p]とこの推定値y*[p]との差r[p]を「残差」と呼びます。すなわち   r[p] = y*[p] - y[p] です。  さて、x[k,1], x[k,2], …, x[k,M]からy[k]をうまく推定する式f(x[1], x[2], …, x[M])をどうナントカ作るのか、というところが話のポイントです。それには、x[k,1], x[k,2],…, x[k,M], y[k]が分かっているN個のモノの情報を使って、残座   r[k] = f(x[k,1], x[k,2], …, x[k,M]) - y[k] がどのkについても「小さく」なるようにfを決めておく(たとえば、上記の線形モデルの場合なら、係数a[0]~a[M]の値を旨く調節しておく)のです。この時に最もよく使われるのが、   E = Σ(r[k]^2)  (Σはk=1,2,…,Nの総和。^2は2乗するという意味。) を最小にするようにfを決める、というやり方で、これを「最小二乗法」と言います。Eを「残差二乗和」と呼びます。  相関関係との関連について。  fは一次式とは限りません。一次式でない場合、x[1], x[2], …, x[M]とyとの相関関係を見てもナニガナンダカ分からんということになりましょう。それは相関関係の正しい扱い方ではありません。  さて、もしfが推定値y*を計算する性能が非常に良いのであれば、y*[p]とy[p]とはほとんど同じになる筈です。その場合、k=1,2,…,Nについて、横軸をy*[k]=f(x[k,1], x[k,2], …, x[k,M]) 、縦軸をy[k]にして散布図を作れば、原点を通る直線になるでしょう。しかし、もしfが推定値y*を計算する性能が悪いと、この散布図は点がばらばらに散ったものに成ってしまうでしょう。ですから、yとy*の相関関係を調べることによって、fの性能の良し悪しが分かる訳です。  さて、たまたまfが線形モデルでしかもM=1であるとき、すなわち   f(x[1]) = a[0]+a[1]x[1] である、という場合、もしこのモデルの性能が非常に良いなら、横軸x[1]、縦軸yの散布図を作ると、直線   y = a[0]+a[1]x[1] が現れるでしょう。ですから、散布図を見るだけで大体のa[0], a[1]の値が読み取れることになります。しかし、このやり方は「たまたま線形モデルでしかもM=1」という場合にだけしか通用しません。  残念ながら、「線形モデルでしかもM=1というのが(そしてこれだけが)回帰分析だ」と誤解している人は非常に多くて、教師の中にすら時々います。困ったもんです。

noname#233678
質問者

お礼

回答ありがとうございます! 参考になりました。

すると、全ての回答が全文表示されます。

関連するQ&A