- 締切済み
回帰分析の検定?
こちらのカテゴリーで質問してよいのか、わかりませんが、 似た質問がこちらに多くあるので、質問させていただきます。 現在、回帰分析について勉強しています。 いろいろな本で勉強していますが、検定の方法がいくつも 説明されているものがあり、普通に回帰分析をやった場合は どの検定をするのが普通なのでしょうか? 傾き=0でないことを検定することが普通ですか? 変な質問で申し訳ありませんが、どうぞよろしくお願いいたします。
- みんなの回答 (14)
- 専門家の回答
みんなの回答
- sanori
- ベストアンサー率48% (5664/11798)
「回帰直線は y = 0.13x + 0.87 と45°とは全く異なりますが,相関係数は r=0.99 と非常に高くなります。」 と書くような人に、相関係数云々を論じる資格はないと思います。 しかも、自分なりの考えを書くに留めればよいのに、鼻から他人に「まったく間違っています」といきなり突っかかってくる。 傾きには単位があるのが通例。 0.13は、m/sでも、km/hでも、inch/min でも何でもよいのです。 単位を変えれば(=ある係数をかければ)、角度は45°になります。 一次関数の最小自乗法というものは、規格化すれば、45°または -45°にしたとき、XとYとで同じだけ平等に直線からばらつきが最小になるようにできています。 それが直線回帰の本質です。 だから、逆関数の相関係数は同じになるのです。 傾きがぴったりゼロになったとき、逆関数の傾きもゼロになります。 それは、傾きが不定であるということを意味しているのです。 まあ、そういうデータは現実には、ほぼありえませんが、 各データと回帰直線との距離をプロットしたグラフもそれと同じです。 XとYをひっくりかえしても、やはり傾きゼロになります。 そんなものを趣味で「傾きゼロの平べったい回帰直線」に乗せて喜んでも、無意味。 そのとき意味があるのは、直線からの外れ具合だけで、傾きには何も意味がない。 ちなみに、 ほかに質問を立てて、特定のユーザー名を名指しして吊るし上げる手法は、本当にひどい。 スタッフさんに、あちらの不適切箇所について通報しても対応してくれませんから、ここに書きました。
- 井口 豊(@Iguchi_Y)
- ベストアンサー率68% (157/228)
他の人から,質問者さんが怯えてしまって無言になってしまった,との指摘がありました。 それは私の本意ではなく,もしそうなら大変申し訳なく思います。 また,回答No12などに回答を寄せているsanoriさん。 どうやら,通常の最小二乗法(Ordinary Least Square: OLS)を誤解してるようですね。 私が勝手に,それをsanoriさんが知ってると思いこんでしまいました。 こちらから失礼な発言があったら,すみません。 回答No10の >xに対してyの傾きが0という結果が出るなら、 逆関数として、yに対してのxの傾きも0になるはず。 回答No12の >直線のx方向にもy方向にも最小二乗となる。 全く間違いです。もちろん,OLSでのことです。 通常の最小二乗法は,x→yの関係とy→xの関係は逆関数にならないのです。 もちろん,相関係数は,両者で全く同じです。 そもそも最終的な計算が異なるからです。 EXCELなどで普通に行われる最小2乗法の計算手順の例を示します。 参考にして下さい。 例えば, x y 1 6 4 8 5 35 9 25 10 60 12 50 15 85 17 75 のデータセットを考えます。 添付図の左です。 それぞれの平均をmx,myとすると mx = 9.125 my = 43 次に, 平均からの差の積和 Σ(x-mx)(y-my) xの平均からの2乗和 Σ(x-mx)^2 を求めます。 x mx x-mx y my y-my 1 9.125 -8.125 6 43 -37 4 9.125 -5.125 8 43 -35 5 9.125 -4.125 35 43 -8 9 9.125 -0.125 25 43 -18 10 9.125 0.875 60 43 17 12 9.125 2.875 50 43 7 15 9.125 5.875 85 43 42 17 9.125 7.875 75 43 32 平均からの差の積和 Σ(x-mx)(y-my) = 1049 xの平均からの2乗和 Σ(x-mx)^2 = 214.875 傾き = Σ(x-mx)(y-my) /Σ(x-mx)^2 = 4.881908086 となります。 EXCELのSLOPE関数でも同じ 4.881908086 この最小2乗近似直線が,添付左図。 その図の近時曲線の追加オプションから, グラフに数式を表示する,をチェックしても 同じ傾きです。 この回帰直線 y = 4.8819x - 1.5474 の,x,yを入れ替えて,逆関数を求めると, y =0.2048x +0.3170 しかし,上のデータセットのx,y入れ替えたグラフを添付右図に示したので,見てみましょう。 y = 0.1717x + 1.7401 逆関数とは,違う式であることが分かります。 これは,上記示した回帰の傾きの式 傾き = Σ(x-mx)(y-my) /Σ(x-mx)^2 の分母がxだけで決まる一方通行的な式だからです。 x,yを入れ替えれば,逆関数とは当然異なる式が出るし, >直線のx方向にもy方向にも最小二乗となる わけではなく,縦方向,つまり,y軸平行の方向のみに最小になるように定義されているからです。 一方で,相関係数の式を考えてみましょう。 Σ(x-mx)(y-my) /Root(Σ(x-mx)^2)Root(Σ(y-mx)^2) x,yの対称式,つまり,xとyを入れ替えても変わらないことがわかります。 これから, >xに対してyの傾きが0という結果が出るなら、 逆関数として、yに対してのxの傾きも0になるはず。 も間違いだと分かります。。 さらに,回答No9に示したようなデータセット x y 1 0 0.7071 0.7071 0 1 -0.7071 0.7071 -1 0 -0.7071 -0.7071 0 -1 0.7071 -0.7071 も考えてみます。 回答No9の添付図に示したように 単位円上の45度ごとの点です。 0.7071は, 1/Root(2) = 0.70710678....... で計算しますが,説明上,概算値です。 上と同様に計算すると, 平均からの差の積和 Σ(x-mx)(y-my) = 4 xの平均からの2乗和 Σ(x-mx)^2 = 0 傾き = Σ(x-mx)(y-my) /Σ(x-mx)^2 = 0 となります。 EXCELのSLOPE関数でも同じ,0 回答No9の図を見ると,直感的には,どこに線を引いたら良いか不明です。 どこでも引けるし,どこへも引けない,という感じ。 しかし,OLS最小2乗法の傾きの定義式 傾き = Σ(x-mx)(y-my) /Σ(x-mx)^2 から,分母は,xの平均以外で0にならず,分子だけ0になって, 傾き=0 となります。 再び,分母のΣ(x-mx)^2に注意してください。 xだけで決まっていて,yは関係ありません。 つまり,相関係数が1であれ,0であれ,どうであれ,xが2つ以上あれば,直線が決まります。 分母は,xの平均からのみ,の偏差を考えてるからです。 そこが,x,y両方の平均からの散らばりを考える相関係数とは異なります。 また,それゆえ,これが時として,批判の対象ともなります。 今回,示したような相関0のデータでも,xが変化していれば, 私たちの直感的な見方とは別に,最小2乗直線が決定されるのです。 ちなみに,EXCELで,ツール → 分析ツール → 回帰分析,とたどって,円周上のデータの分析を行えます。 自由度 変動 分散 観測された分散比 有意 F 回帰 1 4.44089E-16 4.44089E-16 6.66134E-16 0.99999998 残差 6 4 0.666666667 合計 7 4 係数 標準誤差 t P-値 切片 0 0.288675135 0 1 X 値1 -5.55112E-17 0.40824829 -1.35974E-16 1 がでます。 上部がOLS最小2乗回帰直線全体のF検定です。 有意確率が実質的に1でよく適合していることを示します。 下部が,OLS最小2乗近似された直線で 切片0 傾き-5.55112*10の-17乗で,実質的にこれも0です。 t検定が行われ,切片も傾きも,P=1の確率で0と異ならない,と示されています。 X 値1の検定が,帰無仮説:傾き=0に対する検定です。 この検定に関しては, 第2章 データ分析の進め方 http://www1.odn.ne.jp/~gengen525/index1.files/da12_2004.ppt のp13も参考になります。 また,そのp10に,直線の垂直方向に最小,となることも示されています。
- sanori
- ベストアンサー率48% (5664/11798)
こんにちは。 このご質問に対しては、これをもって最後の回答としたいと思います。 前回までの回答と重複する部分が多分にありますが、まとめます。 ・n個のデータ(x1、y1)、(x2、y2)、・・・(xn、yn)の回帰(最小二乗法)を行うと、 ・直線y=ax+b の aとbが求まる。相関係数rと(直線に対する)標準偏差も求まる。 全データの点に関し、直線のx方向にもy方向にも最小二乗となる。 ・aが正なら相関係数rは正、aが負ならrは負。 ・x1~xnの平均値をxa、y1~ynの平均値をyaとすると、直線は必ず点(xa、ya)を通る。 したがって、直線は y-ya=a(x-xa) とも書ける。 言い換えれば、xに関して-xa、yに関して-yaの平行移動を行えば、yとxは、傾きaの比例関係となる。 ・さらに、aが1あるいは-1になるように規格化(目盛りを縮めるか広げるかに相当)を行うと、 回帰直線は、Y=X または Y=-X の形にできる。 (このとき、YとXは無次元と考えたほうがよいと思います。) こうすると、全データ点は、直線Y=X または Y=-X の上下にも左右にも、グラフ上で同じ標準偏差で散らばる。 (これが、45°、-45°の意味です。) そして、検定(?)についてですが、 指標は、相関係数r、および、直線に対する標準偏差でよいです。 相関係数の絶対値が、たとえば、0.9以上ないと相関があるとは言えない、というような文言が書かれた書籍は存在すると思います。 ところが、工業における私の経験では、ある製品について相関係数が0.6もない事象に着目して対策を施したところ、利益率が20%程度アップ、金額にして毎月数千万円規模の利益向上につながったことがあります。 つまり、相関係数を複数の要因どうしを比べる目的に使うと、絶対的に「~以上でないとダメ」という「検定」以外に、「この要因が最も怪しい」という有効な結果に結びつくことがあります。 では。
- 178-tall
- ベストアンサー率43% (762/1732)
ご質問の趣意を把握できず、反問のみになりますが…蒙御免。 >傾き=0でないことを検定することが普通ですか? 「傾き=0でないことを検定」が、「回帰」に先立ち「無相関」の変数を排除する検定、という意味なら、そのとおりでしょうね。 「回帰分析」へ突入する前に「データ検定」や「相関分析」を行なうのがふつうでしょうから。 たとえば、参考URL の「実験計画」の流れですが、一般論だと議論が発散しそう。 仮想的モデルでもよいので、気になる例でも提示なされば、的をしぼれませんかね。
- sanori
- ベストアンサー率48% (5664/11798)
円の場合に、xに対してyの傾きが0という結果が出るなら、 逆関数として、yに対してのxの傾きも0になるはず。 さて、それは何を意味しているのでしょうか?
- 井口 豊(@Iguchi_Y)
- ベストアンサー率68% (157/228)
回答No8が,どうもわかりません・・・ 通常の最小二乗法(Ordinary Least Square: OLS)のことでは,ないのでしょうか? twitterでも,この話題を取り上げたところ, >線形回帰の回帰係数の検定は、「傾き=0でない」ことの検定ですね。無相関だと傾きは0です http://twitter.com/#!/isseing333/status/68924359422640128 との回答を得ているのだが・・・。 回答No8に >どこかの点を中心とする円があり、その円の円周上に正確に等間隔で1周分プロットされた点データがあるとすると、 とある。 例えば, X Y 1 0 0.707106781 0.707106781 0 1 -0.707106781 0.707106781 -1 0 -0.707106781 -0.707106781 0 -1 0.707106781 -0.707106781 のデータセットを考えよう。 0.707106781は,1/root(2) であり,単位円 x^2+y^2=1 の周上に45度ずつプロットした点である。 これをEXCELのグラフにし, 近似曲線の書式設定でグラフに数式とR^2を表示 としたものが添付図。 相関係数0だが,線形最小2乗式は,y=0 つまり傾き0である。 また上記のデータをEXCELの組み込み関数(下記のカッコ)を用いて,解析すると, 相関係数(CORREL)=0 直線の傾き(SLOPE)=0 y切片(INTERCEPT)=0 と算出される。 繰り返すが,OLSで計算,検定してるのだろうか? NO2回答で, >最小二乗法については「検定」という概念は知りません と言ってるのに,なぜ,傾きの求め方などはわかるのだろうか? ちなみに,あくまでOLSの話。EXCELなどの解析も通常はこれ。 回答No8は,何か通常と異なる回帰なのか,という気がする。
- sanori
- ベストアンサー率48% (5664/11798)
補足をします。 念のために申し上げておきますが、質問者さんのための質問者さんへの補足です。 1. どこかの点を中心とする円があり、 その円の円周上に正確に等間隔で1周分プロットされた点データがあるとすると、 相関係数は正確にゼロとなります。 そして、このとき傾きは不定(0分の0)となります。 2. 全データのx座標の平均値をX、y座標の平均値をYとするとき、 回帰分析を行って得られる直線の方程式は、必ず点(X,Y)を通ります。 その点に釘を打った直線の棒があるとして、その棒を回してどういう傾きになるかな?という話になります。 (X,Y)を基準として全体的に右上がりの傾向があれば、相関係数rは正の値になり、右下がりの傾向があれば相関係数は負の値になります。 正の値になった途端、x軸かy軸の目盛りの間隔を広がるか縮めるかして、傾きが45°になり、 負の値になった途端、x軸かy軸の目盛りの間隔を広がるか縮めるかして、傾きが-45°になるというイメージです。 中間がないのです。 rの最大値は理論的に1で最小値は-1ですが、 0<r≦1 は右上がりを、-1≦r<0 は右下がりを表します。 rの値は、単純にxとyの変化の比から求めた単純な傾きとは無関係です。 rが正であれば45°、rが負であれば-45°を表します。
- 井口 豊(@Iguchi_Y)
- ベストアンサー率68% (157/228)
補足です。 傾き=0の検定と相関係数の検定は、全く同値です。 例えば、相関が0なら、傾きも0です。 先ほど挙げたEXCEL利用した回帰分析のサイトを見てください。 http://www.aoni.waseda.jp/abek/document/regression-1.html 回帰の分散比84.41... は、 x値1(傾き)の検定のt=9.187の2乗になる。 この意味では、回答No1の意見も正しい。
- 井口 豊(@Iguchi_Y)
- ベストアンサー率68% (157/228)
>XとYの相関を非常によく見せることもできるし この点は,全く同意です。 そういうグラフは困ったことに確かにある。 >目盛り間隔によって,45°か-45°にできる も確かに,そのとおり間違いない。 私が言いたいのは,相関係数の値と回帰直線の係数は関係しないということ。 見た目,でなく,算出された数値を指摘している。 グラフ描写自体は,確かに,そういうことがあるが, 質問者が言う,最小2乗で求めた y = ax +b の直線の傾きaで45度と言えば,a=1のこと。 a=1になるかどうかと,相関係数が高いかどうか,必ずしも関係しない。 そもそも係数=0かどうか検定は,普通にするのに,しないかのようなアドバイスは,おかしい。 もしかすると,説明不足かもしれないので,ぜひ,EXCELによるa, bの検定も分かりやすく説明してもらいたい。
- sanori
- ベストアンサー率48% (5664/11798)
補足しますね。 回帰で得られる直線というのは、45°や-45°にしたときに、データの各点が直線のX方向とY方向に平等に散らばるように(平等に外れるように)できた直線なんです。 ですから、45°か-45°になるようにX軸とY軸のどちらかの目盛り間隔を広げるか縮めるかすると、それが見えてくるのです。 その本質を知らない人は、1名さんだけでなくたくさんいるのです。 論文などでも傾きが25°もない平べったいへたくそなグラフを載せている例が散見されます。 そういうグラフを作ると、XとYの相関を非常によく見せることもできるし、非常に悪く見せることもできます。 それはインチキです。 45°、-45°ぐらいにすれば、そういうインチキができなくなります。 平坦なグラフを描くとすれば、工場などで工程や検査での明らかな異常を発見する用途ぐらいです。
- 1
- 2