- ベストアンサー
多重共線性について(SPSSの表の見方)
いつもお世話になっています。臨床心理専攻の院生です。修士論文で、統計処理をやっているのですが、よくわからないことがあり、質問します。 重回帰をやっているのですが、表題にもあるように多重共線性について、よくわかりません。 SPSSで統計処理をおこなった結果、変数のVIFは全て5以下でした。これだけで、多重共線性が 「ないだろう」と考えられますか?多重共線性を考える際にSPSSの出力表のどの部分に着目すれば よいのか、やや曖昧です。教えていただけましたら幸いです。 宜しくお願いいたします。
- みんなの回答 (2)
- 専門家の回答
みんなが選んだベストアンサー
No.1です。 恐縮ながら、補足でのご質問に回答する前に、いくつか助言を差し上げたいと思います。 小生も教員の端くれですが、教育的配慮からとご理解ください。 補足を拝見しますと、大変失礼ながら、重回帰分析がどのような手法であるのか、あるいは、重回帰分析を使って何をしたいのか、何が出来るのかを良くご理解でないまま使っていらっしゃると思えて仕方がありません。 その最たる点は、独立変数が24もあるという点です。 多くの場合、重回帰で独立変数になるのは、性別や年齢など、対象者の基本的な情報であることが多いと思います。 他の尺度の得点なども用いることもあり得ますが、それにしても、独立変数が多いように思います。 通常、重回帰分析を実施した結果に基づいて、どの独立変数が、従属変数の変化(増減)に有意に影響しているかをみて行きます。 そのためには、SPSSの出力のうち、「モデル集計」で、決定係数(R^2)や、変化の欄に示される諸結果(R^2変化量、F変化量、有意確率(F変化量))などを確認します。 また、重回帰分析に使用する独立変数について、計算プロセスでどのように投入するかについても、強制投入法、ステップワイズ法など、いくつかの方法があり、その特徴にしたがって、使い分ける必要があります。 今回の分析では、どうも24の独立変数を「強制投入法」で、すべて投入した結果について、他の重要な指標をさておき、多重共線性にのみ注意を向けてしまっていらっしゃるように見えてしまいます。 そういう前提で、24の独立変数の多重共線性云々という議論は、おそらくほとんど意味がないのではないかと考えます。 以上から、現時点での結論を書きますと、重回帰分析の本質を十分に理解されないまま、そのポイントである結果については見ずして、枝葉末節である(と書くと、言い過ぎですが)「多重共線性」のことばかりに着目していらっしゃるように思われてなりません。 大変失礼ですが、もう一度、研究目的をご確認の上、それを明らかにする上で、重回帰分析がもっとも適した方法であることを再確認されることを、まずはお勧めしたいと思います。 また、同時に、重回帰分析がどういう方法であるかについて、No.1でご紹介したような基本的な文献で確認された方が良いかと思います。 なお、臨床心理専攻の修士課程に在籍していらっしゃるということですが、そちらの先生方でも、統計処理に詳しい方もいらっしゃるでしょうから、こういうサイトで質問なさるよりは、そうした先生方に質問紙、データ、分析結果をお持ちになってご相談になる方が、スムーズな解決や、よりよい理解という点では、はるかによろしいかと思います。 冷たく読める回答で、厳しいことを申し上げて失礼かとは思いますが、ここでのやりとりでは限度もありますので、上記のように対応してみてください。
その他の回答 (1)
- vzb04330
- ベストアンサー率74% (577/778)
ご承知かと思いますが、多重共線性(multicollinearity)は、複数の独立変数の間に強い相関があることをいいます。 英語の名称が示すように、multi=複数の、collinearity=線形関係(一次関数の関係)があるということを意味します。 したがって、多重共線性が高いと、重要な独立変数が「有意ではない」と見なされてしまい、モデルから棄却される可能性が高くなります。 また、多重共線性が存在しますと、回帰係数の分散が大きくなり、回帰式が不安定となります。 その結果、標本の取り方次第で値が変わってしまいます。 ご質問にありますように、SPSSでは、VIF(Variance Inflation Factor;分散拡大要因)と、許容度(tolerance;トレランス統計量)の2つが、重回帰分析の出力結果のうち、「係数」の表の右端に示されています。 VIFが、1より十分大きいとき、具体的には、10以上になる場合には要注意となりますし、平均VIFが1を超える場合には、多重共線性が影響している可能性があるとされます(平均VIFは、各独立変数のVIFを加算して、独立変数の数で割ります)。 一方、許容度は、0.1以下であれば重大な問題があり、0.2以下なら潜在的な問題があると考えられています。 逆から言えば、少なくとも0.25以上の許容度が望ましく、0.5以上であれば良好とされます。 許容度は、独立変数群の中で、ある独立変数を従属変数として重回帰分析を行ったときの決定係数(R^2)を1から引いたものです(許容度=1-R^2)。 ちなみに、VIFと、許容度とは「逆数」の関係にあります(つまり、VIF=1÷許容度、許容度=1÷VIFです)。 具体的にいえば、許容度=0.25のとき、VIF=4であり、許容度=0.5であれば、VIF=2となるのです。 さらには、VIF=5のとき、許容度は0.2、VIF=10ですと、許容度=0.1となります。 このとき、決定係数(R^2)は、それぞれ0.8と0.9となりますので、その独立変数は、他の独立変数の情報によってほとんど説明されてしまい、それ独自の情報としての意味がほとんどないということになります。 以上のことから考えますと、VIFは最大でも4(このとき、許容度=0.25)、「良好な状態」を考えれば、VIFは、できれば2未満(許容度が、0.5以上)が適切と考えられます。 したがって、ご質問にありますように、VIFが5未満というのは、必ずしも十分な値とはいえないといわざるを得ません。 なお、多重共線性の診断に関して、SPSSの出力では、「共線性の診断」という表があります。 この表で、「次元の数」は、定数項と独立変数の数を示します。 詳細な説明は、統計学やSPSSの解説書をご参照いただくとして、ポイントだけを書きます。 「固有値」のいくつかが、0に近い場合、独立変数間に強い相関があるということを示しています。 また、「条件指標」は、許容水準を示していると考えられ、一般には、条件指標が15以上であれば強い多重共線性が、また、30以上であれば、重大な多重共線性が生じているとみなされます。 「分散の比率」は、その次元とそれぞれの独立変数との関係の強さを示す指標で、固有値が0に近く、条件指標が15を超えている次元で、「分散の比率」が高くなります。 一応の目安として、条件指標が0.5以上の独立変数が複数ある場合に、それらの変数の間に共線性が生じていると判断します。 一般的には、許容度や、VIFが良好な値であれば、固有値と条件指標も良好な結果になりますので、実質上、VIFで判断してかまわないと思われます。 もっとも簡便な方法は、元の相関係数行列をご覧になって、独立変数間に、0.8や0.9を越える相関係数が見当たらないかどうかをチェックすることです。 以上、ややくどくなりましたが、よくお読みくださればと思います。 なお、以下の文献などにも解説があります: 小田利勝(2007):ウルトラ・ビギナーのためのSPSSによる統計解析入門,pp.90~115,プレアデス出版(回帰分析の項です).
お礼
丁寧に教えていただきありがとうござます。改めて、わからない部分を質問 いたします。ご回答いただきましたら幸いです。
補足
詳しく教えていただきましてありがとうございます。補足で質問いたします。 回答者様のアドバイスをもとに、もう一度、ローデータを見てみました。 まず、私の重回帰のモデルですが、時間の概念に関する質問紙の下位概念 (A、B、C、D)をそれぞれ従属変数としています。独立変数は、24項目です。 A、B、C、Dを従属変数として、4回重回帰をやりました。 まず、VIFですが、あらためて見直すと4以下でした。 固有値と条件指標ですが、以下に列挙します。 24項目を順番にみますと、 〈固有値〉 (1)1.121 (2)1.066 (3)1.026 (4)1.01 (5)1.011 (6)0.38 (7)0.33 (8)0.16 (9)0.15 (10)0.13 (11)0.12 (12)0.09 (13)0.09 (14)0.07 (15)0.06 ( (16)0.06 (17)0.05 (18)0.05 (19)0.03 (20)0.02 ㉑0.019 ㉒0.013 ㉓0.010 ㉔0.005 <条件指標> (1) 4.00 (2)4.10 (3)4.18 (4)4.21 (5)4.21 (6)6.91) (7)7.41 (8)10.56 (9)11.11 (10)11.71 (11)12.40 (12)13.89 (13)14.23 (14)16.14 (15)17.07 (16)17.67 (17)18.81 (18)19.86 (19)23.68 (20)29.06 ㉑30.48 ㉒37.23 ㉓42.43 ㉔61.77 でした。ずらーと並べてすいません。また、パソコンの設定の関係で ずれて表記してしまいます。すいません。 また、上記の(1)~㉔までの相関係数を出してみました。 高くても0.7ぐらいが1個です。あと10個ほど、0.4~06ぐらい で推移しているものがありました(負の相関を含みます。) となっています。 相関係数をみると、そんなに高い(0.8以上)相関は出ていないものの、 条件指標をみると高くなっていると15以上のもの(㉔)もありました。 この数値をどう解釈すればいいでしょうか? 丁寧に教えていただいたのに理解が浅く申し訳ありません。