- ベストアンサー
重回帰のダミー変数について
重回帰分析で,少々悩んでおります。お詳しい方,どなたかご教示下さい。 200人ほどのデータ(職業,年収等)があり,職業が被説明変数に対し,影響を持つのかを重回帰分析を用いて説明しようとしています。職業は10ほどのカテゴリに分け,それぞれダミー変数として説明変数に加えています。 ただ,どうしても分けられない職業が30ほどあり,「その他」として分類しています。この「その他」という職業カテゴリも,ダミー変数として説明変数に入れるべきですか?入れた場合,この変数が有意であった場合どのように解釈すれば良いでしょうか。 大変困っております。どうかお詳しい方ご教示下さい。
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
職業が「社長」と「その他」しかなかったら、「その他」は捨てるか?
その他の回答 (1)
- hanakk36
- ベストアンサー率66% (2/3)
恐らく解決済化と思いますが、回帰分析を使った分析の前提として、次のように考えることからスタートしましょう。 1) 被説明変数の値が多いデータ・少ないデータは、説明変数の内容に応じて存在する。 2) つまり、被説明変数の増減に影響する、または影響しそうと考えられる項目(職業等)を説明変数に採り入れます。 ==== つまり、「その他」とした方が良いのか、それぞれの職業をカテゴリー化(ダミー変数で扱う)するかは、回帰分析実行結果をみて判断するのが良いでしょう。 また、重回帰分析において多重共線性の注意についてはもちろん考えなければいけませんが、カテゴリーデータの場合、「該当(1)・非該当(0)」がちょうど裏返しの関係にある列が含まれていても、同様に多重共線性が起こります。 この場合は、データ列の内容は違っても、数字の上では同じ事を言っているだけに過ぎないので、多重共線性に該当する列(B列とC列との間に発生していればそのうちのどちらか1列)を取り除いて回帰分析を実行すル解決方法が早いです。
- 参考URL:
- http://www.datamining.jp
お礼
結局,ご指摘の多重共線性の問題から,別の多変量解析を用いて処理しました。 ご回答ありがとうございました。
補足
回答ありがとうございます。 分かりました。説明変数に入れておくことにします。