ロジスティック回帰モデルでの多変量の外れ値の検討法
ある多変量データ(説明変数x1, x2, x3(比例尺度)、 目的変数y(名義尺度で0,1で表される)、それぞれ10000個くらいのデータ)をロジスティック回帰モデルを使ってモデル化しようとしています。
SPSSやエクセル統計分析のソフトを使ってモデル化を行ったところ、変数の有意性については確認できたのですが、Hosmer-Lemeshow検定や相関値によってモデルの適合度を確認するとモデルが適合していないことがわかり、元の生データに外れ値が含まれていると考えております。
この外れ値を除去する方法がわからないため書きこませて頂きました。
重回帰分析の場合は、残差をその標準偏差で割って標準化したもの(標準残差または標準化残差)についてある閾値を設けて外れ値の判定を行えばよいと思うのですが、ロジスティック回帰分析についても同じやり方でよいでしょうか?ロジスティック関数を使用しているので、予測値と観測値の残差や標準偏差をそのまま使ってはいけないような気もしています。
詳しい方がいらっしゃいましたら、教えていただけると幸いです。また、説明が詳しいホームページなどがございましたら、併せて教えていただけると幸いです。どうぞよろしくお願い申し上げます。