- ベストアンサー
PLSのスケーリングにつきまして
統計初心者です。PLSで統計解析をしています。 前処理として、通常センタリングとスケーリングをする必要がありますが、 トレーニングデータでは全て同じ値をとる変数(すなわち分散が0)でも、 テストデータでは異なる値を取る変数がある場合、 トレーニングデータのモデル構築をどのようにすればいいのでしょうか・・。 その変数に関してはスケーリングができませんが、 モデルの変数として組み込みたい場合です。 非常に焦っております。どなたかご教授いただけますでしょうか。 どうぞ宜しくお願い申し上げます。
- みんなの回答 (1)
- 専門家の回答
質問者が選んだベストアンサー
トレーニングデータとかテストデータとかの意味がいまいち分かりませんが、要は、定数に近い変数(分散が0に近い変数)をPLSの説明変数候補に組み込むことについてのご質問でしょうか? また、PLSというのは、説明変数をそのまま使うのでなく、それを直交化したうえで被説明変数との共分散が大きい因子から順に回帰モデルに組み込んでいく手法を指すのでしょうか。もしそうなら、基本的にOLSの考え方が通用します。 定数に近い変数は、それ自体がモデルの定数項と共線性を持つため、説明変数(の候補)とすることは適当でありません。「モデルの変数として組み込みたい」と書かれていますが、どういう根拠でその要請がでてくるのか、見直す余地がないのか、を検討するのが王道でしょう。 具体的にどういうモデルを想定しているか見えないので、断定はできません。しかし、仮に、強引に組み込んだ場合、次のいずれかになる可能性が大だと思います。 (1) 計算途中(多分、直交化の過程)でエラーになる。 (2) 計算できたとしても、結果が不安定になる。 (3) 計算できたとしても、被説明変数との共分散が0に近いので、因子に寄与しない。