- ベストアンサー
主成分分析における出発行列の違いは?
タイトルの通りなのです。 あるデータについて主成分分析を行いたいのですが 出発行列によって得られる結果が異なると教わりました。 相関係数行列と分散共分散行列はどのように使い分けるのでしょうか。 どなたか教えてください。お願いします!
- みんなの回答 (1)
- 専門家の回答
質問者が選んだベストアンサー
こんにちは. 多変数の情報をより少ない総合変数に集約する主成分分析では,ご質問にあるとおり,相関行列あるいは分散共分散行列を対象にするかによって,結果が異なります. この違いは相関と分散共分散(以下,共分散といいます)の違いによるものです.相関(係数)の式を見ていただければ分かると思いますが, 【データ】 → 【共分散】 → 【相関】 と相関係数の計算途中に共分散は算出されます.相関と共分散ともに,二つの変数間の直線的関係を示したものですが,共分散は極力データの情報を活かしたまま,相関はデータの情報を多少ロスはするものの人間にとって理解しやすい形に修正したもの,と違いがあります. 共分散は最大値,最小値はありませんが,相関(r)は,-1≦r≦+1の範囲をとるようになります.このため相関では絶対値が「1」に近いほど二変数の関係は強い,「0」に近いほど弱いという判断ができます.共分散の場合は,強さの程度の判定ができません. まとめると,相関とは共分散を「-1≦r≦+1」の範囲に【標準化】したものといえます. さて,主成分分析の場合で相関行列と共分散行列のいずれを使い分けるかですが,そのデータを標準化したいかどうかで判断することが多いと思います. どのような時に標準化したいかというと,対象となる変数が単位・範囲が(大きく)異なる,変数Aは10~20の範囲,変数Bは10~1000の範囲,変数Cは0.1~1の範囲,という場合では変数AとB,変数BとCとでは変数の範囲に大きく違いがありますので,当然算出される共分散もそのデータに依存して,小さい数値になったり,大きな数値になったりします.しかし,「標準化」すれば変数A,B,Cのいずれも「0を平均,1が標準偏差:ほぼ-3~+3の範囲」と同じ幅になり,元のデータの単位と独立して関係性を見ることができます. 元のデータをなるべく反映させるのならば共分散を,単位を揃えて標準化する必要があるのならば相関を,と考えて使い分けられるといいと思います.
お礼
そっか、そうですね。ご説明を読んで、やっとわかりました。現在、JUSE-QCASを使用していて一応一通り多変量解析の研修も受けたのですが、そのあたりの説明がなかったので出発行列の違いで結果の式や寄与率などが変わる理由がわかりませんでした。 私が扱っているデータは単位は同じなのですが、データ間では2オーダーも幅があるので、量的な影響を排除するため相関係数行列の方がいいんでしょうね。 なんだか統計解析のソフトって不適切なデータや、誤った使い方をしても一応それっぽい結果がでてくるじゃないですか。だから諸刃の剣という感がどうしてもぬぐえません。 まだまだ勉強が足りないです。もっと取り組んでみます。 お忙しい中、ご回答いただきまいてありがとうございました。また機会がありましたら、宜しくお願いいたします。