- ベストアンサー
主成分分析における分散
主成分分析の際、分散が一番大きくなるように第一主成分を決めますが、 射影したデータの分散が大きくなる=情報量が多いと解説されているものがあるのですが これがいまいちわかりません。ここらへんを詳しく教えてもらえないでしょうか。 よろしくお願いします。
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
第1主成分は「データのばらつきを最も良く説明する成分」,第2主成分は,「データのばらつきのうち,第1主成分では説明できないばらつきを最も良く説明する成分(従って第1主成分とは直交)」,という風に成分を取り出していくのが主成分分析です.従って,データの第1主成分の分布は,分散が最大である. さて,あるn次元データxから適当な線形結合で計算した一個の数値v v = a[1] x[1]+a[2] x[2]+…+a[n] x[n] (aは適当な係数) だけを知っているとします.そして,これだけの情報からデータxがどんな値であるかを推測することを考える. 当然,ぴたりと推測することはできなくて,xの推測値はある確率分布で表されることになり、これは「vの値がイクライクラである」という条件付き確率分布で表されます.そしてこの条件付き確率分布は,データ全体の確率分布からベクトルaに平行な成分を取り除いたもの(a方向への射影)に他なりません. もちろん「適当な線形結合」の係数aの選び方によって、条件付き確率分布はいろいろ異なることになります.そして,この条件付き確率分布のばらつきが最も小さくなるのは,「適当な線形結合」というのが第1主成分を取り出す計算である場合である.言い換えれば,第1主成分だけ見てデータxがいくらであるかを推測すると,他の「適当な線形結合」を使って推測するのに比べて推測精度が高いのです. そういうわけで,第1主成分は,「1個の数値によってデータが持つ情報量のうち出来るだけ多くを表現したもの」である,と言えるんです.
その他の回答 (1)
- hrsmmhr
- ベストアンサー率36% (173/477)
ピンときませんが… 分散が小さいとメジャーの分解能によってはデータ間の差が読めなくなるのでは?
お礼
なるほど、差がおおきければ多いほどデータ間の区別がしやすくなる、だからできるだけばらけていた方がいいんですね。
お礼
ありがとうございます。よくわかりました。返事が遅くなって申し訳ないです。