• ベストアンサー

主成分分析と抽出

数学初心者です。教えてください。 10万以上の個体の情報をもとに A.特定の属性の人に限られたとグループ、 B.いろいろな属性の人が入り乱れたグループ をひっくるめて、主成分分析を行いました。 そのうちのTop2のPCをもとに散布図を描くと、Aのグループが集まっている部分と、かなりばらけた感じながらもAとオーバーラップしてBが存在しています。 Aのグループに近い人をBから抽出したいのですが、どういう風にするのがよいのでしょうか。 たとえばAの95%を含む領域の中にあるBを抽出・・みたいな感じです。 説明がわかりにくかったら済みません。よろしくお願いします。

質問者が選んだベストアンサー

  • ベストアンサー
回答No.2

企業でSQCを指導する立場にあるものです. Aを基準にするのなら, ひっくるめて主成分分析をしてはいけません. (1)まず,Aだけで主成分分析をします. 累積寄与率を見ながらPC1,PC2,PC3・・・と,どこまで主成分を採用するか決めます. (2)各主成分の固有値を見ます.それが各主成分の分散になっています. 主成分の分散はχ^2分布なので,χ^2分布表から95%点を求めておきます. (3)次に,B群の各サンプルについて,A群の主成分スコアの求め方の式で 主成分スコアを求めます. (4)Bが,PC1,PC2,PC3・・・のどの方向にずれているのかを確認し, その軸を使って,主成分得点が95%点以内のものを抽出します. (注)分布のしかたが同心円上なら#1さんのように距離で見るという方法も考えられます. 主成分得点の合計がマハラノビスの汎距離になります. 異なる群というのは,同心円状にばらつくのではなく, 必ず特徴ある方向にずれます. 例えば,第1主成分軸は胃潰瘍で,第2主成分軸は腸の疾患だったりです. A群に包含されない特徴あるサンプル(例えば胃潰瘍)を抽出したいのなら, その軸に注目してそこで分離するのが良いと思います. また,距離でやると,めちゃくちゃ健常な人も入ってきます. 気をつけなければいけないのは, 分布の中心はめちゃくちゃ健常な人ではなく, 平均的に不健康なというか不摂生だが発病していないような一般的大多数の人です. めちゃくちゃ健常な人もマハラノビスの汎距離でいうと反対側に外れて存在します.

pukutanuki
質問者

お礼

まさにそんな感じの検討でした。 試行錯誤してみたいと思います。 詳しく教えていただきありがとうございました。

すると、全ての回答が全文表示されます。

その他の回答 (2)

回答No.3

#2です.誤記訂正です. (注)分布のしかたが同心円上なら#1さんのように距離で見るという方法も考えられます. 主成分得点の合計がマハラノビスの汎距離になります. ↓ (注)分布のしかたが同心円状なら#1さんのように距離で見るという方法も考えられます. 主成分得点の2乗和がマハラノビスの汎距離(D^2)になります.

すると、全ての回答が全文表示されます。
noname#227064
noname#227064
回答No.1

Aグループが多変量正規分布に従っている(またはそう見なすことが出来る)必要がありますが、マハラノビスの距離を使うのは如何でしょうか。

pukutanuki
質問者

お礼

ありがとうございます。 2番の方の回答と合わせ、次にやるべきことが見えてきました。

すると、全ての回答が全文表示されます。

関連するQ&A