- 締切済み
主成分分析とは
主成分分析といわれる統計処理があります。これは確率・統計の勉強を進めていったら出てくるのだろうかと思うのですが、ずっと勉強していたら必ず出てくるということでも無さそうです。確率統計という学問はいろんなものに応用されていく(文理関係なく)ので基礎と応用というペアも幅広く、どのような勉強の仕方があるのだろうと思うわけですが。 名前から想像すると、ある種のデータの変動を説明する主要な要因を抽出し、その寄与を調べるという風に見えます。例えば、世界各地の気温データの時系列データを集めて、それに関係しそうなデータ(CO2排出量とか)を突き合わせてその因果関係の度合いを調べるというようなものです。そういうことなのでしょうか。分散共分散行列の固有値を調べ、その値の大小を調べるということのようですが。 少し話が飛びますが、Rという統計ソフトを使えば、それに応じた形式のデータをRに処理させれば、自然と値(寄与率とか)が出てくるというブラックボックス的な使い方もできるのかなと思いますが、どうでしょうか。 よろしくお願いします。
- みんなの回答 (5)
- 専門家の回答
みんなの回答
- masudaya
- ベストアンサー率47% (250/524)
例えば,こんな例で考えてはいかがでしょうか. 定期テストで国語,英語,日本史,世界史,数学,物理,化学 という科目を全生徒が受けたとして,各生徒得点の一覧表があります. このままでは,各生徒の得点は7次元のベクトルとなりますが, 例えば,理系の能力として,数学,物理,化学の得点についての 相関度が高い時,この3つの次元を理系能力として次元の圧縮ができます. (当然,完全に相関が取れるわけはないので,理系能力に対してばらつきますが) 同様に,語学能力(国語,英語),歴史能力(日本史,世界史)とまとめられる かもしれません.そうできると,7次元を3次元に圧縮できる可能性があります. これが,ほかの方がおっしゃっていた, 多次元データのもつ情報をできるだけ損わずに低次元空間に情報を縮約する方法 という意味です. 何となく,分かりましたか?
- trytobe
- ベストアンサー率36% (3457/9591)
教科書も解説書も回答も読まずに、「用語の字面」だけで定義してはいけません。 『ご丁寧に回答頂きありがとうございます。もう少しだけ別の視点でお尋ねしたいのですが。データの構造ということですが、先の身長、体重、年齢...のデータですが、 A君(年齢、体重、身長、性別、出身地) B君(年齢、体重、身長、性別、出身地) .... というものが何百もあった場合、身長Yに対して体重a、年齢b、性別c、出身地d というのが説明変数であり、とにかくY vs a, Y vs b, Y vc c, Y vs dをプロットして最も長いもの(←不正確ですが。あるいは分散共分散行列の固有値最大)となるものが最大の寄与率を与え、それが主成分であるということであり、それを抽出する作業が主成分分析である、ということかと考えます(確認)。』 違います。それが、分散分析での「寄与率」の順であり、最大の寄与率を与える1説明変数(=1座標軸)だけで分布の主軸を求めるわけではありません。 『ご回答の例では年齢という支配的パラメータが発見されるということでした。しかしながら、Yに対して説明変数a,b c,dが挙げられている以上、年齢が支配的である可能性は最初からあったということになります。パラメータが発見されるというのは、データとしてそのパラメータの可能性があったということも含んでのことでしょうか。つまり説明変数として挙げた候補の中からしか主成分を選択できないのではないかと思うのですが。』 自覚している説明変数で統計処理をしたときに、なぜデータがこのように長く分布する方向があるのか(特定の説明変数に対応する座標軸ではなく、座標軸に斜めに存在する分布のラグビーボールの軸があるのか)、という「複数の説明変数との因果関係がある、自覚していなかったので説明変数としてのデータ採取をしていなかったが、説明変数とみなす価値がある概念」を、自覚している複数の説明変数の線形結合で見出すのが、主成分分析です。 身長と体重での2説明変数による2次元プロットで斜めにデータが分布するのは「年齢」という概念が内在しているからだ、というのは後で考えればわかるかもしれないが、先に知っているならば既にそれを説明変数としてデータ収集をしているはずです。 そのように注目すべき概念をどのような測定手法で数値化して「次回以降の統計処理・データ収集に活用すべきか」という概念を抽出する一つの参考として、主成分分析による「第一主成分」(主軸)が持つ概念は何か、という「説明」を考察して、内在する概念を測定可能なものに具現化する「統計の活用作業」なのです。 主成分分析とは|市場調査・アンケート調査のマクロミル http://www.macromill.com/landing/words/b007.html 主成分分析 第一主成分 - Google 検索 https://www.google.co.jp/search?q=%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90+%E7%AC%AC%E4%B8%80%E4%B8%BB%E6%88%90%E5%88%86
- trytobe
- ベストアンサー率36% (3457/9591)
説明変数という語をご存じであれば、先の回答における「要因」は「説明変数」に読み替えていただいて構いません。 『回答ありがとうございます。この”要因”とはどのようなものだと思えばいいでしょうか。その現象を説明する変数ということで”説明変数”ということになるでしょうか。説明変数(a,b,c)が現象Xを説明する、ということを考えた場合、もっともよく説明する順番が a>c>b であったというようなことでしょうか。』 それは、「分散分析」における「寄与率」の概念。 『またご回答の中では、a,b,c間の関係がわかる、ということでしょうか。また、a,b,cを使って主成分分析を行うと新たな説明変数dが抽出されるということになるのでしょうか。そのようなことが本当にできるのだろうかと思いますが。』 新たな説明変数dとして有用なものが、説明変数a,b,c の関数として見出せるかも、ということです。 おそらく、小学1~6年生の児童の身長と体重をプロットした2次元グラフを想像されると良いでしょう。そこには、身長が大きくなるほうが体重が重くなる、というような右肩上がり細長い楕円状に分布したものができるでしょう。 この楕円(ラグビーボール)の一番長径(軸)の方向を求めるのが、主成分分析であり、では、その軸に沿ってあらわされている違い「概念」は何か、というと、「年齢」だよね、ということになるのです。 そして、じゃあ、楕円の短辺はなにか、と2軸目を考えたときに、「同年齢の中での生育度の尺度」だよね、という考え方ができるのです。 そういう、分散分析とは違う、すでに認識している2つの説明変数とは違う、2次元の分布として把握するときに有用な概念2つを見出して、それを既に認識している2つの説明変数で説明できないか、というのが「主成分分析」の試みです。
- f272
- ベストアンサー率46% (8626/18446)
> 名前から想像すると...その因果関係の度合いを調べるというようなものです。 ぜんぜん違う。想像で考えるのではなく,ちゃんと定義を見て考えてください。 主成分分析を一言で言えば,多次元データのもつ情報をできるだけ損わずに低次元空間に情報を縮約する方法です。 なお,統計モデルでわかるのは相関関係であって因果関係ではないです。因果関係を調べるにはメタ知識を使ったり,別の手法が必要になります。 > ブラックボックス的な使い方もできるのかなと思いますが、どうでしょうか。 それでデータを理解できるのならそれでもいいけど,ソフトが何をやっているのかは確実に把握しておかねばなりません。
お礼
解答ありがとうございます。確率・統計は多岐にわたるため、確固たる定義に至る前に個別分野の事情が出てくるようなところがあり、何となくはっきりしないのです。特にエクセルのように実際に計算してみせるような本だと、定義と計算手法の区別がつかず、計算手法=定義となってしまうような感じがしています。主成分分析の最も原初的な定義が書いてある書籍とかサイトとかありますでしょうか。そこを出発点にしたいと思いますが。
- trytobe
- ベストアンサー率36% (3457/9591)
厳密性に欠けるのですが、イメージ優先であえて説明すると、 「測定したデータをグラフ(各要因を各座標軸にした座標系)にプロットして、そのデータが分布しているところをラグビーボールみたいなもので包んだとき、一番長い方向=ボールの中心軸の方向=相関係数R2が最大になる直線はどれか」 というのが、主成分です。その主成分を表す直線の式には、 ・どの座標軸(要因)が、どの割合(係数)で寄与しているか ・その直線を軸にすると最も近似ができるからには、その直線を構成する要因たちの間には何か意味があるはずだ という「データの広い分布を説明する、人間の感情や行動を、それらの要因の組み合わせ(線形結合)でモデル化できている可能性がある」という「当初は認識しておらず測定もしていなかったパラメータの存在」を見つけることができるのです。
お礼
回答ありがとうございます。この”要因”とはどのようなものだと思えばいいでしょうか。その現象を説明する変数ということで”説明変数”ということになるでしょうか。説明変数(a,b,c)が現象Xを説明する、ということを考えた場合、もっともよく説明する順番が a>c>b であったというようなことでしょうか。 またご回答の中では、a,b,c間の関係がわかる、ということでしょうか。また、a,b,cを使って主成分分析を行うと新たな説明変数dが抽出されるということになるのでしょうか。そのようなことが本当にできるのだろうかと思いますが。 私の想像ですが、Xという現象を説明する変数としてa,b,cがあり、aが最もよく説明するというのであれば、Xはよく推定できないけれどもaは観測しやすいのでaを見ておけばXが予測できる、というものなのかなと思ったのですが。でもそれだと、回帰計算と同じになるなあと思ったりしています。 また、現象と説明変数の関係を因果関係と捉えてはいけないのでしょうか。
お礼
ご丁寧に回答頂きありがとうございます。もう少しだけ別の視点でお尋ねしたいのですが。データの構造ということですが、先の身長、体重、年齢...のデータですが、 A君(年齢、体重、身長、性別、出身地) B君(年齢、体重、身長、性別、出身地) .... というものが何百もあった場合、身長Yに対して体重a、年齢b、性別c、出身地d というのが説明変数であり、とにかくY vs a, Y vs b, Y vc c, Y vs dをプロットして最も長いもの(←不正確ですが。あるいは分散共分散行列の固有値最大)となるものが最大の寄与率を与え、それが主成分であるということであり、それを抽出する作業が主成分分析である、ということかと考えます(確認)。 ご回答の例では年齢という支配的パラメータが発見されるということでした。しかしながら、Yに対して説明変数a,b c,dが挙げられている以上、年齢が支配的である可能性は最初からあったということになります。パラメータが発見されるというのは、データとしてそのパラメータの可能性があったということも含んでのことでしょうか。つまり説明変数として挙げた候補の中からしか主成分を選択できないのではないかと思うのですが。 いかがでしょうか。