- 締切済み
主成分分析の対象データについて
初めて質問いたします. 現在大学の卒論で主成分分析について学んでいる者です. 主成分分析のアルゴリズム等は把握したのですが、 主成分対象となるデータについての知識がありません。 主成分の参考書等を読んでも取り扱うデータは具体例を挙げているばかりで 統計学的にどんなデータという記述をしている本はほとんどありませんした。 私が調べたりないせいもあるかと思いますが。。。 過去の質問も見たのですが 私が知りたい部分は詳しく書いてありませんでした。 統計学的にデータ間に相関関係があるという感じで書こうと思っています。 どなたか教えてください。
- みんなの回答 (5)
- 専門家の回答
みんなの回答
- hukuponlog
- ベストアンサー率52% (791/1499)
>対象となるものを統計学の観点からもっと詳しく ということであれば、おそらく主成分分析(以下PCA)の前処理をきちんとしろ、ということではないでしょうか? 以下の記述はありますか? ・各項目の基本統計量の記述。PCAは平均位置の情報を取り除いた分析ですから、平均値や標準偏差を個別に記載しておく必要があります。 ・外れ値の処理については、適切な処理と記載がされていますか? ・2変量の関係についての記述。データが質的なものか、量的なものかは分かりませんが、散布図・モザイク図等を利用して、2変量の関係を示す必要があります。例えば、データの数が4種類であれば、4×3で12通りの解析が必要でしょう。 次にPCA実行後の、後処理というか解釈手法はどうでしょうか? 固有値、累積寄与率は当然記述してあるでしょうが、因子負荷量、パリマックス回転等は実行していますか。第一固有値だけが大きくなってしまった場合には、行方向の標準化という手法も必要かもしれません。
- hossyou
- ベストアンサー率48% (83/171)
「対象となるものを統計学の観点からもっと詳しく書いてくるように 指摘されました.」 教授の真意は測りかねますが・・・ 前にも書きましが 「主成分分析は情報を集約する手法」です。 n次元の多変量データがある場合、nが1、2次元までなら直感的に理解できるのが、3次元だと怪しくなり4、5、6・・・と次元が高くなると人間には理解することが極端に難しくなる。 したがって、主成分分析によって2次元とか3次元の情報に集約することによって、人間にとってわかりやすい情報に加工しなおすということが主成分分析の目的です。 主成分分析をかけるべきデータという意味なら、 一見しただけではどのような統計的な意味があるのか見出せない多変量データ(に関して統計的な意味を見出す為に主成分分析を用いることにした)でしょうか。
- backs
- ベストアンサー率50% (410/818)
> 相関関係のある多変量のデータ というのは具体的にどのようなデータなのか分からないということでしょう。私自身、相関関係のある多変量データとはどういうもののことをいうのか理解できません。
- backs
- ベストアンサー率50% (410/818)
> 主成分の参考書等を読んでも取り扱うデータは具体例を挙げているばかりで統計学的にどんなデータという記述をしている本はほとんどありませんした。 この意味がよく分かりませんが?具体的な例があげられているのであれば、より都合が良いのではないのですか? 主成分分析は質的データでも量的データでもできますよ。
- hossyou
- ベストアンサー率48% (83/171)
たぶん、質問者様は主成分分析をよく理解されていないのではと察します。 主成分分析は情報を集約する手法ですから分析するデータはもちろん何らかの相関があるものを対象とします。 WEBでいろいろ探してみましたが↓なんかどうでしょうか? http://www.udit.co.jp/kassei/shyuseibun.htm もう少し何を知りたいのか具体的に書いていただけたら、もっと回答が得られるかと思います。
補足
回答ありがとうございます。 うまい質問の仕方ができなくて申し訳ありませんでした。 今までの経緯をお話しします。 まず主成分分析の勉強をしレポートにまとめました. 次に実際に実験からとったあるデータに対して主成分分析をしました. 1では具体例ではなく主成分分析の本質をまとめ 対象となるものは 「相関関係のある多変量のデータに対して主成分分析を行う」 と書いたところ教授から 対象となるものを統計学の観点からもっと詳しく書いてくるように 指摘されました. といった経緯です。 つまり教授が納得できるように どううまく書いていいかに困っています。 再度回答のほうお願いします.
補足
回答ありがとうございました. 私自信、主成分分析をかける対象は決まっているのですが 主成分分析のまとめを書く際に 「相関関係のある多変量のデータに対して解析を行う」 と書いたところ もっと論理的な書き方をするようにと指摘を受けました。 下の方の補足に今置かれている状況を書いたので そちらも見て私の問題をわかって頂ければと思います。