- ベストアンサー
主成分分析と数量化第3類、どちらを使うべきでしょうか?
例えば以下のようなデータがあります。 身長 体重 数学の点数 ......他 (質的なものと量的なものがまざった状態) 集団 A B C . . このように、項目別の単位がばらばらのもので多変量解析する時、以前はずっと主成分分析を使っていました。 でも、このように質的なデータが入る場合は、数量化3類の方がいいのかな、と思いました。 ただ、数量化は01データのようなものを扱うときのみ有効なのかな、とも思い、結局どちらを使えばよいか迷っております。 アドバイスを宜しくお願い致します。
- みんなの回答 (3)
- 専門家の回答
質問者が選んだベストアンサー
主成分分析にせよ、数量化理論I類~IV類にせよ、線形回帰分析のバリエーションに過ぎませんから、まあ似たようなものではあります。 主成分分析は、線形数学の極値問題として客観的に表せます。つまり、式だけで端的に表現できる。 これに対して、数量化理論I類~IV類は、理論というより手法の名称です。生のデータを無理矢理数値化してから分析する、というのが普通に行われ、その無理矢理数値化する流儀まで含んだ手法である。でも、どう無理矢理数値化するか、についてどうもはっきりした決まりや理論的根拠がある訳ではないようで、まあ、「多少イーカゲンであろうととにかく結論を出すことが重要なんだ」という現場の意思決定の要求に応じたものと言えます。 質問者は先刻ご承知に決まってますが、主成分分析で出てくるのは、データのばらつきを最もうまく説明するようないくつかの軸(説明への寄与率が高い順に)、というものです。ご質問のように使うデータに「定性的な項目」があっても、(数量化理論の精神に倣えば、)定性的な項目が得点として表現できていさえすれば、必ずしも連続値でなくてもかまいません。1か0か、あるいは5段階、なんてのでも大抵使えます。大小関係がはっきりしている得点であれば良い。と、そういう立場を取ることができます。 これに対して、それじゃ確率モデルとしての厳密性がどうたら、という反論もあり得ますが、元々線形と仮定している事自体が危ういのですし、あまりうるさい事を言ってもしょうがないじゃん、でごまかす訳です。 数量化理論III類は、「いくつかの種類に分類してあるが、それらの大小関係については分からない」という種類の「定性的データ」を扱い、2元頻度表からランキングを作り出します。 例えば、ぐー、ちょき、ぱーについて、5人の人a,b,c,d,eがどれをよく出すかを調べた、なんてデータをもとにして、ぐー、ちょき、ぱーはどういう順番にランキングできるか、そしてa,b,c,d,eはどういう順番にランキングできるか、を算出します。ただしランキングが何を表しているかは不明です。2元頻度表をデータだと思って主成分分析をやり、出てくる軸をランキングの軸として利用するのと同じことです。(主成分分析の軸も、その意味は、要するに不明ですからね。) いやそういうエタイの知れない軸や尺度なんか眺めたいのではなくて、もっと直裁に「実測するのにコストが掛かるようなある項目Tの値を、コストのかからない他の項目A,B,Cの測定値の線形結合で推定したい」という場合には、T,A,B,Cを測定したサンプルを集めて数量化理論I類またはII類が利用できるでしょう。このとき、A,B,Cは必ずしも連続値でなくてもかまいません。Tが連続値の場合には数量化理論I類、離散値の場合には数量化理論II類が該当します。で、得られたモデル(回帰式)を、以後、A,B,Cだけ測定してTを推定するのに利用します。(回帰分析としての、一番真っ当な使い方、という気がします。) ところで、主成分分析で得られた軸のうち、寄与率(固有値)が上位の1~3つぐらいの軸だけを使って他は無視すると、1~3次元空間中に散布図が描けるから、これを眺めてどうこう感想を言う、というような使い方も、しばしばやります。数量化理論IV類の場合は、共分散行列を作る代わりに、ともかくサンプル相互の「類似度行列」をイーカゲンに数値化する。そして、あとは主成分分析と同じように回転して散布図を作り、これを眺めてどうこう言う。 「定性的データを無理矢理数値化して、それに基づいて計算した共分散行列を使うぐらいなら、共分散行列そのものをイーカゲンに作ったっていいじゃないか」という発想と思えば良さそうです。
その他の回答 (2)
- Piazzolla
- ベストアンサー率44% (88/196)
この質問の内容だけですと、答えにくいのですが、わかる範囲で簡単に。。。 #1さんも言ってますように、どんなデータで何を調べたいかが分からないと、なんともいえません。 例えばということで、「身長 体重 数学の点数・・・」という項目を挙げていますが、これらはどれも量的データとして扱えます。単位やスケールが異なっていても標準化を行えば比較することも出来ます。 しかし、これは例えとしてあげていると思いますので、実際は質的データもあるのでしょう。 通常は、質的データか量的データのどちらかにしなければなりませんから、どちらかを直せるほうにしなければなりません。そして、そのデータをどの種類の多変量解析で行えばよいかは、実際にデータを持っている人にしかわかりません。(データを公開すれば別ですが。でもやめたほうがいいかな^^;) 次に、データの分析で既に主成分分析(または数量化第3類)を選んでいますから、調べたい目的は、総合的な評価を求めたい、ということですね?重回帰分析(または数量化第1類)、判別分析(または数量化第2類)ではなく。 >このように、項目別の単位がばらばらのもので多変量解析する時、以前はずっと主成分分析を使っていました。 とありますが、最初にも言いましたように単位がばらばらだから主成分分析というわけではありません。 多変量解析で何を知りたいかで決めます。そして、それを質的結果を知りたいのか、量的データが知りたいのか、あるいは、そもそも質的または量的に解析できるデータなのかで決めればよいと思います。 長々とすみません。
- Ideasforlife
- ベストアンサー率40% (63/155)
数量化理論のどれを使えばよいか?という観点は、どんな類のデータなのか?に依存しますので、なんとも言えないのでは? 数量化3類で重回帰分析を行った結果と主成分分析の結果との間に類似性があるということは、どこかで読んだことがありますが... この場合、質的なものが何段階かに数値化されているようですから、エイヤッと主成分分析でいいんじゃないかと思いますが、それもデータの何を調べたいのか?によりますので、一概には言えないです。
お礼
はい。その通りだと思いますので、一応例として体重や身長その他という例をあげさせてもらいました。 書き方があいまいすぎましたでしょうか。 つまり、質的なものと量的なものをごちゃごちゃにしたものを解析したいのです。 主成分分析については詳しい本がいくつかあって勉強もしたのですが、数量化第3類について書かれた本が見つからず、よくわからないままなのです。 どなたかご教示頂けないでしょうか?
お礼
有り難うございます。再質問のような形になって申し訳ないのですが、おこたえ頂けませんでしょうか? 私の書き方が悪かったと思いますので、ご不明な点を整理したいと思います。 ●データは量的なものとたとえばタバコを毎日10本以上吸うを5にして、一週間に一度吸うを3にして、全く吸わないを1にするなど、こういう項目がいくつかあります。 ●そもそもこういう例の場合は質的データとして解析してはいけないのでしょうか? ●調べたい目的は寄与率が高い項目に何か関係があるのか、など、総合的な評価を行いたいです。 ●主成分分析は質的なものと量的なものがごちゃごちゃになっている時に使うものだと思っていました。それから、数量化第3類と大きく違う点はどこなのでしょうか? 以上、全部でなくても結構ですので、宜しくお願い致します。