- ベストアンサー
マハラノビス距離による判別分析
マハラノビス(Mahalanobis)距離を用いた判別分析(30群への帰属の判定)について質問があります。 判別分析の結果の評価方法として、正判別率(誤判別率)の代わりに、マハラノビス平方距離の「標準得点(z-score)」または「順位」を用いるのは妥当でしょうか? (z-scoreは、30群のマハラノビス平方距離の平均と標準偏差から算出し、平均0、標準偏差1となるように標準化します) 誤判別された場合でも、マハラノビス平方距離が(30群の中で)相対的に小さい場合(z-scoreが-2以下、または順位が10位以内など)には、正解に近いことを示したく、このような方法を考えました。
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
多群の場合は仰る通りです。勘違いしておりました。 確率の話は、下の紹介サイトの内容とほぼ同じです。スコアでは絶対値の評価が難しいのかな、ということで確率のほうが良いかもしれませんという意味でした。(z-scoreが-2以下というのは近いのか?という話になるかもしれないので。確率でも同じといえばそうですけどね。) ROCやCAP曲線の話は、正誤率だけではなく、外れていても近いことを示したいというお話でしたので、これらの曲線を用いれば外れているが近い、ということがいえるのでは?ということでした。ただ、これらの曲線は順序情報しか見ないので確率なのかスコアなのかは本質的ではなくなりますが。 ※ CAP曲線はROC曲線と似たようなものと考えてください。
その他の回答 (1)
- goma_2000
- ベストアンサー率48% (62/129)
z-scoreよりはマハラノビス距離を基にした確率密度関数を用いたほうが良いかもしれません。(近いとは確率が高いということなので)。判別分析は元々はそのようにして定式化されているので。また、順序情報に直すのはよくないかもしれません。その問題点は、どれとも近くなくても順位は高くなる可能性がある点です。ただし順序情報に直すなら、単調増加関数を用いているならどの直し方でも変わらなくなりますけど。 また、30群というのが気になります。判別分析通常は2群の判別で、多群を行うときにはその2群判別を繰り返しているはずです。ですので、それらの情報を統合する時にどのように等どうするのが良いのかは良く分かりません。つまり、A,B,Cのとき、A-B,B-C,A-Cの判別を解いている(one versus one方式なら)ので、A,B,Cを同時に比較していないのではないかと。。。 って、回答になってないですね。 何がやりたいのか分からないので全く見当違いかもしれませんが、どれだけ良く判別しているかの指標として、正誤率以外の指標で見たいというなら、上記のような方法で順序情報に直した後、ROC曲線やCAP曲線を見るという手もあります。
補足
アドバイスありがとうございます。 各群への帰属確率を求めるということでしょうか? 距離を用いた判別分析法は、最も近い群に属すると判定するため、3群以上にも簡単に拡張できるのではないのでしょうか? CAP曲線を見るには、ROC曲線と同様、様々なカットオフ値(マハラノビス距離?)での感度・特異度を求めるのでしょうか? 参考となる文献・ウェブサイト等をご存知でしたらご教授ください。 (参考資料) http://aoki2.si.gunma-u.ac.jp/lecture/Discriminant/mahalanobis.html マハラノビスの距離による基準群への帰属確率 http://aoki2.si.gunma-u.ac.jp/R/maharanobis.html 各群までのマハラノビス距離を計算し,最も近い群に属すると判定する。 P の最も大きい群に所属すると判別する。これは,dj2 値の最も小さい群に所属すると判別することと同じであり,わざわざ各群へ所属する確率を求める必要はなさそうに思うかもしれないが,どの群にも所属しないケースの可能性を考えるとこのような方法をとる必要性がわかるであろう。 http://aoki2.si.gunma-u.ac.jp/lecture/Discriminant/disc2.html このような距離を用いた判別分析法は、グループ数が3以上の場合にも簡単に拡張することができる。 http://www1.doshisha.ac.jp/~mjin/R/17.html 各カットオフ値での感度・特異度を求め、ROC曲線を作成 http://www.jaclap.org/seminar_qm1.html
お礼
大変勉強になりました。ありがとうございました。