• ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:分布の評価)

分布の評価と比較方法

このQ&Aのポイント
  • 多変量の正規分布を比較する方法についての質問です。分布同士の距離を測ることで分布の重なり具合や分離性を評価する方法を教えてください。
  • また、分布が多数ある場合と少数しかない場合を公平に評価する指標についても知りたいです。分布間の距離だけではなく、曖昧性や分布の特性も考慮した評価方法があれば教えてください。
  • アイデアをお持ちの方、ご意見をお待ちしています。

質問者が選んだベストアンサー

  • ベストアンサー
  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.1

> 5個の平均、分散を持っています というところ。平均はともあれ、分散が5個というのがよく分からないけれど、共分散行列が対角行列だ、という意味かな?まあいいや。これはどうでも良いことです。 2つの分布の分離がどの位うまくできるかは、線形判別関数を作って、それで何%が誤って分類されるかで評価すれば良いでしょう。  説明を簡単にするために、分布の分散が、どの次元も独立であって、しかも同じである、という場合を考えましょう。二つの分布の平均がベクトルm1, m2、(√分散)がσ1, σ2とすると、中心をm1とし、半径 kσ1の球と、中心をm2とし、半径 kσ2の球とがある。ここでkを調節して二つの球が接するようにします。この接平面が線形判別関数ですから、そこからはみ出すサンプルが「誤って分類されるサンプル」です。  沢山の分布が同じ空間にある場合も、その内の2種類づつをペアにして考えれば良いんです。そのペアの分離がどの位うまくできるか。  あとはご自分でやれそうですか?

yoichiro-ito
質問者

お礼

回答ありがとうございました。 判別関数でこのように評価できるとは思っていませんでした。 ありがとうございました。 しかし、対象とするデータが「はみだすサンプル」がほとんどないデータ なのです。そのため、この方法ではあまり有効に評価できないことが わかりました。 また、分散共分散行列が分布により異なるので、多くの書物にかかれて いることが、適用しにくくなっています。 まだ、試行錯誤中ですが回答ありがとうございました。

その他の回答 (1)

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.2

サンプルの中には、はみ出す奴がないとしても、分散で議論している以上、理論分布(例えば正規分布)を仮定して居るんでしょう? だったら、何%はみだすか(危険率)は議論できるはず。  直感的に言えば、その平均と共分散行列をもつデータをモンテカルロ法でうんと沢山生成してやれば、はみ出す奴が出る筈です。  実用上、本質的には「どの位の危険率で線形判別可能か」以上に重要な指標などないと思いますよ。

yoichiro-ito
質問者

お礼

ありがとうございました。実際に試してみます。

関連するQ&A