締切済み

類似度の高いものを取り出したい。

2015/05/28 11:19

数学・統計学初心者です。現在Rを使って統計学を勉強しています。ある、パラメータA,B,C,D,E,F.・・・・・・を持った対象データがあり、さらに同じパラメータを持った複数のデータ集団（標本の集団）があったとします。そのデータ集団から対象データと類似度が高いものを取得したいとします。以前、類似度を求める場合、対象データと集団との相関係数を求めれば良い、というHPは見たのですが、この方法だと、各パラメータのデータの分布の大きさが異なれば、変な値が出てきそうな気がします。かと言って各パラメータデータを正規化しようとすると標本集団のため、どこかのパラメータでばらつきが出てきそうな気がします。そもそも私には一般的な知識がないので、類似度を求める際、頭の良い人たちがどういった感じで類似度を求めているかわかりません。このような場合、どうやって類似度が高いものを取り出してくれば良いのでしょうか？教えてください。