- 締切済み
2つのデータ間の相違度(バラツキ度)の算出方法?
ある装置から検出した1連のデータ(20point)を基準として、 過去のデータ集の中から、類似するものを抽出する場合に、 これらの2つのデータ間の各pointでの差分値から、相違度(バラツキ度%)を求める場合、 (1) =|差分値|の和/20 (2) =ルート(差分値の2乗の和/20) 等が考えられそうですが、計算式としてはどのようになるのが正しいでしょうか? (また、その名称は?) (平均値が基準でなく、また正規分布でもないため、標準偏差ではないとの話もあるのですが。)
- みんなの回答 (2)
- 専門家の回答
みんなの回答
- f272
- ベストアンサー率46% (8467/18126)
回答No.2
#1さんの言う通り,サンプルデータの素性が問題ですね。 「類似するもの」と簡単に言いますが,どんなものが類似するものなのでしょうか?それがわかれば計算式はすぐに作れます。その点についてどう考えているのでしょう。 それがわからなければ,「計算式としてはどのようになるのが正しい」のか判断がつきません。 例えば「ある装置から検出した1連のデータ」が1,2,3,4,5,...となっているとき,過去のデータで10,20,30,40,50,...となっているのがあったら,これは類似しているのでしょうか?また11,12,13,14,15,...となっているのがあったら,これは類似しているのでしょうか?
- TIGANS
- ベストアンサー率35% (245/681)
回答No.1
サンプルデータの素性がわからないとなんとも言えないと思います。 まずサンプルデータから差分にする意味は何でしょう?
質問者
お礼
さっそくにありがとうございます。 そうですね。取得データ生値そのままでは比較できないので、一定の評価基準で20pointで、その周辺の割合(%)を求めています。 それらの20項目の割合値を新旧で比較したいと思います。
お礼
さっそくにありがとうございます。 そうですね。取得データ生値そのままでは比較できないので、一定の評価基準で20pointで、その周辺の割合(%)を求めています。 それらの20項目の割合値を新旧で比較するため、相応する項目毎の差分値がすべて0なら100%類似とし、+1、-1があり合計0になってもそれは100%類似ではない、としたいと思います。 何か、ちょうど良い公式があるでしょうか?
補足
(訂正) 相応する項目毎の差分値がすべて0なら100%類似とするのですが、 +1、-1があり合計0になってもそれは「類似が100%ではない」の意味です。 差分値が大きくなっていけば、類似率は小さくなっていくとしたいのです。 よろしくお願いします。