• 締切済み

2つのデータ間の相違度(バラツキ度)の算出方法?

ある装置から検出した1連のデータ(20point)を基準として、 過去のデータ集の中から、類似するものを抽出する場合に、 これらの2つのデータ間の各pointでの差分値から、相違度(バラツキ度%)を求める場合、  (1)  =|差分値|の和/20  (2)  =ルート(差分値の2乗の和/20) 等が考えられそうですが、計算式としてはどのようになるのが正しいでしょうか? (また、その名称は?) (平均値が基準でなく、また正規分布でもないため、標準偏差ではないとの話もあるのですが。)

みんなの回答

  • f272
  • ベストアンサー率46% (8467/18126)
回答No.2

#1さんの言う通り,サンプルデータの素性が問題ですね。 「類似するもの」と簡単に言いますが,どんなものが類似するものなのでしょうか?それがわかれば計算式はすぐに作れます。その点についてどう考えているのでしょう。 それがわからなければ,「計算式としてはどのようになるのが正しい」のか判断がつきません。 例えば「ある装置から検出した1連のデータ」が1,2,3,4,5,...となっているとき,過去のデータで10,20,30,40,50,...となっているのがあったら,これは類似しているのでしょうか?また11,12,13,14,15,...となっているのがあったら,これは類似しているのでしょうか?

osiete-2012
質問者

お礼

さっそくにありがとうございます。 そうですね。取得データ生値そのままでは比較できないので、一定の評価基準で20pointで、その周辺の割合(%)を求めています。 それらの20項目の割合値を新旧で比較するため、相応する項目毎の差分値がすべて0なら100%類似とし、+1、-1があり合計0になってもそれは100%類似ではない、としたいと思います。 何か、ちょうど良い公式があるでしょうか?

osiete-2012
質問者

補足

(訂正) 相応する項目毎の差分値がすべて0なら100%類似とするのですが、 +1、-1があり合計0になってもそれは「類似が100%ではない」の意味です。 差分値が大きくなっていけば、類似率は小さくなっていくとしたいのです。 よろしくお願いします。

  • TIGANS
  • ベストアンサー率35% (245/681)
回答No.1

サンプルデータの素性がわからないとなんとも言えないと思います。 まずサンプルデータから差分にする意味は何でしょう?

osiete-2012
質問者

お礼

さっそくにありがとうございます。 そうですね。取得データ生値そのままでは比較できないので、一定の評価基準で20pointで、その周辺の割合(%)を求めています。 それらの20項目の割合値を新旧で比較したいと思います。

関連するQ&A