• 締切済み

文字列の類似度計算

文字列の類似度検索に関する手法や論文やアルゴリズムについての資料を探しています。 文書間の類似度や単語の類似度などはかなり資料があるのですが文字列の類似度に関する資料が見つからなくて困っています。 文字列の類似度ですが toukyoutotokkyokyokakyoku(とうきょうととっきょきょかきょく) というアルファベット文字列に対し tokkyo(とっきょ) という文字列がどこで一番マッチするか探すことです 使用文字はすべてアルファベットです。 この場合は10文字目で100%マッチしますが kyuuto(きゅうと) で探索をかけると完全マッチする場所はなく人間的には4文字目からの部分が一番似ているということが直感でわかります。 文字列処理の類似度計算ではどうも違う気がしてむしろ画像処理分野における類似度計算の方が参考になるのではと考えましたが現在調べ注なのと画像処理分野は専門ではないため探すのに苦労している状態です。 なにかアドバイス。よい資料などありましたら教えてください。 よろしくお願いします。

みんなの回答

  • eroermine
  • ベストアンサー率18% (83/444)
回答No.2

最近ほとんど同じような質問を goo でみかけたのですが。 これはひところはやった fuzzy ですね。 fuzzy search 等で検索すればいろいろ出てきます。

すると、全ての回答が全文表示されます。
  • Tacosan
  • ベストアンサー率23% (3656/15482)
回答No.1

とりあえず「類似度」を数量的に定義しないと進まないと思う.

kiki28
質問者

お礼

ありがとうございます。 「数量的に定義」がわからないってのが本音ですが。 数式に表すということでいいんでしょうか?

すると、全ての回答が全文表示されます。

関連するQ&A