- 締切済み
文字列の類似度計算
文字列の類似度検索に関する手法や論文やアルゴリズムについての資料を探しています。 文書間の類似度や単語の類似度などはかなり資料があるのですが文字列の類似度に関する資料が見つからなくて困っています。 文字列の類似度ですが toukyoutotokkyokyokakyoku(とうきょうととっきょきょかきょく) というアルファベット文字列に対し tokkyo(とっきょ) という文字列がどこで一番マッチするか探すことです 使用文字はすべてアルファベットです。 この場合は10文字目で100%マッチしますが kyuuto(きゅうと) で探索をかけると完全マッチする場所はなく人間的には4文字目からの部分が一番似ているということが直感でわかります。 文字列処理の類似度計算ではどうも違う気がしてむしろ画像処理分野における類似度計算の方が参考になるのではと考えましたが現在調べ注なのと画像処理分野は専門ではないため探すのに苦労している状態です。 なにかアドバイス。よい資料などありましたら教えてください。 よろしくお願いします。
- みんなの回答 (2)
- 専門家の回答
お礼
ありがとうございます。 「数量的に定義」がわからないってのが本音ですが。 数式に表すということでいいんでしょうか?