- ベストアンサー
知名度の高い人名が一発で変換できるのはなぜですか
MSIMEを使用しています。 伊能忠敬、犬養毅あたりが一発で変換できたのでどういう仕組みになっているのか気になりました。 「いのう」だけで変換すると「伊能」は5番目の候補、「ただたか」も「忠敬」は2番目ですが、「いのうただたか」で変換するとそれらの順番を無視して「伊能忠敬」になります。 また、「やまだただたか」など適当な苗字と組み合わせて変換すると「山田忠孝」となり、通常の候補順になりました。 人名変換の仕組みをご存知のかた、このあたりの仕組みをお教えください。
- みんなの回答 (3)
- 専門家の回答
質問者が選んだベストアンサー
質問への回答は、単純に「ただたか」を変換したときの優先順位だけでなく、 前に入力した単語「いのう」または「伊能」に対して続く単語の経験則に 基づく確率モデルを用いるアルゴリズムまたはそれに類似したアルゴリズムを 用いいてるためです。 単なる辞書の登録ではありません。 単純に「ただたか」の優先順位が 「忠孝」「忠敬」「タダタカ」「ただたか」・・・に対して 「伊能」の次に入力される単語の確率の高い順が 「忠敬」「静」「伊勢子」「津」 だった場合、この2つの列を比較して、 「ただたか」で重なっているため、優先順位が変更され 「忠孝」よりも「忠敬」が先に表示されるのです。 No.1、No.2の回答の場合、 「たなかしげる」⇒「田中茂」 「すずきしげる」⇒「鈴木重」 という二人の名前を苗字・名前で区切って変換したときに、 次に同じ二人の名前を入力したとき、「鈴木」の後と 「田中」の後の「しげる」の優先順位が異なっていること、 「田中茂」「鈴木重」が一語で変換されているわけではない事の 説明がつきません。 「田中」のあとの確率は「茂」>「重」で 「鈴木」のあとの確率は「重」>「茂」といった確率が辞書とともに 保存されているます。 ちなみに前の回答のアルゴリズムは、せいぜい1990年代の初期までの日本語変 換のアルゴリズムです。 このような確率計算は別に人名だけの組み合わせではなく、 「わたしさんかい」「私三階」 「ごとうさんかい」「後藤さん かい」[敬称]+[疑問詞] 「みんなさんかい」「みんな散開」 といった変換があった場合、「さんかい」のそれぞれの漢字の確率が、 「わたし」「ごとう」「みんな」に対して変わってきます。 他にも、「指を指す」「ナイフを刺す」といったように「指」と「ナイフ」 に続く確率は、 「指」の後は「指す」>「刺す」 「ナイフ」の後は「刺す」>「指す」 と管理されています。
その他の回答 (2)
日本語入力システムは、内部に辞書みたいな 物を持っていて、変換するときこの辞書からまず 候補を探します。 たとえば「そふとうぇあ」で変換を押せば 「ソフトウェア」という単語はその辞書に登録 されている為、一発ででてくるかと思います。 しかしこれが登録されていない物だった場合、 たとえば「れでぃんぐだいがく」とかを変換 しようとするとお使いのソフトにもよるかとは 思いますが、「れでぃんぐだいが区」などと なってしまうかと思います。 (ちなみに私はATOK使用してます) そして、名字と名前セットだと上位にくるのは 何故か、ということですが、辞書検索する際、 いろいろ例外はあるのですが、基本的に文字数が 長いものなど、優先順位が高いものから検索を かけます。(具体的な検索の優先順位などは ソフトなどによっても違います) 辞書の中には「伊能忠敬」も「伊能」も 「忠敬」も「山田」も登録されていますが その中では「伊能忠敬」の優先順位が一番高い為、 上位にきます。つまり、有名人は名字と名前が バラバラでなく、セットで登録されている為、 上位にくることになります。
- violet430
- ベストアンサー率36% (27472/75001)
日本語を変換するためにはIMEという変換プログラムを使って行います。このIMEには語変換辞書が組み込まれており、予め登録済みの単語から呼び出して変換する仕組みになっています。その辞書に有名人の人名が登録されているので、直ぐに変換できるのです。