• ベストアンサー

完全な音声合成が出来ない理由

既存の音声を使って音声を合成する方式ではなく、完全に0から人間のような声を生成できない理由は何でしょうか?

質問者が選んだベストアンサー

  • ベストアンサー
  • ddtddtddt
  • ベストアンサー率56% (179/319)
回答No.2

 現在の周波数解析技術は完璧ですから、音質だけなら0から間違いなく人間の声を生成できます。なので単なる情報伝達便利手段として、既に全てのPCは文章読み上げ機能を備えています。しかしそれは、人間の声ではありません。  大きな違いは、次の2点だと思います。   (1)息ずかい(間と抑揚を含む)。   (2)表現の選択。  (1)については歌に顕著です。かなり古いですが昭和の歌姫美空ひばりを好きな親爺どもは、ごまんといます。美空ひばりは音程が女性にしては低いので、親爺どもも歌いやすい訳ですが、しかし親爺どものカラオケはほとんど間違いなく「お経」になります。どんなに音程が正確であっても、どんなに良い声してても。あ~~美空ひばりは難しい(^^;)。  結局その原因は、感情表現(息ずかい(間と抑揚を含む))という事になります。音符通り歌えば歌になるかというと、絶対にそんな事はないんですよ(^^)。  (2)については日常会話です。英文の「逐語訳→直訳→抄訳」って話は知ってると思います。右に行くほど高度になります。これは同一言語間の会話でも同じです。  同じ意味や情報を伝えるにしても、その場の雰囲気や原文のニュアンスを判断し、その場の文脈に応じて、同一情報を伝える表現を変える事を、我々は普通にやってます。PCの文章読み上げ機能や機械自動翻訳は、そのような事ができません。  だからこそ「既存の音声を使って音声を合成する方式」は、けっこう有利な方法な訳です。  以上のような問題点は現在の技術では恐らく、それらに関するビッグデータがあるので、ニューロコンピュータなんかにビッグデータを与えて学習させれば、きっと解決可能なんでしょう。#1さんの仰るようにやらない理由は、金がかかり過ぎるからだと思います。  つまり需要さえあれば、きっと実現しますよ(^^)。

その他の回答 (1)

回答No.1

「できない」のではなくて「やらない」だけですよ。 「やれば出来る」のですが「やってもコストが大きくなり、実用的じゃない」だけです。 「リアルタイムに喋る」を実現するには「膨大な量の計算をリアルタイムに行なう必要」があって、スパコンの「京」みたいなコンピューターが必要になります。 何十年先になるか判りませんが、今のスパコンの「京」と同等性能のコンピューターが家庭に1台ある、というような時代が来れば、実現すると思いますよ。

noname#257529
質問者

補足

このような類推に至るための資料か根拠をご提示いただけますでしょうか。

関連するQ&A