ベストアンサー

完全な音声合成が出来ない理由

2016/09/12 14:49

既存の音声を使って音声を合成する方式ではなく、完全に０から人間のような声を生成できない理由は何でしょうか？

noname#257529

情報工学
回答数2
ありがとう数0

みんなの回答 （2）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

ddtddtddt
ベストアンサー率56% (180/320)

2016/09/14 20:54 回答No.2

　現在の周波数解析技術は完璧ですから、音質だけなら0から間違いなく人間の声を生成できます。なので単なる情報伝達便利手段として、既に全てのPCは文章読み上げ機能を備えています。しかしそれは、人間の声ではありません。　大きな違いは、次の2点だと思います。　　(1)息ずかい（間と抑揚を含む）。　　(2)表現の選択。　(1)については歌に顕著です。かなり古いですが昭和の歌姫美空ひばりを好きな親爺どもは、ごまんといます。美空ひばりは音程が女性にしては低いので、親爺どもも歌いやすい訳ですが、しかし親爺どものカラオケはほとんど間違いなく「お経」になります。どんなに音程が正確であっても、どんなに良い声してても。あ～～美空ひばりは難しい(^^;)。　結局その原因は、感情表現（息ずかい（間と抑揚を含む））という事になります。音符通り歌えば歌になるかというと、絶対にそんな事はないんですよ(^^)。　(2)については日常会話です。英文の「逐語訳→直訳→抄訳」って話は知ってると思います。右に行くほど高度になります。これは同一言語間の会話でも同じです。　同じ意味や情報を伝えるにしても、その場の雰囲気や原文のニュアンスを判断し、その場の文脈に応じて、同一情報を伝える表現を変える事を、我々は普通にやってます。PCの文章読み上げ機能や機械自動翻訳は、そのような事ができません。　だからこそ「既存の音声を使って音声を合成する方式」は、けっこう有利な方法な訳です。　以上のような問題点は現在の技術では恐らく、それらに関するビッグデータがあるので、ニューロコンピュータなんかにビッグデータを与えて学習させれば、きっと解決可能なんでしょう。#1さんの仰るようにやらない理由は、金がかかり過ぎるからだと思います。　つまり需要さえあれば、きっと実現しますよ(^^)。

その他の回答 (1)

chie65536（@chie65535）
ベストアンサー率44% (8804/19965)

2016/09/12 15:14 回答No.1

「できない」のではなくて「やらない」だけですよ。「やれば出来る」のですが「やってもコストが大きくなり、実用的じゃない」だけです。「リアルタイムに喋る」を実現するには「膨大な量の計算をリアルタイムに行なう必要」があって、スパコンの「京」みたいなコンピューターが必要になります。何十年先になるか判りませんが、今のスパコンの「京」と同等性能のコンピューターが家庭に１台ある、というような時代が来れば、実現すると思いますよ。

質問者