• ベストアンサー

いろいろな人の声のサンプルが欲しい

ある目的で、人の音声認識(単語か短文程度)の精度を見るために、雑音無しの音声サンプルをwav形式で大量に入手したいのですが、この時代、たくさんの人に依頼して録音をしてもらわなくても、ボーカロイドか何かでいろいろな周波数の声を作り出せないものでしょうか。

質問者が選んだベストアンサー

  • ベストアンサー
  • bardfish
  • ベストアンサー率28% (5029/17766)
回答No.3

ボーカロイドの音源もものすごい苦労の末にできた知的財産ですよ。 初代ボーカロイド「初音ミク」の開発者インタビュー生地というのを読んだことがありますが、開発者と声優さんが録音スタジオに8時間以上ぶっ通しでこもって録音したそうです。 数百ページにも及ぶ台本というものもあって、意味のない単音だけの発声だけで8時間とか声優さんとしてはかなり辛かったというエピソードが有りました。ほとなど拷問だったとw それも一日だけでなく一週間?一ヶ月?も続き、データベース化していく過程で取り直しというのも何度もあったそうです。 声優さんとしては報酬的には破格だったのではないでしょうか? アニメなどでは一言だけであろうが主役であろうが新人だとギャラは一日いくらで雀の涙。 だけど、フルボイスのゲームなどでは1ワードあたりいくらという単価付ということが多いらしいです。 そのエピソードの中で、自然な合成音声は周波数だけでなく発声前の音声の立ち上がりや同じ単語の組み合わせでもつなぎ部分の抑揚などで人工的か自然かが違ってくるそうです。 やってみて初めてわかったことも多かったそうな。 もし、自然発声のオンセ認識の精度の確認を考えているとしたら、人工音声ではなくやはり素人の発音が一番だと思います。 認識させるのはアナウンサーや声優だけが対象じゃないんでしょ?

その他の回答 (2)

  • nagata2017
  • ベストアンサー率33% (6876/20336)
回答No.2

いろいろな周波数------->いろいろな波形 ではないかと思いますが でもそのためのサンプルは 同じ単語の発音のほうがいいのではないかと思います。 http://voicetext.jp/

回答No.1

アナログからデジタルへの変換精度を見るのに、 デジタル→アナログ→デジタルだと評価になっていないですよ。 デジタル→デジタルとほぼ等価です(ちょっと劣化するくらい) 音声が必要なら、語学教材が良いです。 単語帳なら延々と単語をしゃべってくれるし、本をスキャンしてデータ化すればある一人の人がしゃべった常用単語が何割正しく変換できたかわかる。 語学教材はいっぱいあるのでたくさん集めれば、どの単語が弱いとかもわかります。 本ごとにレイアウトが異なるので、本から文字を取り出してリストにする処理を作るのが大変そう。。