• 締切済み

音声認識について

こんにちわ 初めて利用させていただきます。 不手際などありましたら申し訳ございません。 標題の件、 マイクから入力した声を認識して人物名をモニタに出力するようなシステム を作ろうと考えています。(思いつきなので内容は全く決まっておりません) 質問なのですが、認識する際に入力する言葉は例えば 「おはよう(全員同じ言葉を使う)」 と 「山田 太郎(各自個人名を使う)」  どちらが難しいでしょうか? 皆が同じ言葉を発すると似たような周波数になり分析が難しくなるような気もしますし、 違う言葉を発すると色々な言葉のデータを集めないといけない気がして大変な気がします。 以上宜しくお願いします。

みんなの回答

回答No.2

つまり「声質」を認識するか「言葉」を認識するかの違いということでしょうか。 声質の方が楽かなと思います。 言葉を認識するなら、まず音素ごとに分けてから各音素を認識するという手順になると思いますが、声質の方なら時間の要素は考えず周波数成分のパターンを比べるだけでも個人の識別は可能だと思います。

aru333333
質問者

お礼

回答ありがとうございます。 御察しの通りです。表現が旨くできませんでした^^;

回答No.1

 こんにちは。 >どちらが難しいでしょうか?  どちらも難しいですが、難易度は一緒と思います。  違うとすれば、「誰が話しているか?、人物を特定するとき」になります。  個人がこれからシステムを構築するのは現実的とは思えないので、以下のシステムを提案します。  まずはWEBページです。 Julius http://sourceforge.jp/projects/julius/  本体のダウンロードはこちらから可能のようです。 http://sourceforge.jp/projects/julius/releases/?package_id=497  とはいえ、これだけでは勉強が不可能と思います。  入門書を紹介します。 フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで [単行本(ソフトカバー)] http://www.amazon.co.jp/%E3%83%95%E3%83%AA%E3%83%BC%E3%82%BD%E3%83%95%E3%83%88%E3%81%A7%E3%81%A4%E3%81%8F%E3%82%8B%E9%9F%B3%E5%A3%B0%E8%AA%8D%E8%AD%98%E3%82%B7%E3%82%B9%E3%83%86%E3%83%A0-%E3%83%91%E3%82%BF%E3%83%BC%E3%83%B3%E8%AA%8D%E8%AD%98%E3%83%BB%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92%E3%81%AE%E5%88%9D%E6%AD%A9%E3%81%8B%E3%82%89%E5%AF%BE%E8%A9%B1%E3%82%B7%E3%82%B9%E3%83%86%E3%83%A0%E3%81%BE%E3%81%A7-%E8%8D%92%E6%9C%A8-%E9%9B%85%E5%BC%98/dp/4627847114/ref=sr_1_1?s=books&ie=UTF8&qid=1298443462&sr=1-1 IT Text 音声認識システム [単行本] http://www.amazon.co.jp/Text-%E9%9F%B3%E5%A3%B0%E8%AA%8D%E8%AD%98%E3%82%B7%E3%82%B9%E3%83%86%E3%83%A0-%E9%B9%BF%E9%87%8E-%E6%B8%85%E5%AE%8F/dp/4274132285/ref=sr_1_3?s=books&ie=UTF8&qid=1298443462&sr=1-3  今となってはちょっとだけ古いかもしれませんがお薦めの本です。  CD-ROMが付属するのですが、使いこなすのが難しい気がします。  先のサイトから最新版ソフトを導入してください。  いろいろと音声認識は大変なのですが、頑張ってください。

aru333333
質問者

お礼

回答ありがとうございます。 教えていただいたサイトを参考にさせて頂きます。 ありがとうございました

関連するQ&A