• ベストアンサー

複数の話者の音声認識

複数の話者の音声認識はまだ達成されていませんよね? これが達成されれば市場で最も需要の高いと思われる「会議の文字おこし」が可能になるんですよね? そこで質問ですが、 人間って二人の話者の会話を同時に聞いて理解できるんですか? 自分では実験したことがないので聞けてるのか聞けてないのか分かりません。 カクテルパーティー効果で複数の人が喋っていても 特定の人の会話を聞き取るのは可能でも二人同時は無理なような気がしてきました。 取り敢えず、人間が出来るか出来ないかによって コンピューターへのアプローチも左右されるように感じます。 ちなみに無知で超ド素人の私だからこそ言えるのですが 二人くらいなら音声認識装置で「認識出来そうな気がします」。下手すれば百人でも。 方法は至って簡単なんですが。(^^ゞ 逆になんで「出来ない」と言っているのかが分かりません。

質問者が選んだベストアンサー

  • ベストアンサー
  • TALLY-HO
  • ベストアンサー率29% (103/354)
回答No.4

>いや、私も大まじめなんですが。 私の文がまずかったようで申し訳ない。 大まじめにっていうのは「1つのマイクから複数人を認識」 という目標だけに集中して考えていたという意味で、 oxfordさんが不真面目だというつもりではないです。m(_ _)m >何か間違っていますでしょうか? 間違ってません。実現可能です! ただ、認識率が低いので取りこぼした部分の補完ができにくい って問題があるんです。認識率99%とかいうのは標準語+ 発音訓練+イントネーション矯正+雑音ほぼ無し という環境での測定結果だったりします。 それに、メールを書く時のように入力を確認しながら しゃべってる訳ではないので(やったら会議に集中できない) 会議内容を聞かれても大丈夫な役職の人をオペレータとして 会議出席人数分揃えるのは・・・(汗 >「人間って二人の話者の会話を同時に聞いて理解できるんですか?」 忘れてました。。。 できません。高度な処理が可能な大脳はシングルタスクです。 もひとつ小脳がありますが、こちらは主に記憶した「動作(自転車とか)」 を再現する能力で、“ぶつかりそうなら止まる”のように 簡単な条件分岐しかできないです。 たまに2人までなら聞き取れるとか言う人いますが、 A A A A A A A A A A A A A A A -------------------------------> 時間の流れ B B B B B B B B B B B B B B B のように小刻みに脳を切り替えてるだけです。(タイムスライス) 聞こえてない部分は経験に基づいて「補完」してます。 よっぽど慣れ親しんだ言語&簡単な内容でなければ無理。 余談:必要ない音のフィルタリング機能は超高性能です。

oxford
質問者

お礼

>「1つのマイクから複数人を認識」 確かに定義では「単一の信号」から複数の話者を認識するのが目的なので TALLY-HOさんが正しいです。 しかし、私としては目的さえ果たしてしまえば 方法なんてどうでもいいと思うのです。 コロンブスの卵ですね。卵を立てるために卵を割ってもいいと思っています。 >認識率99%とかいうのは標準語+ 発音訓練+イントネーション矯正+雑音ほぼ無し これらは大問題ですよね。 特にイントネーションと雑音と複数話者認識の三つが 音声認識では最大の問題と言われているみたいですね。 雑音の処理は改善されてきているらしいですが、 異なるイントネーションを読み取るのは 当分できないと思うので複数話者認識を選びました。 会議での読み取りも「ええ、ああ、おほん、さきほどもうしあげたとおり・・・」みたいに 意味など考えずにそのまま読み取ってくれるだけで いいんですけど。 >できません。高度な処理が可能な大脳はシングルタスクです。 やはりそうでしたか。 心理学の実験で被験者になったのですが同じようなことをしました。 会話を聞いて特定の子音(SとかKなど)が出てきた場合にボタンを押す、という簡単な実験でした。 子音にばかり集中していると会話の内容は聞けず、 会話の内容に集中していると子音が出てきても気付かず、という結果になりました。 …ということは複数話者認識が可能になれば人間よりも優れた機能を持つことになるのですね。 うーん、でも果たしてできるのか…。 ありがとうございました!

その他の回答 (4)

  • neKo_deux
  • ベストアンサー率44% (5541/12319)
回答No.5

No.2です。 > #1さんのお礼に書いた方法はどうですか? 個別にマイクで録音する→話者Aと話者Bの分離が完全に出来ている。のでしたら、後は既存の技術で対応できます。 問題は「テープ起こし」の場合で、 > 「人間って二人の話者の会話を同時に聞いて理解できるんですか?」だったりするんですが。 のケースも、 ・実際に現場で聞く場合。 ・ビデオテープを見ながら聞く場合。 ・カセットテープの音声を聞く場合。 であれば、聴覚以外の感覚を使ったり、話者に注視したりで話者の判断が出来るので、かなり違うように思います。 あと、精度の高い音声認識を行うには事前に時間をかけて定型文章を何度も読み上げて学習する手間が必要ですが、会議の出席者にこれを依頼したり、ましてや死んじゃってる人のテープだと厳しいかも。 -- とはいえ、継続して研究は続けられている分野ですし、オンラインソフトで、 鼻歌から楽譜作成(音符の認識) というものに対して、和音にも対応するソフトがあるが、やはり認識率あ落ちるというものもありました。

oxford
質問者

お礼

そうですよね。 視覚情報も助けになりますよね。 現場にいるなら、聴覚であってもどの方向/距離から声が来ているか判断がつきますし。 心理言語学では複数の話者の会話の最中に目がどこを追っているか調べているそうですね。 今はエンロールなしで実際の音声入力から自動的に学習する方法が良さそうですね。 でも本当は学習も何もせずとも認識すればいいですよね。 ヒトは初めてあった人物でも大体(?)認識しますからね、たとえ死んじゃった人物のテープでも。 音符の認識とか面白そうですね。 ホーミー(一人で二つの異なった声を発声する方法)で唄ったらどうなるんでしょうね。w ありがとうございました!

  • TALLY-HO
  • ベストアンサー率29% (103/354)
回答No.3

>マイクを複数個使い処理も別々に行う あっはっはwwwww 大まじめに考えてたので新鮮なアイデアに感じました。(笑) 確かにできますね。ただ全員にマイク、処理PCとなると コストが高く付きすぎて売れないんです。会議のような 密室だと隣の人の発言も所々拾っちゃいますし・・・。 テープに録音して文字起こしのバイト君雇うのが安い;; 今回は会議の録音という事なのでちょっと方向がずれますが、 全員がマイクつけてもスポーツの実況中継などは無理でしょう。 海など機械の苦手な環境も辛いでしょう。 それに、人型メイドロボットなど男のロマン実現のために(なんか違う)、 やっぱり複数人の音声識別は必要なのです。^^

oxford
質問者

お礼

ありがとうございます。 いや、私も大まじめなんですが。 スタート地点はここだと思うのです。 処理は別々とは言え、お互いに音声情報の交換をしあえるようにしておきます。つまり、 >会議のような密室だと隣の人の発言も所々拾っちゃいますし・・・。 こういう時には隣の音声信号と照らし合わせ、その分を差っ引いて本人の音声信号だけを取り出す、 ということをすればよいと考えています。 (そのためのデータ取りは面倒でしょうけど) いきなり、真隣だと信号がごっちゃになりますが 最初は100m離れて実験を始めます。 その場合、隣の音声の干渉はまったくないと考えられます。 そして、干渉し始める距離を閾値として、それをどこまで縮められるかを測定すれば開発の糸口になると思います。 最初はマイクは一人に一つずつですが、最終的には ステレオマイクLRだけで話者を識別できるようになればよい、と考えています。 (この場合は本人が動き回ると別人と判断されるでしょうが) 何か間違っていますでしょうか? …で実は本物の質問は 「人間って二人の話者の会話を同時に聞いて理解できるんですか?」だったりするんですが。w

  • neKo_deux
  • ベストアンサー率44% (5541/12319)
回答No.2

> 二人くらいなら音声認識装置で「認識出来そうな気がします」。 男性と女性の二人なら比較的簡単かも知れません。 同年代、同姓の方だとちょっと難しいかも。 一卵性双生児など、声のそっくりな人が二人で話していると…? あと、トランシーバーみたいに、 「○○どうぞ。」「△△どうぞ。」 と、交互に話して区切りがはっきりしていれば良いですが、 ♪ 静かな湖畔の森の陰から…      静かな湖畔の森の陰から…           静かな湖畔の森の陰から… みたいなのはキツイです。

oxford
質問者

お礼

ありがとうございます。 #1さんのお礼に書いた方法はどうですか? これだと本人と本人のクローンが同時に喋っても認識すると思うのですが。w

  • TALLY-HO
  • ベストアンサー率29% (103/354)
回答No.1

音声は専門じゃないですがコンピュータ分野の者です。 >下手すれば百人でも。方法は至って簡単なんですが。(^^ゞ 是非その方法を聞かせて欲しいです。 >逆になんで「出来ない」と言っているのか 分離が難しいんですよ。同時に喋られると・・・。 あ、い、う、え、お とかの声の分類は学生でもなんとか。 誰の声、がかな~り難しい。 複数混ざるともうお手上げってかんじでしょうか。 つまり、Aさんの声を認識したいときにはBさんとCさんと DさんとEさんの声は「雑音」なんです。邪魔です。 次にBさんの声を認識するときには他のA,C,D,Eの声が・・・以下略。

oxford
質問者

お礼

ありがとうございます。 TALLY-HOさんの補足要求を見て更に出来るような気がしてきました。 というか「誰かもうやってみて何かの理由で駄目だったんだろうな」とも思えてますが。 解決法は超簡単です。 マイクを複数個使い処理も別々に行う、それだけです。(^^ゞ 駄目ですか?w