News Scan

聖徳太子ロボットの未来〜日経サイエンス2007年10月号より

京都大学チームが開発したロボット聴覚システムは,3人の同時発言をきちんと理解する

 

 聖徳太子は7世紀の政治家で,日本最初の憲法を起草した建国の父として名高い。彼は多くの人が同時に語りかけてくるのをきちんと聞き取ったと伝えられる。一度に10人の嘆願を耳にした後,それぞれに判断や助言を言い渡したそうだ。
 この伝説の偉人に触発された日本の研究者たちが,同時に語られた内容を理解して反応するヒューマノイドを5年がかりで開発した。ロボットがレストランのウエーターを務める状況を想定して,ある実験をした。3人の客が前に立ち,カツレツ定食かフランス料理コースのどちらかを同時に注文したところ,ロボットはほぼ完璧に理解し,注文を復唱して合計金額を示した。この間わずか2秒。そして,ここが肝心なのだが,事前に話者の声を学習することなしに処理をこなした。

 

長年の難題

 機械にこうした聞き取り能力を持たせるのは,人工知能研究の基本的難題だ。ガヤガヤした騒音の中から特定の音をどう選び出すか,その方法を機械に教え込むのは非常に難しい。人間なら騒がしいパーティー会場でも特定の会話を認識できる。「カクテルパーティー効果」といわれるものだが,機械にやらせると,マティーニを飲み過ぎた酔っぱらいよろしく,たいした聞き分けはできないのがふつうだ。
 「騒がしい環境中でロボットが話者を認識するのは実に難しい」と今回の開発を率いた京都大学の奥乃博(おくの・ひろし,情報学研究科教授)はいう。反響音や無関係な音,信号音の中断なども困難を増す。
 自然言語で簡単に機械と情報交換するのはチューリング(Alan Turing)の時代からの夢だが,日常生活にそんな機械が登場するのはまだ遠い夢だ。ケッサクな例がある。マイクロソフトは昨年,新OSウィンドウズ・ビスタの音声認識機能を公開実演したが,「ねえママ」という簡単な呼びかけを「ねえ叔母さん」と誤認識し,実演者が口頭で修正を試みた末に次のような文が表示されて,実演はぶちこわしになった。「ねえ叔母さん,殺し屋に2倍払って全部始末しちゃって」。

 

音環境解析とマスク処理

 奥乃のシステムははるかに正確だ。ロボットにマイクロホンを内蔵してあるので,市販の音声認識プログラムとは違って話者がヘッドセットをつける必要もない。彼の“ロボット聴覚プログラム”はデジタル信号処理と統計的手法によって「音環境解析」を実行する。まず音源の位置を特定し,各音源からの音を数理的フィルターによって分離する。
 次の「ミッシングフィーチャーマスク自動生成」という過程がカギだ。これによって,どの話者が発したか十分な信頼性では特定できないと判断された音響データをマスクする。その後,日本語の5000万種の発話を蓄積してある内部データベースと処理情報を比較し,どの言葉が語られたのかを突き止める。こうして話者ごとにフィルター処理された音声を再生した場合,他の話者による発話がわずかに混じって聞こえるだけだ。
 この結果,人間の聴覚認識に近い能力を持ったロボットが実現する。ロボットの内蔵マイクの数(現在は2個)や話者との位置関係にもよるが,6人の発話を聞き分けられると奥乃はいう。また,ロボットは話者のほうへ向きを変えることも可能で,これによって聞き取り能力を高められる。 

 

 

聴覚障害者の助けにも

 「重なった音声をロボットに理解させる奥乃の試みは,複数マイクによる音源位置特定と強力なミッシングフィーチャー音声認識を組み合わせた素晴らしい研究だ」と,コロンビア大学・音声音響構造認識研究所の所長エリス(Dan Ellis)は評価する。「何といっても,実用時に生じる現実的問題の解決に取り組んだ点が傑出している。実世界での人間の話をロボットが理解できるようにした」。
 奥乃のロボットは注文されたファストフードをお客に差し出すだけでなく,ノイズの少ない優れた補聴器につながる。そうした装置を巧妙な自動言い換えシステムと組み合わせるのが重要だと奥乃は考えている。聴覚障害者が発話を聞き取る際,会話の意味内容が聞き取りの重要な手がかりになっているからだ。奥乃自身,ヘッドホンで大音量の音楽を聴き続けた結果,現在は補聴器なしでは不自由。「現在のヒューマノイドの聴覚能は私と同程度だね」と笑ってみせる。
 さらに広い応用を期待している。「近い将来,多くの装置にマイクが内蔵されるようになるだろう」。そして,「ほかにフライドポテトはいかがでしょう」と尋ねる以上のことをやってくれるに違いない。

サイト内の関連記事を読む