News Scan

音声を解読する神経信号〜日経サイエンス2019年7月号より

思考内容を合成音声で出力する技術に一歩

 

筋萎縮性側索硬化症(ALS)や脳幹の梗塞など,麻痺を引き起こす神経疾患は多くの場合,発話の能力も奪う。そうした患者の一部は支援技術を使ってキーボードを操作し(物理学者の故ホーキングが有名),脳とコンピューターを仲介するインターフェースを利用して考えただけで機械を直接に制御することも可能になっている。だが,どちらのタイプの装置も動きが遅く,閉じ込め症候群などの意思疎通障害を抱えている人には実用的でない。

 

そこで,発話に関連する脳活動を傍受して解読し,その結果を合成音声に変換するツールが開発されている。最近のある研究は最先端の機械学習と音声合成技術を用いて,これまでで最も目覚ましい結果を出した。

 

神経データから理解可能な発話を再現

コロンビア大学ザッカーマン研究所の電気工学者メスガラニ(Nima Mesgarani)らは,治療の一環として脳に電極を埋設または設置した5人のてんかん患者を調べた。これらの電極は音声処理を担っている脳領域をカバーしていた。患者に物語を音読して聞かせながら脳の活動を記録した後,この脳活動データを深層学習ニューラルネットワークに与え,脳活動と音声の対応を学習させた。その後,学習訓練に使われなかった初めてのデータを与えた場合に,そのもととなった音声を再現できるかどうか,システムをテストした。

 

患者に0から9までの数字を読み上げる音声を4回聞かせたところ,システムはその神経活動データをボコーダ(特別な音声合成装置)の駆動に必要な値に変換した。この合成音声による数字の読みを別の被験者グループが聞いたところ,75%の割合で正しく特定できた。1月のScientific Reports誌に報告。過去のほとんどの研究は,再構築された発話がどの程度理解できたかを測定していなかった。「それが理解可能であることを私たちは示した」とメスガラニはいう。(続く)

 

続きは現在発売中の2019年7月号誌面でどうぞ。

 

サイト内の関連記事を読む