英語で読む日経サイエンス

SCIENTIFIC AMERICAN April 2023

Chatbots Talking

無限対談 AIがでっち上げた有名人トーク

By Giacomo Miceli G. ミチェリ
English 日本語 日本語
On the website The Infinite Conversation, German filmmaker Werner Herzog and Slovenian philosopher Slavoj Žižek are having a public chat about anything and everything. Their discussion is compelling in part because these intellectuals have distinctive accents when speaking English and a tendency toward eccentric word choices. But they have something else in common: both voices are deepfakes, and the text they speak in those distinctive accents is being generated by artificial intelligence.  「インフィニット・カンバセーション」というウェブサイト上で,ドイツの映画監督ヘルツォーク(Werner Herzog)とスロベニアの哲学者ジジェク(Slavoj Žižek)が公開対談を行っている。対談の中身は幅広くすべての事柄にわたり,議論は説得力に富んでいる。それはこの2人の知識人が話す英語のなまりがそれぞれ独特なうえ,言葉の選択が一般人とは異なる傾向にあるのが一因だ。だが,2人の発言には別の共通点がある。その声はいずれもディープフェイクであり,独特のなまりで話されているテキストは人工知能(AI)が生成している。
I built this conversation as a warning. Improvements in what’s called machine learning have made deepfakes—incredibly realistic but fake images, videos or speech—too easy to create and their quality too good. At the same time, language-generating AI can quickly and inexpensively churn out reams of text. Together these technologies can do more than stage an infinite conversation. They have the capacity to inundate us with a deluge of disinformation.  私はこのフェイク対談を一種の警告として作り上げた。機械学習の進歩によって,ディープフェイク(信じ難いほど本物そっくりだが実は偽の画像や動画,発話)を非常に簡単に作れるようになり,その質も“出来すぎ”になっている。また,「言語生成AI」は大量の文章を素早く生み出すことができ,費用もかからない。これらの技術を用いれば,無限に続く対談を上演する以上のことが可能だ。人間社会に偽情報の大洪水を引き起こし,私たちを溺れさせることができる。
Machine learning, an AI technique that uses large quantities of data to “train” an algorithm to improve as it repetitively performs a particular task, is going through a phase of rapid growth. This is pushing entire sectors of information technology to new levels, including speech synthesis, systems that produce utterances that humans can understand. As someone who is interested in the liminal space between humans and machines, I’ve always found it a fascinating application. So when those enhancements in machine learning allowed voice-synthesis and voice-cloning technology to advance in giant leaps over the past few years—after a long history of small, incremental improvements—I took note.  機械学習はAIの技法のひとつで,大量のデータを用いてアルゴリズムを“訓練”し,特定のタスクを繰り返し実行させることで性能を改善する。この機械学習が急成長し,情報技術のすべての分野を新たなレベルに押し上げつつある。人間が理解できる発話を作り出す「スピーチ合成」のシステムが一例だ。私は人間と機械を隔てる境界空間に興味を持つ者として,機械学習は素晴らしい技術だと以前から考えてきた。なので,それまで小刻みな改善の歴史が長く続いていた音声合成と音声クローンの技術が機械学習によって過去数年で飛躍的に進歩したことに,私は注目した。
The Infinite Conversation got started when I stumbled across an exemplary speech-synthesis program called Coqui TTS. Many projects in the digital domain begin with finding a previously unknown software library or open-source program. When I discovered this tool kit, accompanied by a flourishing community of users and plenty of documentation, I knew I had all the necessary ingredients to clone a famous voice.  この「インフィニット・カンバセーション」が生まれたきっかけは,私がCoqui TTSという模範的なスピーチ合成プログラムを偶然に見つけたことにある。デジタル分野のプロジェクトは,それまで知らなかったソフトウエアライブラリやオープンソースのプログラムを発見することによって始まる例が多い。私はCoqui TTSというツールキットとともに,大勢のユーザーと大量の関連文書が存在していることを発見し,有名人の音声をクローンするのに必要な材料がすべてそろっている状況に気づいた。