日経サイエンス  2023年10月号

大規模言語モデル 科学を変えるAI

タンパク質を語る言語

出村政彬(編集部)

自然現象を相手にする生命科学は一見ChatGPTのような言語処理とは何の関係もなさそうな学問領域だ。しかし今,タンパク質の構造や機能を予測する様々なタイプの「タンパク質言語モデル」が登場している。このツールは研究者が望み通りのタンパク質を設計するための便利な道具にとどまらず,生命現象を俯瞰する新たな視点を提供しつつある。

タンパク質と言語──それはなんとも不思議な組み合わせに聞こえる。しかし高校で生物の授業を受けた人なら,タンパク質は20種類のアミノ酸が並んだ1本の鎖でできていると習ったはずだ。つまり,タンパク質はアミノ酸という20種類の単語を一列に並べた文章ということになる。ChatGPTが単語の並び方から文章の意味を読み取れるなら,アミノ酸の並びからタンパク質の構造や機能を予測することだってできるのではないか。タンパク質言語モデルの根底にあるのはそういうアイデアだ。

2019年には,ハーバード大学などの研究チームによる「UniRep」と,カリフォルニア大学バークレー校などのチームによる「TAPE」という2つのタンパク質言語モデルが相次いで登場した。その後もより規模の大きなモデルが発表され,開発競争が加速している。



再録:別冊日経サイエンス263『生成AIの科学 「人間らしさ」の正体に迫る』

関連記事
フロントランナー 挑む AIが仮説,ロボが実験 サイエンスの営み変える:高橋恒一」,青木慎一,日経サイエンス2023年8月号。

サイト内の関連記事を読む

キーワードをGoogleで検索する

タンパク質言語モデル基盤モデルESMタンパク質工学