
自然現象を相手にする生命科学は一見ChatGPTのような言語処理とは何の関係もなさそうな学問領域だ。しかし今,タンパク質の構造や機能を予測する様々なタイプの「タンパク質言語モデル」が登場している。このツールは研究者が望み通りのタンパク質を設計するための便利な道具にとどまらず,生命現象を俯瞰する新たな視点を提供しつつある。
タンパク質と言語──それはなんとも不思議な組み合わせに聞こえる。しかし高校で生物の授業を受けた人なら,タンパク質は20種類のアミノ酸が並んだ1本の鎖でできていると習ったはずだ。つまり,タンパク質はアミノ酸という20種類の単語を一列に並べた文章ということになる。ChatGPTが単語の並び方から文章の意味を読み取れるなら,アミノ酸の並びからタンパク質の構造や機能を予測することだってできるのではないか。タンパク質言語モデルの根底にあるのはそういうアイデアだ。
2019年には,ハーバード大学などの研究チームによる「UniRep」と,カリフォルニア大学バークレー校などのチームによる「TAPE」という2つのタンパク質言語モデルが相次いで登場した。その後もより規模の大きなモデルが発表され,開発競争が加速している。
関連記事
「フロントランナー 挑む AIが仮説,ロボが実験 サイエンスの営み変える:高橋恒一」,青木慎一,日経サイエンス2023年8月号。