
🔬ESM: タンパク質に訪れる「苦い教訓」 - Alex Rives、BioHub
- ESM(Evolutionary Scale Modeling)シリーズの生みの親であり、現在はChan Zuckerberg Biohub(チャン・ザッカーバーグ・バイ...
- Rives氏は、タンパク質配列を「進化が生み出した言語」と捉え、その統計的パターンから生物学的構造・機能を学習するというビジョンを語る。ESMCは、従来のUniRefデー...
- [0:00] 「Bitter Lesson」とタンパク質言語モデルの原点 Alex Rives氏は、自らを「Bitter Lesson(苦い教訓)派」であり「スケーリング...
自分では見つけにくい海外Podcastの話題に、日本語で気軽に触れたい人。
Latent Space: AIエンジニアポッドキャスト / Latent.Space
ESM(Evolutionary Scale Modeling)シリーズの生みの親であり、現在はChan Zuckerberg Biohub(チャン・ザッカーバーグ・バイオハブ)でHead of Scienceを務めるAlex Rives氏が、Latent SpaceのAI for Scienceポッドキャストに登場した。同氏は2018年夏からタンパク質への言語モデル適用に取り組み、ESM-1、ESM-2、そしてマルチモーダルなESM-3へと進化させてきた。今回のエピソードの核心は、最新モデル「ESMC」と構造予測ヘッド「ESMFold 2」のリリースにある。Rives氏は「Bitter Lesson(苦い教訓)」の信奉者として知られ、タンパク質生物学においても、ドメイン知識や帰納的バイアス(例:AlphaFoldのMSA=マルチプル・シーケンス・アライメント)に頼らず、大規模データとスケーリング則に賭けるアプローチを一貫して追求してきた。本エピソードでは、その信念の根拠、ESMCがAlphaFold 3を凌駕した具体的なベンチマーク、抗体設計への応用、そしてメカニスティック・インタープリタビリティ(Sparse Autoencoder)を用いたタンパク質の「世界モデル」構築について、詳細な議論が交わされた。
Rives氏は、タンパク質配列を「進化が生み出した言語」と捉え、その統計的パターンから生物学的構造・機能を学習するというビジョンを語る。ESMCは、従来のUniRefデータセットに加え、メタゲノミクス由来の数十億の配列を追加学習することで、ESM-2で見られたスケーリングの収穫逓減を克服し、美しいスケーリング則を実現した。さらに、同モデルを用いて6.8 billionの非冗長タンパク質をカバーするアトラスを構築し、そのうち1.1 billionの構造を予測。これにより、従来のPDB(Protein Data Bank)が半世紀かけて蓄積した構造知識を大幅に拡張した。特筆すべきは、抗体のようなMSAが有効でない領域での性能向上であり、これは創薬におけるブレークスルーを示唆する。Rives氏は、細胞全体を「情報処理マシン」としてモデル化する壮大な構想も明かし、BiohubのVirtual Biology Initiative(4億ドルの内部投資+1億ドルの外部助成)が、そのためのデータ生成と技術開発を加速させる役割を担うと述べた。
「Bitter Lesson」とタンパク質言語モデルの原点
Alex Rives氏は、自らを「Bitter Lesson(苦い教訓)派」であり「スケーリング信奉者」であると明確に宣言する。この「Bitter Lesson」とは、AI研究者Richard Suttonが2019年に提唱した概念で、「ドメイン知識や人間の直感を組み込んだ複雑な手法よりも、大規模な計算リソースと汎用的な学習手法(例:大規模ニューラルネット)を用いる方が長期的には優れた結果をもたらす」という主張である。Rives氏はこの哲学をタンパク質生物学に適用し、2018年夏から「進化が生み出した次のトークンを予測する」という極めてシンプルなマスク言語モデリング(BERTスタイル)のアプローチを一貫して追求してきた。
彼の着想の源泉は、1954年にZellig Harrisが発表した「分布構造(Distributional Structure)」という言語学の概念にある。Harrisは「単語が出現する文脈の集合は、その単語の意味によって決定される」と論じ、統計的パターンから意味を導出できると予見した。Rives氏はこれをタンパク質に適用する。「アミノ酸が出現できる文脈(=進化的コンテクスト)は、そのタンパク質の構造、機能、生物学的役割によって決定される。したがって、アミノ酸の統計的パターンを学習すれば、タンパク質の背後にある隠れた変数(構造や機能)を獲得できるはずだ」という論理である。この考えは、当時の生物学の常識からすると異端だった。なぜなら、タンパク質の配列と構造の関係を理解するには、進化的に保存された共変異パターン(MSA)を解析するのが定石だったからだ。
しかしRives氏は、AlphaFold 2がMSAを中核的な帰納的バイアスとして採用し、2020年に衝撃的な性能を達成した後も、自らの「MSA不要」の路線を堅持した。これは大きな信念を要する決断だった。なぜなら、AlphaFold 2の成功は、タンパク質構造予測という難問がついに解かれたことを意味する一方で、ESMチームのアプローチとは異なる方向性での勝利だったからだ。Rives氏は「あの時、我々のアプローチが正しいと確信し続けるのは容易ではなかった」と振り返る。しかし彼は、MSAに依存することの限界、特に抗体のように進化的圧力が多様性を生む方向に働く領域ではAlphaFoldが苦戦することを見越していた。この「信念の賭け」が、後にESMCという形で結実することになる。
ESMC:メタゲノミクスが解き放ったスケーリング則
ESMCの最大の革新は、学習データの拡充にある。従来のESM-2はUniRef(厳選されたタンパク質配列データベース)で訓練されていたが、ESMCではこれにメタゲノミクス由来の配列を追加した。メタゲノミクスとは、土壌、深海、温泉、南極、ヒトの腸内など、あらゆる環境からサンプルを採取し、そこに含まれる全DNAをまとめてシーケンシングする手法である。これにより、個々の生物種に依存しない、自然界の驚異的なタンパク質多様性を捉えることができる。ただし、データは非常にノイジーで、配列の断片しか得られないことも多く、どの生物に由来するかも不明な場合が多い。
この「汚い」データを大量に投入した結果、ESM-2で見られたスケーリングの収穫逓減が消失した。Rives氏は「ESM-2は計算リソースではなく、データによって制限されていた」と説明する。ESMCでは、モデルサイズ(300M、600M、6Bパラメータ)と性能の間に、見事な対数線形のスケーリング則が成立することを確認した。つまり、計算予算を増やせば増やすほど、予測通りに表現の忠実度が向上する。これは、大規模言語モデル(LLM)の世界で観察されるスケーリング則と完全に一致する現象であり、「Bitter Lesson」がタンパク質生物学においても有効であることを示す強力な証拠となった。
アーキテクチャ自体は「バニラなTransformer」であり、特別な帰納的バイアスは仕込まれていない。マスク言語モデリングの目的関数と、膨大なデータだけが、この驚異的なスケーリングを可能にした。Rives氏は「いくつかの効率化のためのトリックはあるが、本質はシンプルだ」と語る。この結果は、タンパク質構造予測の分野において、ドメイン知識を精巧に組み込んだAlphaFoldシリーズとは対照的な、もう一つの有力なパラダイムが存在することを示している。
世界モデルとしてのESMC:抗体設計への応用
ESMCは単なる構造予測モデルではない。Rives氏はこれを「タンパク質生物学の世界モデル(World Model)」と位置づける。世界モデルとは、教師なし学習(マスク言語モデリング)を通じてデータの抽象的なパターンを学習し、その抽象表現が(1)意味的(新規な構成が現実世界のルールに従う)、(2)合成的(パターンの再結合が有効な新規構成を生む)、(3)汎化的(訓練データにない実世界の現象を予測できる)という性質を持つものを指す。ESMCはこの世界モデルに該当し、その上に構造予測ヘッド(ESMFold 2)をアタッチすることで、下流タスクを実行する。
この世界モデルの最もエキサイティングな応用の一つが、抗体設計である。抗体は、重鎖(heavy chain)と軽鎖(light chain)が複雑に組み合わさって標的を認識するため、設計が極めて難しい。特に、scFv(single-chain variable fragment)と呼ばれる単鎖抗体は、二つのサブユニットが協調して結合界面を形成する必要があり、従来のタンパク質設計手法では成功率が低かった。Rives氏は「ESMCの表現空間を探索することで、治療に必要な親和性レベルに達する抗体を、少数の試行で見つけることに成功した」と報告する。これは、AlphaFoldがMSAに依存するため苦手とする領域であり、ESMCのアプローチが明確な優位性を持つ分野である。
抗体設計の成功は、世界モデルの「探索」というパラダイムの威力を示している。従来のタンパク質設計は、構造予測モデルを使って「この配列は正しく折れるか?」を評価する方式が主流だった。ESMCのアプローチは異なる。「設計基準(例:特定のタンパク質に結合する)を満たす分子を、世界モデルの表現空間の中から探索する」という方法だ。Rives氏は「治療用設計は、探索から創発する」と表現する。この考え方は、大規模言語モデルでプロンプトから解を生成するのとは対照的であり、タンパク質設計における新しいフレームワークを提供する。
メカニスティック・インタープリタビリティ:Sparse Autoencoderが明かすタンパク質の隠れた特徴
ESMCのもう一つの画期的な側面は、モデルの内部表現を解釈するためにSparse Autoencoder(SAE)を大規模に適用した点である。SAEは、ニューラルネットワークの活性化パターンをスパース(疎)な特徴ベクトルに分解する手法で、LLMの解釈可能性研究で近年注目を集めている。Rives氏のチームは、ESMCファミリー(300M、600M、6Bパラメータ)の全層にわたってSAEを訓練し、特に6Bモデルの特徴空間を深く分析した。
その結果、驚くべきことに、モデルが学習した特徴の階層構造が、生物学者が一世紀以上かけて実験的に構築してきた「還元的な生物学の絵図」と驚くほど一致することが判明した。最も基本的な生化学的性質や二次構造の構成要素から始まり、膜貫通領域、ジスルフィド結合、無秩序領域といった概念的なモチーフ、さらには遺伝子編集システムのような大きな機能的テーマまで、モデルは事前知識なしにこれらを獲得していた。
特に印象的な例として、Rives氏は「求核性エルボー(nucleophilic elbow)」という機能モチーフを挙げる。これは触媒三残基の一部として知られる特定の構造モチーフで、進化的に独立した複数のタンパク質ファミリーで収斂進化したと考えられている。ESMCのSAEは、このモチーフに対して単一の特徴を割り当てており、全く異なる構造トポロジーを持つタンパク質群で同じ特徴が活性化していた。Rives氏は「モデルは、配列の類似性ではなく、機能的な共通性に基づいて特徴を組織化している」と説明する。これは、モデルが単なるパターンマッチングを超えて、タンパク質の「意味」を学習していることを示唆する。
この発見は、未知の生物学の発見につながる可能性を秘めている。Rives氏は「アトラスの中には、我々がまだ機能を知らないタンパク質が多数含まれている。それらが既知の機能モチーフとリンクすることで、新たな遺伝子編集システムや酵素の発見につながる可能性がある」と語る。実際、ESMアトラスの初期バージョンは、Feng Zhang(フェン・チャン)教授のグループによる新規遺伝子編集システムの発見に貢献している。
バーチャルセルへの道:情報理論的アプローチとデータ生成の大規模化
Rives氏の最終的なビジョンは、タンパク質の世界モデルを超えて、「バーチャルセル(仮想細胞)」を構築することにある。彼は細胞を「情報処理マシン」として捉え、ゲノムにコードされた情報が転写、翻訳を経て表現型(phenotype)に至るまでの情報の流れをモデル化しようとしている。この考え方は、Claude Shannonの情報理論と、Zellig Harrisの分布構造の考え方を細胞レベルに拡張したものだ。
しかし、この目標は途方もなく困難である。Rives氏は「細胞の複雑さは、タンパク質とは比べ物にならない。何十億ものタンパク質が相互作用し、時空間的にダイナミックに振る舞う。現在の計算技術では、単一のタンパク質のフォールディングを第一原理からシミュレートすることさえ、ごく一部の高速フォールディングタンパク質に限られる」と認める。そこで彼が提案するのは、情報理論的な抽象化である。「細胞の出力(遺伝子発現、タンパク質間相互作用、表現型など)を十分に大量に観測できれば、その統計的パターンから細胞の背後にあるプログラムを学習できるはずだ」というのが彼の主張だ。
このビジョンを実現するため、Chan Zuckerberg Biohubは「Virtual Biology Initiative」を立ち上げた。これは、4億ドルを内部のデータ生成と技術開発に、さらに1億ドルを外部の研究グループへの助成に充てる大規模プロジェクトである。Rives氏は、データ生成の三つの原則を挙げる。第一に「速度」—タンパク質構造のデータベース(PDB)構築には半世紀を要したが、細胞レベルのデータではそれが許されない。第二に「一般化」—未知の介入に対する予測が可能なモデルを構築するには、多様な文脈での多様な介入データが必要である。具体的には、perturb-seq(遺伝子摂動とトランスクリプトーム測定の組み合わせ)や、空間生物学(細胞をその環境の中で観察する技術)の大規模化が鍵となる。第三に「フィードバック」—AIモデルが実験結果から学習し、次の仮説を生成するという能動学習のサイクルを構築する必要がある。Rives氏はこれを「実験によるRLVR(Reinforcement Learning from Verifiable Rewards)」と表現し、閉じたドメイン(ゲームや数学)とは異なる、開かれた生物学における新たなパラダイムと位置づける。
計算資源とデータの限界、そして今後の展望
エピソードの後半では、より実践的な議論が交わされた。Rives氏は、現在の最大のボトルネックとして「計算資源(compute)」を挙げる。「我々は生物学のチームとしては破格の計算資源を持っているが、それでもAI全体の流れから見れば限られている。もし計算資源が100倍になれば、ESMCは間違いなく大幅に改善される」と語る。ただし、データも同時にスケールさせる必要があるとも強調する。
現在、ESMCは約10億(1 billion)の配列で訓練されているが、自然界にはおそらく1,000億(100 billion)ものタンパク質配列が存在するとRives氏は推定する。ただし、その多くは冗長であり、クラスタリングによって非冗長なセットに絞り込む必要がある。興味深いのは、彼が「冗長性」の定義について異なる見解を示した点だ。「小さな遺伝的変異(一塩基多型など)は、タンパク質の機能を理解する上で極めて重要だ。単一の変異で機能が失われることもある。したがって、単に配列の類似度でクラスタリングするだけでは、重要な情報を捨ててしまう可能性がある」と指摘する。つまり、構造予測には大きな多様性が、機能理解には微細な変異の深い理解が必要であり、両方を満たすデータ戦略が求められる。
ESM-2ではスケーリングに収穫逓減が見られたが、ESMCではそれが解消された。Rives氏は「次のモデル(ESM-4?)を訓練するのに十分なデータは存在する」と自信を見せる。しかし、いつかはデータの限界に達する可能性も認め、「それは純粋に経験的な問題だ」と語る。インターネット上のテキストデータがLLMにとっての限界に近づきつつあるのと同様に、タンパク質配列データもいつかは収穫逓減のフェーズに入るかもしれない。その時、研究の焦点はデータ収集から、より効率的な学習アルゴリズムや、実験とのフィードバックループの構築へと移行するだろう。
結びに
本エピソードがリスナーに残すものは、「Bitter Lesson」がタンパク質生物学という全く新しい領域でも有効であるという強烈な実証結果と、その背後にある壮大なビジョンである。Alex Rives氏は、単なるモデルリリースを超えて、タンパク質を「進化の言語」として捉え、その統計的パターンから生物学の基本原理を学習するという、一貫した哲学を持っている。ESMCとESMFold 2の成功は、この哲学が単なる楽観論ではなく、実際にAlphaFold 3を凌駕する性能を生み出せることを示した。特に、抗体設計における成功は、創薬パイプラインに直接的なインパクトを与える可能性がある。
さらに、Sparse Autoencoderを用いたメカニスティック・インタープリタビリティの成果は、AIモデルが「ブラックボックス」ではなく、生物学の新しい発見ツールとなり得ることを示唆している。モデルが学習した特徴が、生物学者が一世紀かけて発見した知識と一致するだけでなく、未知のタンパク質間の関連性を明らかにする可能性を秘めている。Chan Zuckerberg BiohubのVirtual Biology Initiativeは、このアプローチを細胞レベルに拡張しようとする野心的な試みであり、その成否は今後の生物学のパラダイムシフトを左右するだろう。Rives氏の「細胞は情報処理マシンである」というメタファーは、単なるアナロジーではなく、次世代の生物学研究の設計原理となる可能性を秘めている。
要点
- Alex Rives氏は「Bitter Lesson(苦い教訓)」の信奉者であり、タンパク質生物学においても、ドメイン知識や帰納的バイアス(MSA)に頼らず、大規模データとスケーリング則に賭けるアプローチを2018年から一貫して追求している。
- 最新モデルESMCは、従来のUniRefに加え、メタゲノミクス由来のノイジーな配列データを追加学習することで、ESM-2で見られたスケーリングの収穫逓減を克服し、美しい対数線形のスケーリング則を実現した。
- ESMFold 2は、MSAを一切使用せず、ESMCの表現から直接構造を予測する。抗体(scFv)のようなMSAが有効でない領域ではAlphaFold 3を凌駕する性能を示し、治療用抗体の設計に成功した。
- Sparse Autoencoder(SAE)を用いたメカニスティック・インタープリタビリティにより、ESMCの内部表現が、生物学者が一世紀かけて実験的に構築してきたタンパク質の階層的知識(生化学的性質、構造モチーフ、機能的テーマ)と驚くほど一致することが明らかになった。
- モデルは「求核性エルボー」のような、進化的に独立して出現した機能モチーフに対して単一の特徴を割り当てており、配列類似性ではなく機能的な共通性に基づいて特徴を組織化している。
- Chan Zuckerberg Biohubは「Virtual Biology Initiative」として、4億ドルの内部投資と1億ドルの外部助成を発表。細胞レベルの情報理論的モデル構築に向け、perturb-seqや空間生物学の大規模データ生成を加速する。
- Rives氏は細胞を「情報処理マシン」と捉え、ゲノムから表現型に至る情報の流れを、大規模な統計的パターン学習(=世界モデル)によってモデル化するビジョンを描く。実験結果からのフィードバックループ(実験によるRLVR)が鍵となる。
- 現在の最大のボトルネックは計算資源とデータの両方であり、自然界には約1,000億のタンパク質配列が存在すると推定されるが、その全てを効果的に学習する方法はまだ確立されていない。