motpod
Dwarkesh Podcast · 2026年5月20日

Eric Jang – AlphaGoをゼロから構築する

AI generated article / ja / study
この記事でわかること
  • エリック・ジャン(Eric Jang)は、かつて1x TechnologiesでAI担当バイスプレジデントを務め、それ以前はGoogle DeepMind Robotic...
  • 本エピソードでは、エリックが自身のプロジェクトで実践した「自動研究ループ(Auto-research loop)」についても詳しく語られている。LLMを使ったコーディング...
  • [00:00] 囲碁の基本とAlphaGoが解いた問題の本質 囲碁は、19×19の盤上に黒と白の石を交互に置き、より多くの領域(地)を囲んだ方が勝ちという、一見単純なゲー...
こんな人向け

自分では見つけにくい海外Podcastの話題に、日本語で気軽に触れたい人。

出典Podcast

Dwarkesh Podcast / Dwarkesh Patel

Read
Open episodeFind more episodes

エリック・ジャン(Eric Jang)は、かつて1x TechnologiesでAI担当バイスプレジデントを務め、それ以前はGoogle DeepMind Roboticsで上級研究科学者として活動していた。現在は長期休暇を取っており、その期間中に取り組んでいるプロジェクトの一つが、AlphaGoをスクラッチから再構築し、現代のAIツールで改良するというものだ。彼はこの試みを通じて、知能の本質的な構成要素である「探索」「経験からの学習」「自己対戦」が、いかにしてAlphaGoという一つの美しい具体例に結晶化しているかを示そうとしている。AlphaGoは2017年のブレークスルー以降、AI研究のランドマークであり続けているが、その核心にあるモンテカルロ木探索(MCTS)と深層学習の融合は、現在の大規模言語モデル(LLM)の強化学習(RL)が抱える根本的な問題、すなわち「クレジット割り当て問題」を浮き彫りにする。LLMのRLでは、長大なトークン系列の中から、どの行動が最終的な正解に寄与したのかを特定するのが極めて難しい。一方、AlphaGoのMCTSは、一手一手に対して「この手は前より確実に良い」という訓練目標を提供するため、学習信号の分散が格段に小さい。この対比は、人間の学習様式が後者に近いことを示唆しており、将来のより汎用的なAIシステムがどのように学習すべきかについて、深い示唆を与える。

本エピソードでは、エリックが自身のプロジェクトで実践した「自動研究ループ(Auto-research loop)」についても詳しく語られている。LLMを使ったコーディング支援が、実験の実装やハイパーパラメータ最適化といった作業を驚くほど効率化する一方で、「次にどの研究課題を選ぶべきか」という判断や「行き詰まりからの脱却」といった、より高次の研究判断は依然として人間の役割であることが明らかになった。この議論は、知能爆発(intelligence explosion)がいつ、どのような形で訪れるのか、そしてそれが内部からどのように見えるのかという、近年活発に交わされている議論に直接つながる。AlphaGoという一見過去のプロジェクトが、AI研究の未来を理解するための最もクリーンな「働く例」として機能しているのだ。

00:00囲碁の基本とAlphaGoが解いた問題の本質

囲碁は、19×19の盤上に黒と白の石を交互に置き、より多くの領域(地)を囲んだ方が勝ちという、一見単純なゲームである。しかし、その複雑さは天文学的だ。合法手の数は初手で約361、ゲーム全体では250〜300手に及び、可能な盤面の総数は宇宙の原子の数よりもはるかに多い。このため、コンピュータ科学者は長年にわたり、囲碁は「探索が事実上不可能な問題」と考えてきた。チェッカーやチェスが比較的早期にコンピュータに征服されたのとは対照的だ。囲碁が難しい理由は、一手一手の価値を局所的に評価できない点にある。将棋の「王手」のように、すぐに結果が分かる手は存在せず、最終的な勝敗はゲームの終盤まで確定しない。つまり、ある手が良いか悪いかを知るには、その後の数百手を読み切る必要がある。この「深さ」と「広さ」の両方が爆発的に大きいことが、囲碁をAIにとって究極の挑戦にしていた。

AlphaGoの核心的なブレークスルーは、深層ニューラルネットワークを用いて、この探索問題を扱いやすいサイズに縮約した点にある。具体的には、二つのネットワークを導入した。一つは「価値ネットワーク(value network)」で、現在の盤面を見て「この盤面から最終的に勝つ確率はどのくらいか」を即座に推定する。もう一つは「方策ネットワーク(policy network)」で、現在の盤面で「どの手が良い手か」という確率分布を出力する。人間の棋士が盤面を一目見て「この形は勝ちだ」「この手が良さそうだ」と直感的に判断する能力を、ニューラルネットワークで模倣したわけだ。これにより、従来のコンピュータ囲碁のように無数の手をランダムにシミュレーションする非効率から脱却し、有望な手に集中的に探索リソースを割り当てることが可能になった。

08:17モンテカルロ木探索(MCTS)の仕組み

AlphaGoの心臓部は、モンテカルロ木探索(MCTS)と呼ばれるアルゴリズムである。これは、ゲームの木構造をすべて構築するのではなく、有望そうな枝だけを選択的に成長させながら、最善手を探す手法だ。MCTSは「選択(Selection)」「展開(Expansion)」「評価(Evaluation)」「バックアップ(Backup)」という4つのステップを繰り返す。まず、現在のルートノード(盤面)から始め、PUCT(Predictor + UCT)と呼ばれる選択基準に従って、最も有望な子ノードを選ぶ。この基準は、「これまでにその手を選んで得られた平均報酬(Q値)」と「まだあまり試していない手を探索するためのボーナス項」のバランスで構成される。選ばれたノードが終端(ゲーム終了)でなければ、そのノードを展開し、方策ネットワークを使って子ノード(次の合法手)の確率分布を取得する。

次に、展開された子ノードの価値を、価値ネットワークを使って評価する。これが「評価」ステップだ。価値ネットワークは、その盤面から最終的に勝つ確率を-1から1の範囲で出力する。この評価値は、実際にゲームを終局までプレイアウトする代わりに使われる、いわば「ショートカット」である。オリジナルのAlphaGo Leeでは、この価値ネットワークの推定値と、方策ネットワーク同士を最後までプレイアウトした結果を平均していたが、その後のAlphaGo Zeroではこのプレイアウトは不要であることが示され、計算効率が大幅に向上した。最後に、得られた評価値を木の根元に向かって逆伝播させる(バックアップ)。これにより、経路上のすべてのノードのQ値(平均報酬)が更新される。この4ステップを数千〜数万回繰り返すことで、MCTSはどの手が最も勝率が高いかという確信度を高めていく。最終的には、最も訪問回数(visit count)の多かった子ノードが、AIの次の一手として選択される。

32:04ニューラルネットワークの役割とアーキテクチャ

MCTSを効率的に機能させるために、二つのニューラルネットワークが重要な役割を果たす。方策ネットワークは、現在の盤面を入力として、すべての合法手に対する確率分布を出力する。これは「この盤面では、プロの棋士ならどの手を選ぶか」を学習したものだ。一方、価値ネットワークは、同じ盤面を入力として、その盤面から最終的に勝つ確率を単一の値で出力する。AlphaGo Zero以降は、これら二つのネットワークは同一のバックボーンネットワークを共有し、出力層だけが分岐する「二頭出し(two-headed)」アーキテクチャが標準となった。これにより、盤面の特徴表現を共有することで学習効率が向上する。エリックの実験では、ResNet(残差ネットワーク)がTransformerよりも低予算の設定で優れた性能を示した。これは、囲碁が局所的なパターン認識に強く依存するゲームであり、畳み込みニューラルネットワークの持つ「局所性の帰納バイアス」が有効に働くためだと考えられる。

ただし、盤面全体の大局的な状況を把握する必要がある場合、単純な畳み込みだけでは不十分である。この問題に対処するため、Katago(カタゴ)という強力なオープンソースの囲碁AIは、ネットワーク内でグローバルな特徴を集約する機構を導入している。これは、盤面の離れた場所で起きている戦いを関連付けるために重要だ。エリックは、Transformerを使った実験も試みたが、現時点ではResNetを凌駕する結果は得られていない。彼は、Transformerが持つ「大域的な注意機構(global attention)」は、より多くのデータを必要とするため、低データ領域ではResNetの方が有利であると推測している。このアーキテクチャ選択の議論は、AIモデルの設計において、問題の性質に応じた適切な帰納バイアスを選択することの重要性を示している。

01:00:33自己対戦と方策改善のループ

AlphaGoの真の革新性は、自己対戦(self-play)を通じて、MCTSという「探索演算子」が方策ネットワークを継続的に改善するループを構築した点にある。具体的には、以下のように動作する。まず、現在の方策ネットワークと価値ネットワークを使ってMCTSを実行し、各盤面における改善された行動分布(π_MCTS)を得る。この分布は、生の方策ネットワークの出力よりも、より確信度が高く、強い手に集中している。AIはこのπ_MCTSに従って実際に一手を打ち、ゲームを進める。ゲームが終了した後、すべての盤面に対して、MCTSが出力した行動分布を教師信号として、方策ネットワークを再訓練する。つまり、「MCTSが選んだ良い手を、ニューラルネットワークが一発で予測できるようにする」という蒸留(distillation)が行われるのだ。

このプロセスは、ロボティクスにおけるDAgger(Dataset Aggregation)アルゴリズムと深い類似性を持つ。DAggerでは、専門家の介入によって収集されたデータでポリシーを改善するが、AlphaGoではMCTSがその「専門家」の役割を果たす。重要なのは、MCTSがゲームに勝ったか負けたかに関わらず、すべての盤面に対して「この盤面では、この手を打つべきだった」という具体的な改善指示を出せる点だ。たとえゲームに負けたとしても、各局面でより良い手を選んでいれば、勝つ確率は高まる。この「一手ごとの改善」が、AlphaGoの学習を極めてサンプル効率の良いものにしている。対照的に、従来の強化学習(REINFORCEなど)では、ゲームに勝った場合にのみ、そのゲーム内のすべての手を「良い手」として強化するため、実際に勝利に貢献した手とそうでない手を区別できず、学習信号に大きなノイズが混入する。

01:25:38代替RLアプローチとクレジット割り当て問題

AlphaGoのMCTSが持つ「一手ごとの改善」という特性は、現在のLLMのRLが直面する「クレジット割り当て問題」と鮮明な対比をなす。LLMのRL、例えばRLHF(Reinforcement Learning from Human Feedback)や最近のRLVR(Reinforcement Learning from Verifiable Rewards)では、モデルが生成した一連のトークン(例えば、コード生成における数百〜数千トークン)全体に対して、最終的な報酬(テストに合格したかどうか)が与えられる。この報酬を、各トークンに適切に分配するのは極めて難しい。なぜなら、正解に至ったトークン系列の中にも、実際には正解に貢献していないトークンが多数含まれている可能性が高いからだ。これは、アンドレイ・カーパシー(Andrej Karpathy)が「ストローで教師信号を吸い上げる」と表現した問題そのものである。

エリックは、この問題を数式的に説明する。単純なREINFORCEアルゴリズムでは、勾配の分散が系列長Tの二乗に比例して増大する。これは、各トークンの対数確率と最終報酬の積の分散が、トークン間の相互作用によって増幅されるためだ。一方、MCTSでは、各局面で「この手を打てば勝率がこれだけ向上する」という明確な改善目標(アドバンテージ)が得られるため、分散が劇的に小さくなる。LLMのRLでこの問題を緩和するためには、Generalized Advantage Estimation(GAE)のような高度なアドバンテージ推定手法や、批評家ネットワーク(critic network)を用いてベースラインを引くなどの工夫が必要となる。しかし、それでもMCTSのような「前方探索」による明示的な改善指示には及ばない。この議論は、LLMの推論能力を向上させるために、MCTSのような木探索を言語領域に適用する試み(例:AlphaMath、MuZeroの言語版など)がなぜ注目されているのか、その理論的根拠を提供している。

01:45:47MCTSがLLMにそのまま適用できない理由

MCTSが囲碁でこれほど効果的に機能する理由は、いくつかの特殊な条件が揃っているからだ。第一に、囲碁は完全情報ゲームであり、盤面の状態が完全に観測可能である。第二に、行動空間(合法手)は最大でも361と、言語モデルの語彙サイズ(数万〜数十万)に比べて格段に小さい。第三に、ゲームの終了条件(勝敗)が明確に定義されており、価値関数の学習が比較的容易である。これらの条件が、MCTSの効率的な探索を可能にしている。一方、LLMの推論は、これらの条件を満たさない。行動空間は事実上無限に近く、同じトークンが二度とサンプリングされない可能性が高い。また、価値関数を定義するのも難しい。コード生成であれば「テストに通ったか」という明確な報酬があるが、自由形式の文章生成や複雑な推論タスクでは、部分的な正しさを評価する価値関数を設計するのは至難の業だ。

さらに、MCTSの探索ヒューリスティックであるPUCTは、行動空間が小さいことを前提に設計されている。PUCTの探索ボーナス項は、親ノードの訪問回数と子ノードの訪問回数の比に依存するが、行動空間が巨大なLLMでは、同じ子ノードが二度訪問されることは稀であり、このヒューリスティックは機能しない。エリックは、LLMの推論においてMCTSが効果を発揮しない理由として、PUCTが局所的なトークン選択に貪欲になりすぎて、最終的な問題解決に必要な「思考の飛躍」を捉えられない可能性を指摘する。しかし、彼はMCTSのアイデア自体が完全に否定されるべきではないとも述べている。数学のような、より構造化された論理探索が有効な領域では、MCTSの変種が再び脚光を浴びる可能性がある。実際、Google DeepMindなどでは、LLMの推論に木構造を適用する研究が継続的に行われており、その成果が待たれるところだ。

02:22:16自動化されたAI研究者:現状と限界

エリックは、自身のAlphaGo再実装プロジェクトにおいて、LLM(主にClaude Opus 4.6と4.7)を活用した「自動研究ループ」を積極的に採用した。その経験から、LLMが研究のどの部分を得意とし、どの部分を苦手としているかについて、貴重な洞察を提供している。LLMが特に優れているのは、ハイパーパラメータ最適化と実験の実行である。従来、研究者は学習率や重み減衰などのハイパーパラメータを手動でグリッドサーチしていたが、LLMはコードを書き換えながら、より柔軟で創造的な方法で最適化を進めることができる。例えば、「この層の勾配が小さいから、アーキテクチャを変更しよう」といった、まるで大学院生のような試行錯誤を自律的に行う。また、「実験を実行し、結果をプロットし、考察をレポートする」という一連の作業も、LLMに任せることができる。これにより、研究者はより高次の判断に集中できるようになる。

しかし、LLMが現在のところ苦手とするのは、「次にどの実験をすべきか」という研究の方向性を決める判断と、「行き詰まりからの脱却」である。エリックは、自身の研究過程をツリー構造で可視化し、多くの失敗や行き詰まりを経験したことを語る。ある研究トラックが有望でないと判断し、全く別のアプローチに切り替える「横断的思考(lateral thinking)」は、現在のLLMには難しい。彼は、研究の行き詰まりが「アイデア自体が間違っている」のか、それとも「実装のバグ」なのかを区別する能力が重要だと指摘する。これは、イリヤ・サツケバー(Ilya Sutskever)が自身の研究者としての強みとして挙げた「正しいアイデアに対する強い確信」に通じる。LLMにこのような「研究のセンス」を獲得させるためには、囲碁のような「外側の検証ループ(outer loop)」が明確な環境で、長期的な報酬を伴う強化学習を行うことが有効かもしれない。エリックは、囲碁がAI研究者の自動化に向けた理想的なテストベッドになると考えている。

02:12:02RLの情報効率の悪さとAlphaGoの優雅さ

エリックは、自身のブログ記事でも詳述している「RLの情報効率の悪さ」について、定量的な分析を提供する。彼は、学習の情報効率を「ビット/サンプル」という指標で捉える。教師あり学習では、モデルが誤った予測をした場合でも、正解ラベルとの間のクロスエントロピー損失を通じて、多くの情報(ビット)を得ることができる。例えば、語彙サイズ10万のLLMで「空の色は?」という質問に対し、正解が「青」である場合、教師あり学習ではモデルの予測分布と正解ラベルの間の距離に応じた情報が得られる。一方、RLでは、モデルがランダムにトークンを生成し、最終的な報酬が得られた場合にのみ学習が進む。初期状態では「青」をサンプリングする確率は極めて低く(10万分の1)、ほとんどのサンプルからはほとんど情報が得られない。このため、RLの学習曲線は、パスレート(正解率)が低い領域で非常に非効率になる。

AlphaGoのMCTSを用いた学習は、この問題を巧みに回避している。MCTSは、たとえゲームに負けたとしても、各局面で「より良い手」を提供する。これにより、学習は常に「改善された教師信号」による教師あり学習として進行する。つまり、AlphaGoはRLの問題を、安定した教師あり学習の問題に変換しているのだ。この「問題の変換」こそが、AlphaGoのアルゴリズムとしての優雅さであり、その驚くべきサンプル効率の源泉である。さらに、AlphaGoは方策ネットワークを訓練する際、MCTSが選んだ「最善手」だけでなく、MCTSが出力する「行動の確率分布」全体を教師信号として用いる。これは「ソフトターゲット」または「暗黒知識(dark knowledge)」と呼ばれる蒸留の一種であり、ハードターゲット(最善手のみ)を用いる場合よりも、はるかに多くの情報を一サンプルから抽出できる。このように、AlphaGoは「探索」と「学習」を美しく統合し、情報効率の高い学習を実現している。

結びに

このエピソードの最大の収穫は、AlphaGoという一つのプロジェクトが、AI研究の複数の重要なテーマを結びつける「結節点」として機能していることだ。MCTSと深層学習の融合は、探索と学習の関係についての深い洞察を与える。LLMのRLが直面するクレジット割り当て問題は、AlphaGoのアプローチと比較することで、その本質がより鮮明になる。そして、自動化されたAI研究者という未来図は、現在のLLMの能力と限界を如実に示している。エリックの「AlphaGoをスクラッチから作る」というプロジェクトは、単なる歴史の再現ではなく、AIの未来を形作る原理を探求するための、極めて実践的な試みなのである。このエピソードを聴いた後では、AlphaGoという過去の成果が、現在のAI研究の最前線とこれほど深く結びついていることに驚かされるだろう。そして、知能の本質を理解するためには、時には過去に立ち返ることが最も効果的な方法であることを、強く認識させられる。

要点

  • AlphaGoの核心は、モンテカルロ木探索(MCTS)と深層ニューラルネットワーク(方策ネットワーク・価値ネットワーク)の融合にあり、これにより囲碁の天文学的な探索空間を扱い可能にした。
  • MCTSは「選択」「展開」「評価」「バックアップ」の4ステップを繰り返し、有望な手に集中的に探索リソースを割り当てる。PUCT基準が探索と活用のバランスを制御する。
  • AlphaGoの自己対戦学習は、MCTSが出力する改善された行動分布を教師信号として方策ネットワークを訓練する「蒸留」プロセスであり、これにより一手ごとに明確な改善目標が得られる。
  • この「一手ごとの改善」は、LLMのRLが抱える「クレジット割り当て問題」(長大なトークン系列の中から正解に寄与した行動を特定する困難)を回避する点で、極めてサンプル効率が良い。
  • MCTSがLLMにそのまま適用できない理由は、行動空間の巨大さ、価値関数の定義の難しさ、PUCTヒューリスティックの非適合性にある。しかし、数学のような構造化された領域では再び注目される可能性がある。
  • 現在のLLMは、ハイパーパラメータ最適化や実験の実行といった「下流の研究作業」を自動化できるが、「次にどの研究課題を選ぶか」という高次の判断や「行き詰まりからの脱却」は依然として人間の役割である。
  • RLの情報効率は、教師あり学習と比較して極めて低い。特に初期の低パスレート領域では、ほとんどのサンプルからほとんど情報が得られない。AlphaGoはこの問題を、RLを教師あり学習に変換することで解決している。
  • Katago(カタゴ)は、AlphaGo Zeroと比較して約40分の1の計算コストで同等以上の性能を達成した。これは、アーキテクチャの工夫や訓練手法の改良による「計算量乗数(compute multiplier)」の効果を示している。