Invest Like the Best with Patrick O'Shaughnessy · 2026年5月23日

Sergey Levine - 物理世界のためのLLM構築 - [Invest Like the Best, EP.465]

AI generated article / ja / study

この記事でわかること

UCバークレー校の教授であり、Physical Intelligenceの共同創業者でもあるSergey Levineは、ロボティクス分野における「汎用性」への賭けが...
Levineは、Physical Intelligenceの目標を「あらゆる身体化されたシステムを制御し、あらゆるタスクを実行できるロボティック基盤モデルの開発」と定...
[03:29] 汎用性への賭け：なぜ特化型ではなく汎用型を選ぶのか Levineのアプローチの核心は、ロボットに特定のタスクを教え込むのではなく、物理的世界を理解する...

こんな人向け

英語Podcastの要点を、聴く前に日本語で把握したい人。

出典Podcast

Invest Like the Best with Patrick O'Shaughnessy / Colossus | Investing & Business Podcasts

要点

Sergey Levineは、特定タスクに特化したロボットではなく、あらゆる物理的デバイスを制御できる「ロボティック基盤モデル」の開発を目指している。これはLLMが自然言語処理の領域で汎用性によって特化型システムを駆逐した現象と類似している。
Physical Intelligenceの「ビジョン・ランゲージ・アクション・モデル（VLA）」は、テキスト、画像、ロボット動作データの三層構造で訓練され、ウェブ上の知識を物理的行動に接地する。チェーン・オブ・ソートによる推論と強化学習を組み合わせることで、未知の状況への適応と性能向上を実現する。
ロボティクスにおける最大の技術的課題は「常識」の獲得である。マルチモーダルLLMは膨大な知識を提供するが、それをロボットの物理的行動に結びつける「グラウンディング」が難しい。Levineは、この問題を解決するために、言語による「コーチング」がロボットの性能を向上させることを発見した。
2050年に家庭用ロボットが普及していないとしたら、その理由は技術的な限界ではなく、人間の信頼と受容の問題である可能性が高い。ロボットは常に「常識的な」行動を取る必要があり、特に子供や高齢者との相互作用は、Moravecのパラドックスの極致として最も困難な課題となる。
ロボティクス研究コミュニティでは、エンドツーエンド学習と構成主義的アプローチの間で根深い論争が続いている。Levineは、学習したスキルを状況に応じて組み合わせる「構成的一般化」が、新しい問題を解決する鍵だと主張する。
ロボットハードウェアの低価格化（10年前の40分の1以下）とLLMの進歩が収束し、ロボティクスは転換点を迎えている。低コストで不正確なハードウェアでも、学習ベースのアプローチにより実用的な性能を発揮できるようになった。
Levineは、企業に対して「自社の労働力の経済性を正確に把握すること」を勧める。ロボティクスは人間の仕事を置き換えるのではなく、コード生成ツールと同様に、人間とロボットの協働による新たな生産性の向上をもたらすと予測する。
研究における最も重要な決断は「いつ固執し、いつ方向転換するか」である。Levineは、Googleでの「アームファーム」体験を例に、偉大な組織が若手研究者の「ペットプロジェクト」を支援する文化の重要性を強調する。

アプリで聴く・質問する

音声を聴く・要約に質問・好きな言語や深さで生成

他のエピソード

UCバークレー校の教授であり、Physical Intelligenceの共同創業者でもあるSergey Levineは、ロボティクス分野における「汎用性」への賭けが、特定のタスクに特化したアプローチよりも最終的には容易であるという逆説的なテーゼを掲げる。彼の主張の核心は、大規模言語モデル（LLM）が自然言語処理の領域で汎用性によって特化型システムを駆逐したように、ロボティクスにおいても、あらゆる物理的デバイスを制御できる「ロボティック基盤モデル」を構築することが、最もスケーラブルな解決策だという点にある。このアプローチは、単にデータを統合する以上の価値を持ち、多様なロボット、環境、タスクからのデータを活用することで、物理的相互作用に対する深い「世界理解」をモデルに獲得させる。これにより、新しいタスクをゼロから学習するのではなく、既存の物理的常識を応用して迅速に適応することが可能になる。本エピソードでは、Levineがこのビジョンの技術的基盤、直面する課題、そしてロボティクスが人間社会に浸透する未来像について、ホストのPatrick O'Shaughnessyとの対話を通じて深く掘り下げている。

Levineは、Physical Intelligenceの目標を「あらゆる身体化されたシステムを制御し、あらゆるタスクを実行できるロボティック基盤モデルの開発」と定義する。彼は、この汎用性へのアプローチが、特定のタスク（例えば皿洗い専用ロボット）を開発するよりも長期的には容易だと主張する。その理由は、多様なデータソースから学習することで、モデルが物理的世界の因果関係や物体操作の基本原理を理解し、未知の状況でも「常識」を働かせて適応できるようになるからだ。この考え方は、LLMがウェブ全体のデータから学習することで翻訳や感情分析といった個別タスクを凌駕した現象と類似している。しかし、ロボティクスにはLLMのようなインターネット規模のデータセットが存在しないため、データの収集方法と活用方法が最大の課題となる。Levineは、この課題を克服するために、シミュレーションデータと実世界データのハイブリッド活用、そして人間の「コーチング」による効率的な学習プロセスを研究している。

03:29汎用性への賭け：なぜ特化型ではなく汎用型を選ぶのか

Levineのアプローチの核心は、ロボットに特定のタスクを教え込むのではなく、物理的世界を理解するための基盤モデルを構築することにある。彼は、LLMの成功が示すように、汎用的な基盤の上に構築されたアプリケーションは、個別に開発された特化型システムよりもはるかに強力であると指摘する。ロボティクスの文脈では、これは「皿洗いの専門家」や「洗濯物たたみの専門家」を個別に訓練するのではなく、物理的相互作用そのものを理解するモデルを訓練することを意味する。人間が新しいスキルを驚くほど迅速に習得できるのは、物理的相互作用に対する直感的な理解があるからであり、ロボットにも同様の能力を与えようというのがLevineのビジョンだ。

このアプローチの難しさは、その成果が一見すると地味に見える点にある。Levineは、ロボティクスのデモは通常、完璧に管理された環境で一つのクールなタスクを実行するものだが、汎用性の真価は「どんな人間でもできる平凡なタスクを、どんな状況でも実行できる」点にあると説明する。Physical Intelligenceが2024年4月に公開したキッチン清掃のデモは、ロボットが初めて訪れた家庭で、事前の訓練データなしに皿を拾い上げる様子を示している。一見すると単純な作業だが、未知の環境で汎用的な物理的知能が機能していることの証明であり、これこそが彼らの研究の真の価値だとLevineは強調する。

07:24成功した先の世界：ロボティクスの「パソコン」的進化

もしPhysical Intelligenceが真の汎用物理知能を達成した場合、その影響は計り知れない。Levineは、その未来をパーソナルコンピュータ（PC）の登場に例える。PCは、それまで専門家だけが扱えたコンピューティングを一般に開放し、1990年代以降のアプリケーションの爆発的増加（カンブリア爆発）を引き起こした。同様に、汎用ロボティック基盤モデルが登場すれば、誰もが自由にロボットを「ハック」し、創造的なアプリケーションを開発できるようになる。現在、新しいロボットアプリケーションを開発するには、知能問題からハードウェア制御まで、膨大なスタックを一から構築する必要がある。しかし、基盤モデルがあれば、開発者はその上にアプリケーションを構築するだけでよくなる。

Levineは、未来のロボットは必ずしも人間型（ヒューマノイド）である必要はないと指摘する。むしろ、天井から吊り下がる5本の腕を持つロボットや、1,000台のクアッドコプターの群れなど、タスクに最適化された多様な形態が登場するだろう。重要なのは、知能が特定の身体に依存しないことだ。物体との相互作用、物理的因果関係、運動の基本原理は、どのような形態のロボットでも共通している。基盤モデルは、これらの普遍的な原理を学習し、個々のロボットの身体特性には微調整やコンテキスト内学習で適応する。これにより、人間の想像力がロボットの形態と機能を革新する時代が到来するとLevineは予測する。

10:54ロボティクス研究のマイルストーン：80年代からLLM時代へ

Levineは、ロボティクス研究の歴史を俯瞰し、重要なマイルストーンをいくつか挙げる。エンドツーエンド学習の概念自体は新しいものではなく、1980年代のALVINN（自動運転システム）がその先駆けだ。しかし、歴史的にロボット学習が困難だった理由は、コスト効率の良いデータ収集、長尾シナリオへの対応（常識）、そして堅牢性と速度の両立という、複数の課題を同時に解決する必要があったからだ。従来のアプローチでは、新しいタスクごとに膨大なデータを収集する必要があり、非効率的だった。

ここ数年で状況を一変させたのが、マルチモーダル大規模言語モデル（LLM）の登場である。LLMは、ウェブスケールの知識を内包しており、ロボットに「常識」を与える可能性を秘めている。例えば、道路にガス漏れの標識がある状況をロボットが初めて経験しても、LLMの知識を活用すれば「危険だから迂回すべき」と推論できる。Levineは、この「常識」をロボットの物理的行動に接地（グラウンディング）することが、現在の最大の技術的課題であり、同時に最大のチャンスでもあると語る。彼は、深層強化学習（AlphaGoなど）が人間を超える性能を発揮する一方で、生成AI（LLMなど）が人間の知識を再現するという、これまで別々に発展してきた二つの流れを統合することが、真の汎用ロボット知能への鍵だと主張する。

18:22ビジョン・ランゲージ・アクション・モデル：三層構造の学習プロセス

Physical Intelligenceが開発する中核技術は、「ビジョン・ランゲージ・アクション・モデル（VLA）」である。これは、LLMをロボット制御用に適応させたもので、三段階の訓練プロセスを経る。第一段階ではテキストデータで事前訓練され、第二段階ではウェブ上の画像データで視覚的理解を獲得する。そして第三段階で、多様なロボットの動作データを用いて、実際の物理的行動に適応する。このプロセスにより、ウェブ上の膨大な知識をロボットの制御に活用できるようになる。

さらに、Levineのチームは二つの重要な研究軸を追求している。一つ目は「常識」の獲得だ。ロボットはタスクを実行する前に、チェーン・オブ・ソート（連鎖的推論）を用いて状況を分析する。「キッチンを片付けろ」と指示されたロボットは、まず「皿を拾うべきだ」と推論し、それから行動に移る。この中間的な推論ステップが、ウェブスケールの事前訓練で得た知識を活用し、未知の状況への対応を可能にする。二つ目は強化学習による性能向上だ。エスプレッソマシンのデモでは、ロボットが何度も練習を繰り返すことで、動作の堅牢性、速度、スループットを改善した。Levineは、この二つのアプローチを組み合わせることで、ロボットは人間のコーチング（言語による指示）と自律的な練習の両方から学習できるようになると説明する。

27:242050年のキッチンにロボットがいない理由：技術と人間の信頼の狭間

Patrick O'Shaughnessyが「2050年になっても、あなたのキッチンで皿洗いをするロボットがいないとしたら、その最も可能性の高い理由は何か」と問うと、Levineは「技術と人間の信頼の相互作用」を挙げる。自動運転車の例が示すように、技術が完璧でなくても人々が許容する領域と、絶対的な信頼が求められる領域がある。家庭用ロボットが時々皿を割ったり、小さな子供がいる環境で予期せぬ動作をしたりする場合、人々はそれを受け入れるだろうか？Levineは、この信頼の問題は技術的なブレークスルーと同じくらい重要であり、慎重に扱われるべきだと指摘する。

純粋に技術的な観点から見た最大のリスクは、想定外の状況への対応力だとLevineは言う。ホテルの客室清掃やレストランの調理補助など、ある程度定義された環境であれば、技術的な解決策は見えている。しかし、家庭は無数の予期せぬ出来事が起こる場だ。ロボットは、常に「何か賢いこと」をする必要がある。必ずしもタスクを成功させる必要はないが、人間が許容できる範囲で「常識的な」行動を取らなければならない。この「常識」をいかにしてロボットに実装するかが、最も困難な課題であり、Levineの研究の最前線でもある。

32:38「クール」と「有用」の狭間：ロボットオリンピックと日常タスクの壁

Levineは、ロボティクスにおける「クール」と「有用」の対比について、Boston Dynamicsのアクロバティックなデモを例に挙げる。バックフリップは確かにクールだが、それが何の役に立つのかは不明だ。Physical Intelligenceの戦略は、「有用であるという制約の下で、可能な限りクールにする」ことだ。つまり、技術を真に前進させる課題を選び、その過程で生まれるデモが結果的にクールに見えるというアプローチを取る。

この考え方を象徴するのが、元Everyday RobotsのBenji Holsonが提唱した「ロボットオリンピック」の概念だ。これは、人間にとっては簡単だが、現在のロボットには極めて難しい日常タスク（油のついたフライパンを洗う、ビニール袋で犬の糞を拾うなど）を競うものだ。Physical Intelligenceは、このリストに含まれるほぼすべてのタスクを、特別な開発なしに既存のシステムで解決できることを示した。唯一失敗したのは、ドレスシャツを裏返すタスク（グリッパーが袖に入らなかった）と、指でオレンジの皮をむくタスク（指の力が足りず、ナイフを使った）だった。Levineは、この結果こそが汎用モデルの力の証左であり、特別な調整なしに多様なタスクを「オンボーディング」できることを示していると強調する。

42:16コミュニティの論争：エンドツーエンド学習 vs. 構成主義的アプローチ

ロボティクス研究コミュニティには、現在も根深い論争が存在する。最大のものは、「エンドツーエンド学習」が正しいアプローチかどうかという点だ。Levineは、初期のキャリアでは「ロボットAIに学習は必要か」という議論に巻き込まれていたと振り返る。伝統的なエンジニアリングアプローチでは、物理法則や運動計画を明示的にプログラムするが、学習ベースのアプローチはデータからこれらを獲得する。Levineは、長期的な汎用性を追求するならば、データからの学習が不可欠だと主張する。

しかし、この「Bitter Lesson（ bitter lesson：特定のドメイン知識をプログラムするよりも、汎用的な学習手法に頼るべきという教訓）」には、有力な反論も存在する。それは、「複雑な実世界では、物理に関する既知の知識（教科書の内容）を活用しない手はない」というものだ。Levineは、この反論を「構成主義的学習（compositional learning）」の重要性として捉える。彼の学生が行った実験では、言語モデルに「国際音声記号（IPA）でサンドイッチの作り方を書け」と指示したところ、モデルはIPAで書かれた段落を生成した。これは、モデルが「段落」という概念と「IPA」という表記法を構成可能な要素として理解し、組み合わせた結果だ。ロボティクスでも同様に、学習したスキルのレパートリーを状況に応じて組み合わせ、新しい問題を解決する能力が重要になる。

44:30ロボットが最後に克服するタスク：人間らしさの本質

Levineは、ロボットが最後まで克服できないであろうタスクとして「子供のおむつ替え」を挙げる。これは、Moravecのパラドックス（人間にとって簡単なことがロボットには難しく、その逆もまた真なり）の極致だ。人間は物理的な作業だけでなく、他者との相互作用にも極めて優れている。これは生存に直結する能力だからだ。高齢者介護や幼児の世話など、他者を助ける身体的・感情的行為は、人々が考えるよりもはるかに難しい。これらのタスクは、単に技術的な難易度が高いだけでなく、失敗した場合のリスクも極めて高い。

さらにLevineは、人間の「物理的アナロジー」能力の重要性を指摘する。「あの会社は勢い（momentum）がある」という表現は、物理的な概念をビジネスに応用したアナロジーだが、人間はこれを直感的に理解する。リチャード・ファインマンが素粒子の「スピン」という用語を使ったように、物理的なアナロジーは高度な抽象概念の理解と推論を可能にする。Levineは、現在のLLMがこのような物理的アナロジーを真に理解しているかどうかは疑問であり、これこそが人間の物理的知能の特別な側面だと示唆する。ロボットが真に人間のパートナーとなるためには、この「物理的常識」を獲得する必要がある。

50:15製造とスケールの課題：不確実性の中での実験

Levineは、ロボティクスのスケールアップにおける製造面の課題について、Elon Muskの「工場こそが製品である」という言葉を引用しながら議論する。しかし、彼は現在の段階では、製造のスケールアップよりも、まず「何を作るべきか」を明確にすることが優先事項だと主張する。汎用ロボティック基盤モデルが提供する最大の価値の一つは、ハードウェアの設計に関する不確実性を低減することだ。どのようなロボットが本当に有用なのか、どのようなソフトウェアがその上で動作するのかが不明確なまま、大規模な製造に投資するのはリスクが高い。基盤モデルがあれば、様々なハードウェアを試作し、その性能を迅速に評価できるようになる。

企業がロボティクスに備える方法について、Levineは「テクノロジーの変化の速さを理解すること」の重要性を強調する。例えば、ロボットの学習が「デモンストレーション（人間による実演）」に依存するのか、「強化学習（自律的な試行錯誤）」に依存するのかによって、企業が準備すべきデータ収集体制は大きく異なる。この比率が90:10なのか10:90なのかは、今後数年で明らかになるだろう。Levineは、企業に対して「自社の労働力の経済性を正確に把握すること」を勧める。コード生成ツールがソフトウェアエンジニアの生産性を向上させたように、ロボティクスも人間の仕事を完全に置き換えるのではなく、人間とロボットの協働による新たな生産性の向上をもたらすだろう。この「ダンス」を理解することが、企業の競争力を左右する。

55:43収束する技術：ハードウェアの低価格化とLLMの相乗効果

Levineは、ロボティクスが現在、複数の技術トレンドの収束点にあると指摘する。最も重要なのは、ロボットハードウェアの劇的な低価格化だ。彼が研究を始めた10年前、PR2というロボットの価格は約40万ドルだった。UC Berkeleyで研究室を始めた時は約3万ドル、現在Physical Intelligenceで使用しているアームはその10分の1以下だ。この低価格化は、単一の技術によるものではなく、ハードウェアとソフトウェアの両方の進歩の結果である。特に、従来の高精度な制御方法を必要としない学習ベースのアプローチが、低コストで不正確なハードウェアでも実用的な性能を発揮できるようにしたことが大きい。

LLMの進歩は、ロボティクスにとって直接的な補完技術である。LLMが提供する「常識」と「推論能力」は、ロボットが未知の状況に対応するための基盤となる。しかし、Levineは、LLMの内部表現（テキストからテキストへの変換）が、身体化されたシステムにとって最適な表現であるとは限らないと指摘する。ロボットは、空間的、意味論的、そして時には異なる種類の表現を必要とする。この「内部思考プロセス」の構造をどのように設計するかが、現在の重要な研究課題の一つだ。Levineは、この答えがLLMの世界とは異なる可能性があり、そこに大きな研究の余地があると語る。

59:51不確実性と楽観主義：研究者としての立ち位置

Levineは、ロボティクスのタイムラインについて「不確実性は大きいが、楽観的になっている」と語る。最大の不確実性は「活性化エネルギー」を超えるタイミングだ。ロボットが実世界で有用なタスクを実行し、自律的にデータを収集できるようになる臨界点をいつ超えるかが、技術の普及速度を決める。このタイムラインは、データ収集の方法（テレオペレーション主体か、自律的主体か、あるいはその中間か）によって大きく変わる。

研究者としての自身の立ち位置について、Levineは「確立されたロボティクス研究者の中では楽観的な方だが、ロボティクス起業家と比べると悲観的だ」と自己分析する。その理由は、ロボティクスが長い歴史の中で、AIの分野では数少ない成功例しか持たないからだ。現在、実際に役立っているロボットのほとんどは、1980年代の技術を依然として使用している。しかし、Levineが楽観的である理由は、過去に自身が直面した困難と、それを克服してきた経験に基づいている。彼は、現在見えている多くの「パズルのピース」が、残された課題を解決するために組み合わされるイメージを持っている。共同創業者のCarolが言うように、「山脈を登り切って初めて、次の山が見える」のだ。

01:04:24結びに

本エピソードは、ロボティクスという一見ニッチな分野の深い議論でありながら、技術の本質、研究の方法論、そして人間と機械の未来についての普遍的な洞察に満ちている。Sergey Levineの「汎用性への賭け」は、単なる技術戦略ではなく、複雑な問題に対する根本的な思考法の転換を促す。彼の語る「常識」「物理的アナロジー」「構成主義的学習」といった概念は、AIの限界と可能性を考える上で極めて示唆に富む。特に印象的なのは、彼が「研究における最も重要な決断は、いつ固執し、いつ方向転換するか」と語る場面だ。これは、投資やビジネス戦略にも通じる普遍的な教訓である。また、Googleでの「アームファーム」体験や、Jeff Deanが若手研究者のアイデアを即座に支援したエピソードは、偉大な組織がどのようにイノベーションを育むかを示す貴重な事例である。ロボティクスの未来は、技術的なブレークスルーと、人間の信頼と受容という社会的な要素が交差する地点にある。Levineの冷静な楽観主義は、その複雑な未来をナビゲートするための羅針盤となるだろう。