
なぜVideo Agentモデルが次なる一手なのか — Ethan He、xAI Grok Imagine
- xAIのGrok Imagineをわずか3ヶ月で立ち上げた中心人物、Ethan Heが、動画生成モデルの現在地と未来を語る。本エピソードの核心は、「動画モデルの知能の大部...
- [1:25] NVIDIA CosmosからxAIへ:世界モデルからGrok Imagineへの道のり Ethan Heのキャリアは、NVIDIAにおけるCosmos世界...
- xAIに参加した当時、Grok Imagineチームはインフラもデータもモデルもなく、わずか数名のエンジニアしかいない状態だった。しかし、NVIDIAでの1年にわたるCo...
自分では見つけにくい海外Podcastの話題に、日本語で気軽に触れたい人。
Latent Space: AIエンジニアポッドキャスト / Latent.Space
xAIのGrok Imagineをわずか3ヶ月で立ち上げた中心人物、Ethan Heが、動画生成モデルの現在地と未来を語る。本エピソードの核心は、「動画モデルの知能の大部分は、実は動画データそのものではなく、LLM(大規模言語モデル)から来ている」という逆説的な主張にある。Ethanは、NVIDIAのCosmos世界モデル開発からxAIへの移籍、そしてGrok Imagineのゼロからの構築、さらにxAI退社後のLLM研究へのシフトに至るまで、自身のキャリアを通じてこの洞察を深めてきた。彼の視点は、動画生成の次のフロンティアは「より優れた動画モデル」ではなく、「動画エージェント」であるという鮮烈な予測へとつながる。これは、AIコーディングの進化が、単発の出力性能から、計画、編集、テスト、デバッグ、PR提出までを行うマルチターン推論・計画モデルへと移行した道筋と完全にパラレルなものだ。動画モデルの性能が現実性、一貫性、プロンプト追従性で飛躍的に向上し、コスト効率も改善した今、次の進化は、クリエイティブタスク全体を計画し、生成し、編集し、批評し、反復するシステムにあるとEthanは主張する。本稿では、フロンティア動画システム構築の実態、データ、VAE、Diffusion Transformer、音声-動画アライメント、推論高速化、そして巨大な動画データセットの保存と移動に隠されたコストまで、Ethanの深い知見を詳細に掘り下げる。
NVIDIA CosmosからxAIへ:世界モデルからGrok Imagineへの道のり
Ethan Heのキャリアは、NVIDIAにおけるCosmos世界モデルの開発から始まる。Cosmosは、世界をシミュレートすることを目的とした巨大な動画基盤モデルであり、ロボット工学研究者がその上に構築するための基盤として設計された。このプロジェクトを通じてEthanは、動画モデルにも言語モデルと同様のスケーリング則が存在することを確信し、より大規模な計算資源を求めてxAIへと移籍する。移籍のタイミングは2025年半ば、ちょうどxAIが動画モデルとマルチモーダルモデルの構築を開始しようとしていた時期だった。
xAIに参加した当時、Grok Imagineチームはインフラもデータもモデルもなく、わずか数名のエンジニアしかいない状態だった。しかし、NVIDIAでの1年にわたるCosmos構築の経験があったEthanは、何をすべきか明確なビジョンを持っていた。彼が最も重要だと語るのは「才能」だ。チームメンバーは全員が非常に優秀で、共通の目標に向かって密に連携し、コミュニケーションのオーバーヘッドが極限まで削減されていた。1日1回の同期ミーティング以外は、ひたすら構築に集中する文化が、3ヶ月という驚異的なスピードでの初回リリースを可能にした。
xAIの強固なデータインフラとモデルインフラも、開発を加速する重要な要素だった。Ethanは、モデル開発において最も重要な指標の一つは「1日あたりのイテレーション数」だと強調する。イテレーションとは、新しいデータを取得し、新しいアルゴリズムを設計し、モデルを訓練し、評価するまでのサイクル全体を指す。このサイクルが速ければ速いほど、より多くのアイデアを試し、バグを発見し、モデル品質を向上させる機会が増える。そして、驚くべきことに、最大の改善は新しいアルゴリズムからではなく、データパイプラインやモデル訓練パイプラインの小さなバグを修正することからもたらされるという。
画像・動画モデルの訓練プロセス:VAE、Diffusion Transformer、そして合成キャプション
動画モデルを構築するには、まず画像モデルを構築する必要がある。そのプロセスは、インターネット上の動画とテキストのペアが本質的に存在しないという根本的な問題から始まる。YouTubeのタイトルや説明文は、動画の内容と無関係であることが多い。そこで、最初のステップは、VLM(視覚言語モデル)を用いて動画に合成キャプションを生成することだ。もしVLMが存在しない場合は、人間のラベラーに「目の不自由な人がこのテキストを聞いて動画を頭の中で再現できるほど詳細に」動画を説明させるという、Cosmosで採用されたプロトコルに従う。
次に、画像や動画の圧縮器、すなわちトークナイザーを訓練する。ピクセル単位でモデルを訓練することは、トークン数が爆発的に多くなるため事実上不可能だ。例えば、1000x1000ピクセルの画像は100万トークンにもなる。そこで、VAE(変分オートエンコーダ)を用いて、画像を連続的な潜在空間(latent space)にマッピングし、そこから再構築する。この圧縮により、画像は16x16のパッチ単位で固定長のベクトルに変換され、トークン数が劇的に削減される。この潜在空間こそが、Latent Spaceというポッドキャスト名の由来でもある。
VAEで圧縮された視覚トークンと言語トークンを入力として、Diffusion Transformer(DiT)が訓練される。このプロセスは言語モデルの訓練と非常に似ているが、ノイズ除去プロセスが加わる点が異なる。モデルは、視覚トークンにランダムノイズを加え、そのノイズを除去して元のクリーンなトークンを生成するように学習する。推論時には、完全なノイズから始めて、反復的にノイズを除去していく。画像モデルが動画モデルの基盤となる理由は、画像モデルの方が訓練コストが低く、言語と画像の間のより密接なマッピングを学習できるからだ。動画は画像よりもはるかに多くのトークンを含むため、同じ数のテキスト-動画ペアを訓練するのは非常に高価であり、モデルが人間の意図を十分に理解できない可能性がある。
動画圧縮、VAE、そしてリアルタイム性のトレードオフ
動画圧縮には、フレームごとに圧縮する方法と、時間軸方向に圧縮する方法がある。時間軸圧縮は、連続するフレーム間の冗長性(例えば、前のフレームと次のフレームはほぼ同じであること)を利用するため、より高い圧縮率を達成できる。例えば、あるVAEでは8x8x4の圧縮率を持ち、4つの時間トークンが1つに圧縮される。これにより、コンテキスト長を大幅に節約できる。一方、フレームごとの圧縮(8x8x1)では、コンテキスト長が4倍になる。
しかし、時間軸圧縮にはリアルタイム性とインタラクティブ性というトレードオフが存在する。フレームごとに出力を生成するモデルは、ユーザーの要求に即座に応答できる。しかし、時間軸で4倍に圧縮されたモデルは、その分遅延が生じる。このトレードオフは、後述する「世界モデル」の定義において極めて重要な意味を持つ。Ethanは、このリアルタイム生成UIの未来像として、話題の「Flipbook」と「Neural OS」を紹介する。
Flipbookは、生成画像モデルによってすべてのUIがリアルタイムで生成されるウェブブラウザのようなものだ。ユーザーがリンクをクリックすると、モデルは新しいページを即座に生成する。すべてのコンテンツは偽物であり、実在しない。Ethanは、推論コストが低下するにつれて、あらゆるインターフェースが生成UIに置き換わると予測する。コーディングモデルがコードを書き、それをレンダリングする代わりに、ユーザーの意図から直接ピクセルを生成するエンドツーエンドのアプローチだ。例えば、メールアプリをTikTokのようにスワイプできるインターフェースにしたり、Instagramの「いいね」ボタンを消したカスタムUIを生成したりすることが可能になる。未来のフロントエンドは拡散モデルになり、バックエンドは決定論的なLLMとコードが担うというビジョンだ。
大規模動画モデル訓練の隠れたコスト:ストレージ、エグレス、GPU時間
大規模動画モデルの訓練コストは、一般的に考えられているよりもはるかに高くつく。Ethanは、封筒の裏での計算として、その内訳を明かす。まず、データストレージだけでも莫大なコストがかかる。例えば、10億本の動画を各5メガバイトと仮定すると、5ペタバイトのストレージが必要になる。さらに、VAEで圧縮された連続特徴量も同程度のストレージを消費する。AWS S3 Standardで5ペタバイトを保存するだけで、月額10万ドル(約1,500万円)かかる。そして、さらに高額なのがデータの転送コスト(エグレス)だ。訓練のたびにデータをストレージからGPUクラスタに転送する必要があり、そのコストはストレージコストを上回る可能性がある。これらを合計すると、ストレージとネットワークだけで月額数百万ドル(数億円)に達する。
GPUコストももちろん無視できない。オープンソースの動画モデルを見ると、LTXのようなモデルは190億パラメータの高密度モデルであり、MOE(混合専門家モデル)を採用するものもある。これは中規模のLLMと同程度のサイズだ。Cosmosでは、視覚トークンだけで数十兆トークンを使用している。これらを総合すると、動画モデルの訓練コストはLLMと同等か、それ以上になる可能性がある。さらに、動画モデルのインフラはLLMとは異なり、効率が悪い場合が多い。
推論コストの削減には、「ステップ蒸留(step distillation)」が重要な役割を果たす。これは、通常100ステップ以上必要とされる拡散モデルの生成プロセスを、教師モデルから生徒モデルへと知識を蒸留することで、わずか数ステップに圧縮する技術だ。この手法が機能する理由は、教師モデルが学習するインターネット上の画像・動画の分布は非常に複雑だが、生徒モデルが学習するのは教師モデルという固定されたモデルの分布であり、はるかに単純だからだ。Cosmosでは4ステップや8ステップでの生成が可能であり、より単純なタスクでは1ステップでの生成も実現している。GAN(敵対的生成ネットワーク)も、1ステップ生成の先駆けとして再評価されており、分布マッチング蒸留(DMD)などの手法と組み合わせて使われる。
音声-動画生成とGrok Imagine 0.9:モダリティアライメントの課題
Grok Imagine 0.9は、大規模に展開された初の音声-動画同時生成モデルである。このモデルの最大の課題は、テキスト、動画、音声という3つのモダリティを同時に整合させる「モダリティアライメント」にある。テキストと動画のアライメントは既存のVLMである程度可能だが、音声を理解できるVLMはほとんど存在しない。さらに、音声には言語(会話)という離散的な成分と、音楽という連続的な成分の2つが含まれる。音楽は離散トークンとしてモデル化することが難しく、LLMはビートやトーン、音楽の細部を認識するのが非常に苦手だ。
音声-動画アライメントの難しさは、時間的な精度にある。テキストと画像、テキストと動画のアライメントは緩やかで、「動画の中で何が起こっているか」を大まかに記述すればよかった。しかし、音声と動画は、どのタイムステップでどの音声トークンと動画トークンが対応するかという、厳密な時間的アライメントが必要となる。モデルは時間を認識する(time-aware)ように設計されなければならない。これは、LLMが本質的に時間感覚を持たないこととは対照的だ。LLMに「このタスクは12時間かかる」と見積もらせても、1時間後に「もう2日も費やした」と報告することがあるのは、この時間感覚の欠如を示している。
世界モデルの定義:リアルタイム、インタラクティブ、ロングホライズン
Ethanは、自身の定義する「世界モデル」を「リアルタイムでインタラクティブな、長期的な動画」と明確に定義する。この定義は3つの要素からなる。第一に「インタラクティブ性」、ユーザーはキーボード、マウス、音声などを通じてモデルと対話でき、モデルは合理的に応答する必要がある。第二に「リアルタイム性」、例えばゲームであれば、プロのeスポーツプレイヤーが求めるサブ10ミリ秒の応答速度は難しいが、デジタルヒューマンであれば200ミリ秒程度が許容範囲となる。しかし、このリアルタイム性を達成するには、VAEの時間圧縮による遅延の問題を解決しなければならない。第三に「ロングホライズン」、数秒ではなく、数分、数時間にわたる長尺コンテンツを生成できる必要がある。
この最終状態への第一歩として、Grok Imagineでは「動画拡張(video extension)」機能が開発された。これは、生成済みの動画の履歴コンテキストを保持したまま、次の動画を生成する機能だ。単純に最後のフレームだけを次の動画の最初のフレームとして使うハックでは、数回の拡張で品質が劣化する。Grok Imagineの動画拡張は、過去の全生成動画のコンテキスト(誰が話しているか、どのオブジェクトが登場したかなど)を保持する。しかし、コンテキスト長は爆発的に増加する。Cosmosでは5秒の動画で5万〜6万トークンになるため、50秒では50万トークン、それ以上では簡単に数百万トークンに達する。
この長大なコンテキスト問題に対する中間的な解決策として、「参照動画(reference-to-video)」機能も開発された。これは、最大7枚の画像を条件としてアップロードし、そのキャラクターやオブジェクト、シーンを動画にコピーするものだ。これは、モデルが過去のコンテキストから必要な情報だけを選択的に参照するための「ズル」とも言える中間的な解決策だが、長期的にはモデル自身がどの履歴を参照すべきかを自律的に判断できるようになるべきだとEthanは語る。この「自己管理型コンテキスト」の考え方は、LLMの分野でも同様に重要になると彼は予測する。
動画エージェントと言語モデル:知能の源泉はLLMにある
Ethanの最も核となる主張は、「視覚的知能の大部分は実際には言語から来ている」という点だ。現在の動画モデルは、Diffusion Transformerとプロンプトリライター(prompt rewriter)という2つの部分から構成される。プロンプトリライターは、ユーザーの簡潔な指示を、動画モデルが理解できる極めて詳細な説明に変換する役割を担う。Cosmosでは、動画モデル自体が70億パラメータであるのに対し、プロンプトリライターはそれよりも大きなLLM(LlamaやMixtral)だった。動画拡散モデルは本質的に「愚か」であり、与えられた指示を文字通りに解釈する。ユーザーが「猫」とだけ入力すると、背景や動作が指定されていないため、白い背景で静止した猫を生成する。プロンプトリライターは、この簡潔な指示を「美しい草原で、楽しそうに走り回る子猫」のような詳細な記述に拡張する。この「思考プロセス」こそが、動画生成の品質向上に大きく貢献している。
この洞察から、Ethanは「動画エージェント」の時代が来ると予測する。これは、LLMが拡散モデルをツールとして呼び出し、反復的に結果を洗練させるアーキテクチャだ。人間がアートを創作する際に、いきなりピクセルを生成するのではなく、描いては修正を繰り返すのと同様に、動画エージェントは拡散モデルだけでなく、PhotoshopやFFmpegなどの従来のツールも組み合わせて、プロダクション品質の動画を生成する。Grok Imagine Agent Betaは、この方向への最初の試みであり、ユーザーが「1分間の動画を生成して」と依頼すると、エージェントが複数のツールを呼び出してタスクを達成する。
この動画エージェントの進化は、AIコーディングの進化と完全にパラレルだ。GitHub Copilotのようなタブ補完から始まり、DevinやCursorのような自律的にコードを生成・編集・テストするエージェントへと進化した。動画生成も同様に、単発の生成から、計画、編集、批評、反復を行うエージェントへと移行する。Ethanは、この分野の転換点は、動画エージェントが生成する動画がプロダクション品質に達し、広告などで配布できるようになった時だと予測する。その時点で、エンタープライズは動画エージェントに大きな予算を投じるようになり、市場は指数関数的に成長するだろう。
xAIを去る決断とLLM研究へのシフト:自己管理型コンテキストの未来
EthanがxAIを去った理由は、会社の優先順位が急速に変化する中で、自身が行いたい研究、特にLLM側の研究を進めることが難しくなったからだ。彼は、動画モデルの改善の大部分がもはや拡散技術ではなく言語モデルからもたらされるという確信を強めており、よりインパクトのある研究を行うためにLLM分野に軸足を移すことを決断した。これは、キャリアを生成メディアに費やしてきた者にとっては「ブラックピル(絶望的な真実)」とも言える見解だが、Ethanは自身のキャリアを通じて、コンピュータビジョンから自己教師あり学習、大規模モデルのスケーリング、そしてLLMへと、ML内での領域横断は想像以上に容易であると語る。
LLM分野における次の1年の予測として、Ethanは「言語モデルが自身のコンテキストを認識し、管理するようになる」と語る。これは、動画モデルが長大なコンテキスト問題に苦しんできた経験から得た洞察だ。現在のLLMは、自身のコンテキスト長がどの程度残っているかを認識していない。OpenAIのCodex CLIでは、ユーザーのメッセージに自動的に現在時刻が付与され、モデルが時間を認識できるようになっている。また、ツール呼び出しの中間結果は自動的に刈り込まれる。これらのヒューリスティックなエンジニアリングは、いずれモデル自身に吸収されるだろう。Ethanは、モデルがエージェントハーネスのコード全体にアクセスし、実行時に自身を修正できるようになる未来を想像する。例えば、長いドキュメントを読む際に、チャンク単位で読んで要約をまとめるか、最初の200行だけを読んで残りを破棄するか、といった判断をモデル自身が行えるようになる。これは、モデルがテスト時に自己プログラムする(self-programming)という、非常に興味深い研究方向だ。
結びに
本エピソードは、単なる動画生成モデルの技術解説に留まらず、AI研究の最前線で何が起きているかを生々しく伝える貴重な記録である。Ethan Heの「動画モデルの知能はLLMから来る」という主張は、一見すると逆説的だが、彼のNVIDIA、xAIでの実践経験に裏打ちされた重みを持つ。この視点は、AIコミュニティにおける「次のフロンティアは何か」という議論に、明確な方向性を与えるものだ。それは、より大きなモデルを訓練することではなく、既存のモデルをいかにインテリジェントにオーケストレーションするか、というエージェント的なアプローチである。リスナーは、動画生成の未来が、拡散モデルそのものの改良よりも、言語モデルとエージェントシステムの進化に大きく依存しているという、新鮮で挑戦的な視点を得ることができる。また、xAIの「ムーブファースト、ビルド」の文化、小さなバグ修正がもたらす劇的な改善、そして巨大なデータセットを扱う際の隠れたコストなど、実務者ならではの生々しい洞察が満載であり、AIエンジニアにとっては極めて実践的な学びに満ちたエピソードである。
要点
- Ethan Heは、動画モデルの知能の大部分は動画データではなく、プロンプトリライターなどのLLMから来ていると主張する。この洞察から、彼は動画生成の次のフロンティアは「動画エージェント」であると予測する。
- xAIのGrok Imagineは、わずか3ヶ月でゼロから構築された。その成功の鍵は、優秀な人材、最小限の会議、そして1日あたりのイテレーション数を最大化する文化にあった。
- モデル品質の最大の改善は、新しいアルゴリズムではなく、データパイプラインや訓練パイプラインの小さなバグを修正することからもたらされる。この発見は、徹底的なデバッグの重要性を浮き彫りにする。
- 大規模動画モデルの訓練には、GPUコストだけでなく、ペタバイト級のストレージコストとデータ転送(エグレス)コストが隠れている。これらを合計すると、月額数百万ドルに達する可能性がある。
- 動画モデルの推論高速化には「ステップ蒸留」が有効であり、Cosmosでは4〜8ステップでの生成を実現している。GANも1ステップ生成の先駆けとして再評価されている。
- Grok Imagine 0.9は、音声-動画同時生成モデルであり、テキスト、動画、音声の3モダリティを時間軸で厳密に整合させる「モダリティアライメント」が最大の課題である。
- Ethanは世界モデルを「リアルタイムでインタラクティブな、長期的な動画」と定義する。この目標への第一歩として、過去の全コンテキストを保持した「動画拡張」機能が開発された。
- EthanはxAIを去り、LLM研究に軸足を移す。彼は、LLMが自身のコンテキストを認識し、実行時に自己修正する「自己管理型コンテキスト」の時代が来ると予測する。