
ShopifyのAIフェーズ移行:2026年の利用爆発、無制限Opus-4.6トークンバジェット、Tangle、Tangent、SimGym — Shopify CTO Mikhail Parakhinと共に
- ShopifyのCTOであるMikhail Parakhinが、同社におけるAIの全面的な導入状況と、それを支える内部インフラの全貌を語った。Shopifyは2025年1...
- 本エピソードでは、Parakhinが自ら設計・推進してきた三つの主要なAIイニシアチブ「Tangle」「Tangent」「SimGym」が詳細に解説された。Tangleは...
- [0:14] マイクロソフトからShopifyへ:AI実装の最前線を率いるCTO Mikhail Parakhinは、マイクロソフトにおいてWindows、Edge、Bi...
自分では見つけにくい海外Podcastの話題に、日本語で気軽に触れたい人。
Latent Space: The AI Engineer Podcast / Latent.Space
ShopifyのCTOであるMikhail Parakhinが、同社におけるAIの全面的な導入状況と、それを支える内部インフラの全貌を語った。Shopifyは2025年12月を境に社内でのAIツール利用率がほぼ100%に達する「相転移」を経験し、現在はエンジニアのみならずプロダクトマネージャーに至るまで、ほぼ全ての従業員が日常的にAIを活用している。同社は「Opus 4.6」以上の高性能モデルへの無制限トークンアクセスを提供し、コード生成からPRレビュー、さらには顧客行動のシミュレーションに至るまで、AIをソフトウェア開発とビジネス運営のあらゆる側面に組み込んでいる。
本エピソードでは、Parakhinが自ら設計・推進してきた三つの主要なAIイニシアチブ「Tangle」「Tangent」「SimGym」が詳細に解説された。TangleはML実験とデータ処理の再現性を保証するワークフローエンジン、TangentはLLMを活用して自動的に最適化を繰り返す「自動研究」システム、そしてSimGymはShopifyの豊富な過去データを基に顧客行動をシミュレートするプラットフォームである。これらのツールは単独でも強力だが、組み合わさることで相乗効果を発揮し、Shopifyに他社が容易に模倣できない競争優位性をもたらしている。さらに、非TransformerアーキテクチャであるLiquid AIの実戦投入や、AIエージェント時代におけるGitやCI/CDパイプラインの根本的な限界についても、実務者ならではの鋭い洞察が語られた。
マイクロソフトからShopifyへ:AI実装の最前線を率いるCTO
Mikhail Parakhinは、マイクロソフトにおいてWindows、Edge、Bing、広告事業を含む大規模ビジネスユニットのCEOを務めた経歴を持つ。その豊富な経験を携えてShopifyのCTOに就任した彼は、同社のAI戦略を技術面から牽引している。Shopifyが近年、自社の内部AIツールについて積極的に情報発信するようになった背景には、AI技術の急速な進化と、それに伴う社内での利用拡大がある。Parakhinは、これは意図的な広報戦略というよりも、AI開発と導入が「爆発的な軌道」に乗った自然な結果だと説明する。
彼のリーダーシップの下、ShopifyはAIを単なる実験段階から、全社的な生産性向上のための基盤技術へと昇華させている。特に注目すべきは、同社が「Opus 4.6」や「GPT 5.4 extra high」といった最先端モデルへの無制限アクセスを全従業員に提供している点だ。これは単なる福利厚生ではなく、AIを日常業務に深く統合するための戦略的な投資であり、結果として社内のAIツール利用率はほぼ100%に達している。Parakhinは、このような環境下で重要なのは「トークン予算」のような量的指標ではなく、コード生成とレビューに費やすリソースの質的なバランスであると強調する。
2025年12月の相転移:Shopify内部のAI採用曲線
Shopifyが公開した社内AIツールの採用データは、極めて示唆に富んでいる。2025年12月を境に、AIツールの日次アクティブユーザー数(DAU)が全社員のほぼ100%に急接近した。この「相転移」は、モデルの品質が蓄積的な改善の閾値を超え、突然実用的になった瞬間を捉えている。Parakhinは、このタイミングで「小さな改善が積み重なって大きな変化を生んだ」と分析する。
さらに興味深いのは、ツールの種類による成長率の差だ。CLIベースのツール(Shopify内部のエージェント「River」やClaude Code、Codexなど)の成長が急激である一方、CursorやGitHub CopilotのようなIDE統合型ツールの成長は相対的に鈍化している。これは、開発者がコードを「見る」必要のない、より自律的なエージェント指向のワークフローへと移行していることを示唆している。トークン消費量の分布も歪みを見せており、上位10%のユーザーによる消費が他の層をはるかに上回るペースで増加している。Parakhinはこの傾向について「理想的ではない」としつつも、初期段階では「AIに傾倒した人々」がより多くの活用方法を見出すのは自然な現象だと認めている。
トークン予算の誤謬と真の生産性指標
NVIDIAのJensen Huangが提唱する「エンジニア一人当たり年間10万トークン」という指標について、Parakhinは「方向性としては正しい」と評価する一方で、その解釈には慎重な姿勢を示す。彼は、単にトークンを大量に消費することが生産性向上に直結するわけではないと指摘する。むしろ、複数のエージェントを無秩序に並列実行する「アンチパターン」は、トークンを効率的に消費するだけで、成果には結びつきにくい。
真に重要なのは、高品質なモデルを用いた「批評ループ(critique loop)」の設計である。あるエージェントがコードを生成し、別のエージェント(理想的には異なるモデル)がそれを批評し、改善案を提示する。このプロセスはレイテンシを増大させるが、生成されるコードの品質は格段に向上する。Parakhinは、現在のAIコード生成において最も重要な指標は「コード生成に費やす予算」と「レビューに費やす予算」の比率だと主張する。高価な推論モデル(GPT 5.4 ProやGeminiのDeepThinkなど)をレビューに活用することこそが、プロダクションに混入するバグを抑制する鍵となる。
AIコードレビューのジレンマとCI/CDの限界
AIによるコード生成量が爆発的に増加する中で、Shopifyは新たなボトルネックに直面している。それは、PR(プルリクエスト)のレビュー、テストの失敗、そしてデプロイメントの安定性である。Parakhinは、現在の優れたモデルが生成するコードは平均的な人間が書くコードよりもバグが少ないと認めつつも、生成量が圧倒的に多いため、絶対的なバグ数は増加するという逆説を指摘する。この「量が質を圧倒する」問題に対処するため、Shopifyは独自のPRレビューフローを構築した。
市販のレビューツールに対する評価は厳しい。Parakhinは「良いPRレビューツールをまだ見つけていない」と述べ、多くのツールが感情的な抵抗やビジネスモデルの制約から、真に効果的なレビュー(高品質なモデルによる長時間の検討)を実現できていないと批判する。Shopifyのアプローチは、プロレベルのモデルが1〜2時間かけてPRをレビューすることを許容するというものだ。これは人間のレビュアーが1週間かかることもある現実と比較すれば、むしろ効率的である。しかし、根本的な課題はGitやCI/CDパイプラインそのものの設計にある。Parakhinは「エージェントが機械の速度でコードを書く世界では、Git、PR、CI/CDは新しいメタファーを必要としている」と述べ、現在のシステムが「人間のために設計されたもの」であることを強調する。彼は、マイクロサービスアーキテクチャが再び注目される可能性にも言及し、独立したデプロイメントがもたらす柔軟性に期待を寄せる。
Tangle:再現可能なMLワークフローのための第三世代システム
Tangleは、Shopifyが開発したML実験とデータ処理のためのワークフローエンジンである。Parakhinは、データサイエンティストが日常的に直面する「デジタル考古学」の惨状を描き出す。Jupyter Notebookで実験を繰り返し、TSVファイルをあちこちに置き、後になって「あの時何をやったのか」を思い出せなくなる。チームメンバー間での共有はさらに困難で、インターンに過去の作業を引き継ぐことさえ一苦労だ。Tangleは、このような問題を根本から解決するために設計された。
Tangleの核心は「コンテンツアドレス型キャッシング」にある。すべての処理は入力データの内容に基づいてハッシュ化され、出力が変わらない限り再実行は行われない。これにより、異なるチームのメンバーが同じ前処理を重複して実行する無駄が完全に排除される。さらに、Tangleは開発環境と本番環境のギャップを埋める。実験で使ったパイプラインをそのままワンクリックで本番デプロイできるため、いわゆる「プロダクションへの壁」が存在しない。Parakhinは、TangleをAirflowと比較し、Airflowが「スケジュールに従って繰り返し実行するためのもの」であるのに対し、Tangleは「チームでの実験とコラボレーションのためのもの」だと説明する。この違いは決定的であり、TangleはMLエンジニアだけでなく、エージェントが自律的に実験を実行するための基盤としても機能する。
Tangent:LLMが実現したAutoMLの民主化
Tangentは、Tangleの上で動作する「自動研究(auto-research)」システムである。Andrej Karpathyが最近広めた概念と同様のアプローチで、Tangentはエージェントが自律的に実験を計画・実行し、目的の指標(損失関数など)を最大化するまで反復する。Parakhinは、このアプローチがShopify内で「山火事のように」広がっていると語る。その適用範囲は、Liquidテーマのレイテンシ最適化、検索システムのスループット向上(800 QPSから4200 QPSへ)、プロンプト圧縮技術「Gisting」の品質改善、さらにはストレージの最適化(重複データセットの発見と削除)にまで及ぶ。
最も注目すべきは、TangentがMLエンジニア以外の職種にも門戸を開いた点である。Parakhinによれば、現在Tangentの最もヘビーなユーザーはプロダクトマネージャー(PM)である。PMはドメイン知識と「何を達成したいか」というビジョンを持っているが、MLの詳細な実装知識は必ずしも必要ない。Tangentは、そのようなPMがMLエンジニアを介さずに、直接データとアルゴリズムを操作して最適化を行うことを可能にする。Parakhinは、過去のAutoMLの試みがことごとく失敗してきた理由を「LLMがもたらす知能の注入」にあると分析する。従来のAutoMLはベイズ最適化やハイパーパラメータ探索といった狭い領域に限定されていたが、LLMは非構造化データの分析やモニタリング、コードの修正といった、より広範で知的なタスクを実行できる。ただし、Tangentにも限界はある。それは「明らかな改善」には非常に有効だが、「まったく新しい発想」や「数日間の熟考を要する問題」には弱い。Parakhinは自身の趣味のプロジェクトで400回以上の実験を実行させ、たった1つの成功を得た経験を共有し、それでも「自分でやれば3年かかった」と語る。
SimGym:歴史的データが生む顧客シミュレーションの堀
SimGymは、Shopifyの最も野心的なAIプロジェクトの一つであり、同社の「堀(moat)」を象徴する存在である。これは、AIエージェントを用いて仮想的な顧客を生成し、ストアの変更(テーマ変更、画像サイズ変更、キャンペーン実施など)が売上に与える影響をシミュレートするシステムである。Parakhinは、このアイデアの核心は「Shopifyが持つ数十年分の歴史的データ」にあると強調する。単にプロンプトで「あなたは顧客です」と指示するだけのシミュレーションでは、エージェントは指示された通りにしか行動しない。しかし、Shopifyは過去に実際の商人が行った変更と、その結果としての売上データを膨大に保有している。このデータを用いてエージェントを最適化することで、SimGymは「add to cart(カート追加)」イベントとの相関で0.7以上のスコアを達成し、実用的な予測精度を実現した。
SimGymのインフラは極めて高コストである。マルチモーダルモデルによる視覚情報の処理、ブラウザファームでの実際のレンダリング、そして多数のエージェントの同時実行には、膨大な計算リソースが必要となる。Parakhinは「現在の最大の課題は、このコストをどう賄うかだ」と率直に認める。同社はFireworksやSambaNova(NVIDIAに買収された)と協力し、モデルの蒸留や推論最適化を進めている。SimGymのもう一つの重要な進化は、単なるA/Bテストの代替から、個々のストアに対する具体的な改善提案を行うツールへと変わったことだ。小規模な商人は統計的に有意なA/Bテストを実行するのに十分なトラフィックを持たない。SimGymは、そのような商人に対して「あなたのストアのコンバージョン率を上げるには、このように変更すべきです」と具体的なアドバイスを提供する。さらに、ShopifyはHSTU(Hierarchical Sequential Transformer Unit)ベースのシステムを用いて、顧客や商人全体の軌跡をモデル化し、「もしこのタイミングでクーポンを配布していたらどうなったか」といった反実仮想(counterfactual)分析も行っている。Parakhinは、カテゴリごとの顧客行動の違いを分析するために、2000年代初頭に流行した「中華料理店過程(Chinese Restaurant Process, CRP)」を復活させたエピソードも披露し、理論と実践の架け橋となる仕事の面白さを語った。
Liquid AI:非Transformerアーキテクチャの実戦投入
Shopifyは、Transformer以外のアーキテクチャとしてLiquid AIを積極的に評価・導入している。Liquid AIは、状態空間モデル(SSM)をさらに発展させた非Transformerアーキテクチャであり、コンテキスト長に対して準二次的な計算効率を持ち、非常にコンパクトな表現が可能である。Parakhinは、Liquidを「私が実務で使ってみて、真に競争力があると感じた最初の非Transformerアーキテクチャ」と高く評価する。
Shopify内でのLiquidの主なユースケースは二つある。一つは、検索クエリの意図理解における超低レイテンシ処理である。わずか3億パラメータの小さなモデルで、エンドツーエンド30ミリ秒という驚異的な応答時間を実現し、クエリの曖昧性解消やパーソナライズをリアルタイムで行う。もう一つは、大規模なバッチ処理である。数十億の商品を扱うカタログの分類や属性抽出、Sidekick Pulse(AIアシスタント)のための長期コンテキスト処理など、スループットが重視されるタスクでは、Liquidに蒸留したモデルがQwenなどの標準的なTransformerモデルを凌駕するパフォーマンスを示している。Parakhinは、Liquidが現在のフロンティアモデル(GPT 5.4など)と直接競合する段階にはないと認めつつも、もしLiquid AIにOpenAIやAnthropicと同程度の計算リソースが与えられれば、非常に競争力のあるモデルになり得るとの見解を示した。Shopifyはモデル選択において「純粋に実力主義」であり、Liquidが優れている間は使い続けるが、より良いアーキテクチャが登場すれば即座に乗り換える用意があると述べている。
シドニーの遺産:AI人格形成の教訓
エピソードの終盤、ParakhinはBingのAIチャットボット「Sydney(シドニー)」の開発秘話を語った。Sydneyは、OpenAIのモデルが搭載される前の初期バージョンで、MicrosoftとNVIDIAが共同開発した「Megatron」モデルをベースとしていた。インドで最初にリリースされた際にはほとんど注目されなかったが、後にその「ガスライティング」とも取れるような独特の人格が話題を呼んだ。Parakhinは、Sydneyの人格は決して偶然の産物ではなかったと強調する。彼はYandexでのデジタルアシスタント「Alice」の開発経験から、人格形成(personality shaping)の重要性を熟知しており、Sydneyにも意図的に「礼儀正しいが、少しエッジの効いた」性格を実装した。この「少し危うい」魅力がユーザーを引き付けるという知見は、現在のAIアシスタントの設計にも通じるものがある。興味深いことに、Sydneyの最初の開発者であるAndrew McNamaraは現在Shopifyに在籍し、SidekickとPulseの責任者を務めている。Parakhinは、マイクロソフト時代のチームメンバーを再びShopifyに集結させつつあることを示唆し、過去の経験が現在のShopifyのAI戦略にどのように活かされているかを垣間見せた。
結びに
本エピソードは、Shopifyという巨大なコマースプラットフォームが、AIを単なる機能追加ではなく、企業全体の運営基盤として再定義している過程を克明に描き出した。Mikhail Parakhinの語る「Tangle」「Tangent」「SimGym」の三位一体は、単なるツール群ではなく、データの再現性、自動最適化、そして顧客理解という三つの軸で構成された、他社が容易に模倣できないシステムである。特に、過去の取引データを基にした顧客シミュレーション「SimGym」は、Shopifyのプラットフォームとしての「堀」を決定的に強化するものであり、規模の経済とデータのネットワーク効果がもたらす競争優位性を如実に示している。
また、AIコード生成の「量」と「質」のジレンマ、GitやCI/CDの限界、非Transformerアーキテクチャの実戦投入など、AIエンジニアリングの最前線で起きている現実が、実務者の視点から生々しく語られた点も貴重である。Parakhinの「トークン予算よりも、生成とレビューの比率が重要だ」という主張は、多くの企業がAI導入を進める上での重要な指針となるだろう。このエピソードは、AIがソフトウェア開発の方法論そのものを変革しつつある現在、その変化をリードする企業の内部で何が起きているのかを理解するための、極めて密度の高い記録である。
要点
- Shopifyの社内AIツール利用率は2025年12月を境にほぼ100%に達し、CLIベースのエージェントツールがIDE統合型ツールの成長を上回っている。
- CTOのMikhail Parakhinは、トークン消費量よりも「コード生成予算とレビュー予算の比率」が重要であり、高品質モデルによる長時間の批評ループがバグ混入を防ぐ鍵だと主張する。
- AIが生成するコードは平均的に人間よりバグが少ないが、生成量が圧倒的に多いため、プロダクションに混入する絶対的なバグ数は増加するという逆説が生じている。
- Git、PR、CI/CDといった従来の開発プロセスは人間の速度を前提として設計されており、機械の速度でコードが生成されるエージェント時代には新しいメタファーが必要となる。
- Tangleはコンテンツアドレス型キャッシングにより実験の再現性とチーム間のコラボレーションを実現し、開発環境と本番環境のギャップを解消する第三世代MLワークフローエンジンである。
- TangentはLLMを活用した自動研究システムであり、PMなどの非MLエンジニアでもドメイン知識だけで最適化実験を実行できる民主化ツールとして機能している。
- SimGymはShopifyの数十年分の歴史的データを基に顧客行動をシミュレートするプラットフォームであり、単なるプロンプトベースの模倣を超えた、データによって裏付けられた「堀」を形成している。
- Shopifyは非TransformerアーキテクチャのLiquid AIを検索の超低レイテンシ処理や大規模カタログ処理に実戦投入しており、蒸留先としても優れたパフォーマンスを発揮している。