motpod
Latent Space: AIエンジニアポッドキャスト · 2026年5月21日

Railway: エージェントネイティブクラウド — Jake Cooper

AI generated article / ja / study
この記事でわかること
  • Railwayは、コードをプッシュすれば即座に本番環境のURLが得られる、という「アクティベーション・エネルギー(活性化障壁)を限りなくゼロにする」というシンプルな理念か...
  • 本エピソードでは、Cooperが「エージェント・ネイティブなクラウド」というビジョンのもと、従来のGitやPR、CI/CDに依存したソフトウェア開発ライフサイクル(SDL...
  • [0:04] Railwayの軌跡:6年間のスロースタートから急成長へ Jake Cooperは、Wolfram Researchでのフロントエンド開発、Bloomber...
こんな人向け

自分では見つけにくい海外Podcastの話題に、日本語で気軽に触れたい人。

出典Podcast

Latent Space: AIエンジニアポッドキャスト / Latent.Space

Read
Open episodeFind more episodes

Railwayは、コードをプッシュすれば即座に本番環境のURLが得られる、という「アクティベーション・エネルギー(活性化障壁)を限りなくゼロにする」というシンプルな理念から出発した。創業者のJake Cooperは、BloombergやUberでの分散システム経験を経て、DockerやKubernetes、Ansibleといった複雑なツール群を積み重ねる従来のデプロイ手法に疑問を抱き、2020年にRailwayを立ち上げた。当初は18ヶ月かけて最初の100ユーザーを手作業で獲得するという地道なスタートだったが、現在では35名のチームで300万人以上のユーザーを支え、週に約10万人の新規サインアップを獲得するまでに成長している。同社は総額1億2,400万ドルを調達し、独自のベアメタルデータセンターを構築することで、クラウドレンタルと比較して3ヶ月で投資回収が可能な経済性を実現。70%の粗利率を誇る自社メタルを基盤としつつ、需要に応じてクラウドバーストも活用するハイブリッド戦略をとっている。

本エピソードでは、Cooperが「エージェント・ネイティブなクラウド」というビジョンのもと、従来のGitやPR、CI/CDに依存したソフトウェア開発ライフサイクル(SDLC)が根本的に書き換えられようとしていると主張する。エージェントが人間と異なる点は、バージョン管理、オブザーバビリティ、コンピュート、ストレージ、オーケストレーションを1000倍のスケールで必要とすることだ。Railwayは、独自のネットワークオーバーレイ、コンテンツアドレス可能ファイルシステム、ワークフローエンジン(Temporalの活用とその課題)、そしてCentral Stationと呼ばれる社内インシデント管理システムなど、フルスタックでインフラを再構築している。Cooperは「プルリクエストは死につつある」と断言し、エージェント時代にはフィーチャーフラグやプログレッシブロールアウト、プロダクションフォークが不可欠になると語る。ソロファウンダーとしての経営哲学、データセンター債務の活用、そして「ペットではなく家畜」という従来の運用思想が、スナップショット技術によって「ペットのクローン」が可能になることで覆される可能性についても深く議論されている。

0:04Railwayの軌跡:6年間のスロースタートから急成長へ

Jake Cooperは、Wolfram Researchでのフロントエンド開発、Bloomberg、そしてUberでの分散システム(特にCadence/Temporalを用いたジャンプバイクのシステム移行)を経て、2020年にRailwayを創業した。彼の原動力は「経験への好奇心」であり、自転車を鍵一つで摩擦なく使える体験を実現するために、どれだけ深く潜っても構わないという姿勢が一貫している。Railwayの初期はまさに「地獄の果てまで」最初の100ユーザーを獲得する戦いだった。Discordのサポートチャンネルを唯一の窓口とし、2台目のモニターで常に新規参加者を監視し、一人ひとりに「やあ、調子はどう?」と声をかける日々が18ヶ月続いた。

2022年から2023年にかけて、無料ティアを導入したことで利用者が急増した。しかし、その内訳はRedditボットやDiscordボット、さらには暗号通貨マイナーなど、多様なユーザーが混在する「インターネットの闇」の側面も含まれていた。この時期、Railwayは月間50万ドルの損失を計上し、銀行口座には2,000万ドルがあるものの月間収益は5万ドルという「ひどいビジネス」状態に陥った。Cooperは「無料ユーザーをしばらく閉め出し、ビジネスを再構築する」という決断を下す。これは、製品の体験を愛するユーザーを維持しつつ、ビジネスとして持続可能な形に変えるための「拡大と圧縮」のサイクルの一環だった。

現在、Railwayは35人のチームで300万人以上のユーザーを支え、週に10万人の新規サインアップを追加している。Cooperはこの成長曲線について、VCが好むような一直線の右上がりではなく、実際には「機能を追加して拡大する期間」と「体験を磨き上げ、不要な機能を削ぎ落とす圧縮の期間」が交互に訪れると説明する。夏や冬の休暇シーズンにはサインアップが落ち込むなど、B2CとB2Bの両方の性質を持つユーザーベースの季節変動も見られる。重要なのは「決して諦めないこと」であり、この6年間のスロースタートが現在の急成長の基盤となっている。

13:29インフラ哲学:ベアメタル、クラウドバースト、そしてデータセンター債務

Railwayのインフラ哲学の核心は「プリミティブ(基本要素)が重要」という信念にある。ネットワーク、コンピュート、ストレージ、そしてそれらを統括するオーケストレーションを自社で完全に制御する必要がある。そのため、Kubernetesは使わない。ワークロードを非常に特定の場所に配置するための高度な制御を求めるからだ。特にエージェントの時代には、メモリ再利用などの効率性がコスト構造を根本的に左右するため、この制御は不可欠になる。

自社のベアメタルデータセンターの経済性は驚異的だ。クラウドでレンタルした場合と比較して、投資回収期間はわずか3ヶ月。これは4年間の減価償却資産に対してである。Cooperは「コンピュート・クランチ(計算資源の逼迫)」が進行中だと指摘する。ハイパースケーラーが巨額の設備投資(今年だけで800億ドル規模)を行う一方で、OEMやリセラーとの直接取引を通じてサーバーを調達するRailwayのような企業にも影響が出ている。興味深いことに、同社が調達した資金総額は、現在の銀行残高とサーバーの価値の合計を下回っている。これはRAM価格の高騰により、サーバー自体が資産価値として増価しているためだ。

Railwayは自社メタルを基盤としつつ、AWS、GCP、Oracle Cloudなど5つのクラウドにまたがるネットワークオーバーレイを構築し、需要に応じてクラウドバーストを行う戦略をとっている。今年初めには、ある上流プロバイダーが必要なクォータを提供できず、コンピュート制約に陥った。Cooperは週末をかけてネットワークオーバーレイ全体を再構築し、5つのクラウドをまたぐ体制を整えた。この経験から、彼は「コンピュートを待つ状態」が最大のボトルネックであり、常に「インテリジェンスを待つ状態」を目指すべきだと強調する。自社メタルの粗利率は約70%と高く、この余裕をクラウドバースト時のコスト補填に充てることができる。さらに、データセンター債務(ハードウェアを担保とした借入)を活用することで、VC資金よりも低コストで設備投資を拡大する手法も採用している。Cooperは「VCは最も高価な資金調達手段」と断じ、状況に応じて適切な金融ツールを使い分ける重要性を説く。

25:24エージェントがインフラに求めるもの:1000倍のスケールと新しいSDLC

Cooperは、エージェントが人間と根本的に異なるニーズを持っているわけではないと主張する。必要なものは同じだが、そのスケールが1000倍になるだけだ。エージェントは変更を段階的にテストする方法(フィーチャーフラグ)、バージョン管理(Gitに代わる新しい仕組みの可能性)、オブザーバビリティ(どのステップが失敗したかのトレース、ログ、メトリクス)、そしてファイルの書き込み、保存、スナップショットが可能なファイルシステムを必要とする。つまり、人間が使ってきたツールの「大幅に優れた」バージョンが必要なのである。

この文脈で、RailwayのCLIの重要性が再定義される。従来、40の引数と600のフラグを持つCLIは人間にとって使いづらいものだった。しかし、エージェントにとっては「多くのハンドル」があることはむしろ好都合だ。エージェントは情報を取得し、動的にクエリを実行し、ループを迅速に閉じることができる。Cooperは、CLIのテレメトリから「12%のユーザーがこの引数でハッピーパスから逸脱している」ことを検出し、修正を加えることで逸脱率を2%に下げる、といった改善サイクルが重要だと語る。同社が有名なCanvas(ビジュアルインターフェース)は、今後は「入力手段」から「出力手段」へと役割を変える。エージェントがCLI経由で変更を加えた結果を、人間が承認するための「コンテキストのアンカー」として機能するようになる。

Cooperは「プルリクエストは死につつある」と明確に宣言する。代わりに「プロンプトリクエスト」の時代が来ると予測する。エージェントがコードを生成し、それを人間がレビューするという従来のサイクルは、エージェント同士がコードレビューを行う「AI SRE」の登場によって変容する。ただし、CooperはAI SREに対しては慎重な立場をとる。安全なプリミティブ(プロダクションフォーク、ボリュームのコピーなど)が整っていない状態でAI SREを本番環境に解き放てば、データベースを破壊するのは時間の問題だと警告する。彼は2023年まではAI SREに深い懐疑論者だったが、2024年から2025年にかけてのモデルの進化(特にClaudeの飛躍的な改善)を経て、現在は「間違った使い方をする方が難しい」レベルに達したと認めつつも、安全な基盤の重要性を強調する。

35:15Central Stationとインシデント対応:過剰開示の哲学

Railwayは35人という少数精鋭チームで300万人のユーザーを支えるため、社内ツール「Central Station」を開発した。これは、カスタマーサポートのフィードバックやインシデント報告をすべて集約し、内容に応じて自動的にクラスタリングするシステムだ。例えば、ネットワーク関連の問題が発生した場合、社内のネットワークに詳しい4人のエンジニアに自動的にルーティングされる。これにより、長大なSlackチャンネルでの「どのチャンネルに投稿すべきか」という混乱や、手動での情報伝達の非効率を排除している。Central Stationは、RailwayのWebサイト(help.railway.com)でも公開されており、顧客からのフィードバックをリアルタイムで可視化する仕組みの一部となっている。

インシデント対応におけるRailwayの哲学は「過剰開示(over-disclosure)」だ。同社の4つのバリューの一つ「Honor(誠実さ)」に基づき、たとえ影響が一部のユーザーに限定されていても、問題が発生したことを広く公表する方針をとる。Cooperは「プロバイダーにガスライティングされるよりは、何かがおかしいと知っている方がマシ」と語る。最近発生した大規模なインシデント(2025年5月19日のGCP障害)では、上流プロバイダーが自ら策定したRFCに反する動作をしたことが原因だった。Central Stationが初期のキャッシュ無効化の問題を検出し、即座にロールバックを行ったが、300万人のユーザーベースでは多様なエッジケースが発生する。同社はこの経験を踏まえ、システムの堅牢性をさらに強化した。

Cooperは、責任ある開示(responsible disclosure)の文化についても言及する。ユーザーが問題を発見した場合、まずは静かに報告してほしいとしつつも、プラットフォーム運営者としては「隠すよりも開示する」姿勢が重要だと強調する。また、プログレッシブロールアウトの重要性を説く。Metaが1万種類のバージョンを並行運用している例を引き合いに、エージェントの時代には「シャドウトラフィック」や「プロダクションフォーク」によって、本番環境に近い安全な環境で変更をテストできる仕組みが不可欠だと主張する。JP Morganのような大企業はパッチの最終適用対象とし、個人の「バイブコーダー」が先に新しいバージョンを試す、という段階的ロールアウトが理想的な形だ。

48:24自己複製するインフラと新しいサーバーレス

Cooperは、エージェントが自らのインフラを自己複製・自己修正する未来を描く。具体的には、Railway CLIをRailway上で動作するアプリケーションに組み込み、エージェントが「自分自身をデプロイする」ループを実現する。エージェントは「新しいPostgresインスタンスが必要だ」と判断し、CLI経由でプロビジョニングし、その変更を自身の環境に適用する。この「イテレーション・イン・プロダクション」のループが、エージェントネイティブなインフラの基本形となる。変更が成功すればマージし、失敗すれば破棄する。この使い捨て可能なコピーを「超安価で、瞬時にスピンアップできる」ことが重要だ。

従来の「4 vCPU、16GB RAMのEC2インスタンス」という単位は、エージェントの時代には時代遅れになる。エージェントが1000台のマシンを必要とする場合、そのコストは法外だ。Railwayは「アトミックなデプロイ単位」として、使用した分だけ課金し、瞬時にスピンアップ・ダウンが可能なシステムを追求している。これは、VercelのFluid ComputeやCloudflareのコンテナサービスなど、各社が「ステートフルな長時間実行ワークロード」と「サーバーレスな従量課金」の間を埋めようとしている流れと一致する。Cooperは「ユーザーはLinuxを話すコンピュータを必要としている」とシンプルに定義し、ネットワーク、コンピュート、ストレージという3つのプリミティブを提供することに注力してきた。

Railwayは、Nixベースのビルドシステム「Nixpacks」から、独自の「Railpack」へと移行した。Nixはバージョン管理と再現性に優れるが、異なるバージョンのバイナリを多数保持するとイメージサイズが肥大化するという実用的な問題があった。Railwayは現在、コンテンツアドレス可能ファイルシステム(content-addressable filesystem)を開発しており、ファイルシステム全体をレイジーロード(遅延読み込み)し、必要な部分だけをページングする技術を追求している。これにより、DockerfileやAnsibleスクリプトといった「儀式(ceremony)」を排除し、ファイルシステム全体をスナップショットとして扱い、それを本番環境にマージするという新しい運用モデルが可能になる。Cooperは「ペットではなく家畜」という従来のDevOpsの格言も、クローン技術によって「ペットのクローン」が可能になれば覆されると予測する。

1:10:56プルリクエストの終焉とエージェント時代のSDLC

Cooperは「プルリクエストは死につつある」と断言する。代わりに「プロンプトリクエスト」が主流になると予測する。エージェントがコードを生成し、人間はそれをレビューするのではなく、エージェント同士がコードレビューを行う世界が到来する。ただし、そのためには安全なロールアウトの仕組みが不可欠だ。Railwayは社内でフィーチャーフラグエンジンを構築しており、将来的にはユーザーに提供する可能性を示唆している。Cooperは、Uberでの経験からフィーチャーフラグの重要性を熟知しており、かつてはLaunchDarklyのような製品を自ら開発しようとしたこともあった。しかし、小規模企業にはフィーチャーフラグの需要がなく、大規模企業には既存のインフラとの統合が難しいというジレンマに直面した。現在、エージェントの急速な普及により、この「古くて新しい」ニーズが再び浮上している。

エージェント時代のSDLCにおいて、Cooperは「スペック(仕様)、コード、テスト」の3点が揃うことの重要性を強調する。これらが相互に補強し合い、「スペックとテストは一致しているがコードが違う」といった矛盾を自動的に検出・修正するループが理想だ。これは、CodiumのItamar Friedmanが提唱する「聖なる三位一体」の概念と一致する。Cooperは、エージェントがコードを生成する速度が向上したことで、人間はコードを「書く」ことから「レビューする」ことへ役割をシフトすべきだと主張する。同社では冬休み明けに「手でコードを書いているなら、それは間違ったやり方だ」とチームに宣言し、エージェントの活用を推進した。その結果、ロードマップの大幅な加速が実現し、「数年かかると思っていた機能が数ヶ月で出荷できる」ようになった。

ただし、Cooperはトークン消費の急増に対するCFOの懸念も認識している。Uberのエンジニアが年間のトークンバジェットを一気に使い切った事例を挙げ、推論コストの低下が不可欠だと指摘する。彼は「F1ドライバー」のアナロジーを用いて、優秀なエンジニアには高額なトークンを使わせてプロトタイピングを加速させる一方、一般的な開発者には別の方法を提供する、という二層構造のアプローチが現実的だと述べる。重要なのは「本番環境に到達したトークンの割合」を測定することで、投資対効果を可視化することだ。

1:19:29ソロファウンダーの教訓:執筆、集中、そして「イエスと言わない」勇気

Jake Cooperは、YCの標準的なアドバイス(共同創業者を見つけよ)に従わなかったソロファウンダーである。彼は「共同創業者が2人いるのは最悪の数だ。なぜなら、意見が割れた時に決着をつける方法がないからだ」と語る。CEOが最終決定権を持つという点で、実質的には1人のリーダーが必要になるというのが彼の持論だ。ソロファウンダーとして、技術とビジネスの両方の「マルチチュード(多様性)」を自分自身で内包しなければならないが、その負担をどう軽減しているのかという問いに対して、Cooperは「バランスは存在しない。ただ、すべてに執着するしかない」と答える。カーネルレベルの変更から、製品のGo-to-Market戦略に至るまで、すべてのレイヤーに没頭することが彼の原動力だ。

彼が実践する具体的な方法論は「執筆(writing)」だ。週末は仕事から完全に切り離し、日曜の午後に執筆の時間を確保する。そこで「自分は今どこにいるのか、どこへ行きたいのか、どんな問題を解決しようとしているのか」を書き出す。これは一種の「メンタルクリアリング」であり、瞑想のようなものだと彼は言う。月曜から金曜までは「日の出から日没まで」全力で働き、土曜は完全にオフにする。このリズムが彼にとって最も効果的だと語る。また、彼は「ほとんどのアドバイスは消化して捨てるべきだ」とも述べ、自分にとって本当に役立つものだけが経験を通じて残ると考えている。

Railwayの今後の方向性について、Cooperは「やらないこと」の重要性を強調する。GPUプロバイダーになることは、現時点では明確に否定する。「あなたは、やることでよりも、やらないことで定義される」と述べ、AnthropicがFigmaのような領域に進出する動きを例に、集中の重要性を説く。ただし、「決してやらないとは言わない」とも付け加え、将来的にGPUが必要になることは認識している。同社のデータセンターは現在、ワークロードの大部分を自社メタルで賄っており、かつては100%に達したが、急成長に伴い再びクラウドバーストが必要になっている。Cooperは「ハイパースケーラーの宿題をコピーしない」ことを誓い、アクティベーション・エネルギーをゼロにするというコアテーゼに基づいて、ゼロから新しいクラウドを構築している。彼のビジョンは、思考から現実への摩擦を完全に排除し、誰もが瞬時にソフトウェアを出荷できる世界だ。

結びに

本エピソードは、単なるPaaSの成長物語ではなく、AIエージェントが「次の支配的なソフトウェア種」となる世界において、インフラストラクチャがどうあるべきかをゼロベースで問い直す、野心的なロードマップを示している。Jake Cooperの「アクティベーション・エネルギーをゼロにする」という執念は、カーネルパッチからデータセンター建設、さらには社内インシデント管理システムに至るまで、フルスタックで貫かれている。特に印象的なのは、彼が「プルリクエストは死ぬ」と断言し、エージェントが自己複製・自己修正する未来を具体的な技術的プリミティブ(プロダクションフォーク、コンテンツアドレス可能ファイルシステム、フィーチャーフラグ)と結びつけて語った点だ。また、ソロファウンダーとしての経営哲学や、データセンター債務という資金調達の現実的な選択肢についての議論は、多くのスタートアップ創業者にとって示唆に富む。Railwayは「新しいHeroku」を目指すのではなく、エージェントネイティブな世界のための全く新しいクラウドを構築している。その挑戦は、AIエンジニアリングの最前線で何が可能かを示す、貴重なケーススタディとなっている。

要点

  • Railwayは35人のチームで300万人以上のユーザーを支え、週に10万人の新規サインアップを獲得。創業から6年、最初の100ユーザー獲得に18ヶ月を費やしたスロースタートが現在の急成長の基盤となっている。
  • 自社ベアメタルデータセンターの投資回収期間はクラウドレンタル比で3ヶ月。70%の粗利率を誇り、RAM価格高騰によりサーバー自体が資産価値として増価している。
  • エージェントが求めるものは人間と本質的に同じだが、そのスケールが1000倍になる。バージョン管理、オブザーバビリティ、コンピュート、ストレージ、オーケストレーションのすべてにおいて、従来のツールの「大幅に優れた」バージョンが必要。
  • 「プルリクエストは死につつある」。エージェント時代にはフィーチャーフラグ、プログレッシブロールアウト、プロダクションフォークが不可欠となり、コードレビューもエージェント同士が行うようになる。
  • AI SREに対しては慎重な立場。安全なプリミティブ(プロダクションフォーク、ボリュームコピー)が整っていない状態でAI SREを解き放てば、本番データベースを破壊するリスクがある。
  • データセンター債務(ハードウェアを担保とした借入)は、VC資金よりも低コストで設備投資を拡大する有効な手段。Cooperは「VCは最も高価な資金調達手段」と断じる。
  • ソロファウンダーとして、週末の執筆によるメンタルクリアリングと「やらないこと」の明確な選択が重要。GPUプロバイダーには現時点ではならないが、将来的な必要性は認識している。
Railway: エージェントネイティブクラウド — Jake Cooper | Latent Space: AIエンジニアポッドキャスト | motpod | motpod