
Exa CEO Will Brykと語る、AIエージェントのための検索構築
- 検索は世界の情報への入り口であり、もしそれを完璧にできれば、世界に計り知れない恩恵をもたらす。しかし、従来の検索エンジンは人間の消費者向けに最適化されており、深い理解や包...
- [0:00] 検索のパラダイムシフト:人間からエージェントへ Will Brykは、検索に対する自身の関心を「人生のミッション」と表現する。高校時代には新しいタイプのニュ...
- 従来の検索エンジン、特にGoogleは、人間の消費者向けに驚くほど最適化されている。Brykはこれを「人間のクリックのために最適化されている」と表現する。疲れたユーザーが...
自分では見つけにくい海外Podcastの話題に、日本語で気軽に触れたい人。
The a16z Show / Andreessen Horowitz
検索は世界の情報への入り口であり、もしそれを完璧にできれば、世界に計り知れない恩恵をもたらす。しかし、従来の検索エンジンは人間の消費者向けに最適化されており、深い理解や包括的な情報収集を必要とするユースケースには対応できていない。特に、AIエージェントが自律的に情報を探索する時代において、検索のパラダイムは根本的に変革を求められている。a16zのSarah WangがExaの共同創業者兼CEOであるWill Brykを迎え、AIエージェントのための検索インフラストラクチャの構築について深く掘り下げた。本エピソードでは、従来の検索エンジンがエージェントのニーズに合わない理由、Exaがゼロから検索エンジンを構築した技術的選択、そして検索が単なる情報検索を超えて、政治的分断や孤独といった社会問題の解決にもつながる可能性について議論が交わされた。Brykは、検索はもはや人間のクリックを最適化するものではなく、無限の時間と複雑なクエリを処理するエージェントのために再設計されるべきだと主張する。この議論は、検索がAIエコシステムにおける重要な基盤レイヤーとなり、その市場規模は2030年代にはGoogleの広告事業を超える可能性があるという大胆な予測へとつながる。
検索のパラダイムシフト:人間からエージェントへ
Will Brykは、検索に対する自身の関心を「人生のミッション」と表現する。高校時代には新しいタイプのニュース組織を立ち上げようと考え、大学ではルームメイトと共にクラウドソーシングを用いた検索エンジンを構築した。しかし、真の転機は2021年、Transformerモデルが実用的なレベルに達した時に訪れた。彼は「突然、Googleよりも優れた検索エンジンを構築することが可能になった」と語る。この認識がExaの創業につながった。
従来の検索エンジン、特にGoogleは、人間の消費者向けに驚くほど最適化されている。Brykはこれを「人間のクリックのために最適化されている」と表現する。疲れたユーザーが意味不明なキーワードを打ち込んでも、魔法のように意図を汲み取ってくれる。しかし、この最適化は、深い知識を求めるユースケースでは限界を迎える。Bryk自身が歴史書を執筆中に、例えば「紀元100年のローマ帝国での生活」を深く理解しようとした際、Googleでは情報が散在し、真の理解に到達するのが極めて困難だったという経験が、その限界を如実に物語っている。
AIエージェントの登場は、このパラダイムをさらに劇的に変える。Brykは「エージェントの検索世界は、人間の検索とは完全に異なる」と断言する。彼は比喩を用いて、人間とエージェントの関係を「ナマケモノと人間」に例える。ナマケモノに最適化された外科医がいたとしても、人間はそれを使いたくないだろう。エージェントは時間という概念が無意味であり、複雑なクエリを高速に処理し、完璧なアウトプットを求める。そのため、エージェント向けの検索エンジンには、従来とは全く異なる設計思想が必要となる。具体的には、複雑なクエリをそのまま処理できるセマンティック検索とキーワード検索の両立、細かなフィルタリングが可能な制御性、そして何より「包括性」が求められる。エージェントは10の結果ではなく、1,000や10,000の結果を必要とする場合がある。投資家がバイオテック企業を調査する際、情報に漏れがあれば重大な判断ミスにつながるからだ。
LLM時代の検索エンジン構築:容易さと困難の両面
大規模言語モデル(LLM)の進化は、新たな検索エンジンを構築する上で、容易な側面と困難な側面の両方をもたらす。まず、容易な点として、Brykは「人間のクリックデータがエージェントにとってはそれほど重要ではない」と指摘する。Googleが20年以上かけて蓄積した膨大なクリックデータは、人間の意図を推測する上では強力だが、エージェントは人間のように「何となく」検索するわけではない。エージェントは明確な目的を持ち、論理的に検索を行うため、クリックデータへの依存度は低い。これは、後発のプレイヤーにとって大きなアドバンテージとなる。
さらに、LLMの登場により、検索のランキング技術も民主化された。以前は数百人のエンジニアチームが必要だったリランキングも、現在ではLLMを呼び出すことで少数のエンジニアで実現可能になった。Exaは常時100人未満のチームでありながら、特定の領域ではGoogleを凌駕する検索エンジンを構築できている理由の一端はここにある。
しかし、その一方で、エージェント向け検索エンジンの要求水準は極めて高い。Brykは「従来の検索エンジンが99.9%の品質で良かったのに対し、エージェント向けには99.999%以上の精度が求められる」と語る。顧客はビジネス上の重要な判断を検索結果に委ねるため、わずかな誤りも許されない。この「完璧さへの追求」が、Exaを絶えず研究開発へと駆り立てる原動力となっている。Sarah Wangは、この点に関連して「検索はコモディティ化している」という一部の見方を紹介する。これに対しBrykは、LLM自体の方が検索よりも急速にコモディティ化していると反論する。多くのナレッジワークには、必ずしも最高性能のLLMは必要なく、オープンソースのモデルで十分なケースが多い。しかし、検索の品質、特に「9の数(ナイン)」は、ビジネスの成果に直結するため、差別化の源泉となり続けると主張する。
検索の最前線:企業・人材検索とデータアクセスの課題
検索が真価を発揮する領域の一つが、企業や人材の検索である。Brykは「世界中のほぼすべての企業が、販売先の企業や採用する人材を探すという課題を抱えているが、それは未だに解決されていない」と指摘する。企業は常に新しいツールを試しているが、それは包括的な情報を得られていないからに他ならない。Exaはこの「Go-to-Marketインテリジェンス」に深く注力しており、自社の営業や採用にも活用することで、ドッグフーディングを進めている。
この差別化を実現するための鍵は、「優れた検索(retrieval)」と「優れたデータ」の二つにある。Brykは、検索を「人類の種を調整するもの」と広義に捉え、完璧な検索とは、地球上のあらゆるデータを網羅し、その上で最高の検索モデルを適用することだと定義する。しかし、現実にはデータアクセスの壁が立ちはだかる。特に、ウェブ上のデータプロバイダーは、自社サイトへのトラフィックが減少することを恐れ、データを閉じる傾向にある(いわゆる「Stack Overflow問題」)。
これに対しBrykは、エージェント経済という新たなパラダイムを提案する。エージェント経済は、人間のインターネット利用をはるかに超える規模の価値を生み出す可能性がある。その価値を、検索エンジンだけでなく、コンテンツプロバイダーにも適切に分配する仕組みを構築できれば、データプロバイダーも協力的になるというのが彼のビジョンだ。「年間2,000億ドルの価値が生まれるなら、その一部をコンテンツプロバイダーに還元する方法はあるはずだ」と語る。これは、単なる技術的な課題ではなく、経済的なインセンティブ設計の問題でもある。
コーディングエージェントとトークン問題の解決策
コーディングエージェントは、Exaの検索技術が特に有効なユースケースの一つである。エージェントがコードを書く際には、最新の技術ドキュメントやSDK、ブログ記事などを参照する必要がある。この「検索の質」が、生成されるコードの正確性に直結する。Brykは「コーディングエージェントは非常にインテリジェントだが、検索の質は2000年代初頭の暗黒時代のままだ」と警鐘を鳴らす。Exaは、コーディング関連の素材に対する検索を極限まで最適化しており、例えばCognition社のエージェント「Devin」の検索基盤として採用されている。その結果、Devinの精度が大幅に向上し、エラーの発生率が低下したという。
さらに、検索は現在業界で話題となっている「トークン消費の逼迫(Token Apocalypse)」に対する有効な解決策にもなり得る。Brykは、すべてのタスクに巨大なLLMを使うべきではないと主張する。理想的なアーキテクチャは、大きなモデルが判断と指示を行い、小さなモデルが検索(retrieval)を活用して具体的なタスクを実行するというものだ。検索によって小さなモデルが外部知識を効率的に取得できれば、あたかも大きなモデルのように振る舞うことができる。これにより、トークン消費を劇的に削減できる。
Exaは、この効率化に特に注力しており、エージェントがウェブから取得する情報を必要最小限に絞り込む研究を行っている。Brykによれば、他のプロバイダーと比較して、顧客のコストを最大20倍削減できるケースもあるという。彼は、Andrej Karpathyの「トレンドは、ツールを使う小さな生の知能モジュールに向かっている」というツイートを引用し、将来のモデルは「世界についての知識を持たないアインシュタイン」のように、知能処理に特化し、知識は外部ツールに依存するようになると予測する。このトレンドが顕著になる時期について、Brykは「2026年末までには非常に明確になる」と述べ、これは一種の「ホットテイク」であると認めつつも、強い確信を示した。
研究ラボとしてのExa:RLとベンチマークを超えた評価
Exaは、単なるアプリケーション企業やインフラ企業ではなく、検索に特化した研究ラボとしての側面を持つ。Brykは、LLMのトレーニングにおける大きなアイデアの多くが、検索モデルのトレーニングにも等しく適用可能だと説明する。具体的には、埋め込みモデルの事前学習、事後学習、そして検索ツールに対する強化学習(RL)など、LLMで効果を上げている手法を検索分野にも応用している。
最近公開したブログ記事では、RLの文脈で異なる検索ツールを比較した実験結果が紹介された。GoogleのラッパーであるSerpAPIとExaをRLの対象として比較したところ、Exaを使用した方が、より少ない呼び出し回数で、より高いパフォーマンスを達成したという。これは、Exaがエージェントによる使用を前提に設計されているため、エージェントが本来の複雑なクエリをそのまま発行できることが理由として挙げられる。
しかし、検索分野における評価の難しさも浮き彫りになる。Sarah Wangは、業界に蔓延する「ベンチマーク・マキシング」の問題を指摘する。検索分野には標準化されたサードパーティの評価指標が少なく、既存のものはエージェントの検索ニーズを適切に反映していない。その結果、多くの企業が自社に都合の良いベンチマークを公表し、顧客は真の性能を比較することが困難になっている。Brykは、最も信頼できる「地上の真実(ground truth)」は、顧客自身が実施するA/Bテストだと語る。洗練された顧客は自社のユースケースに基づいて独自の評価を行い、Exaと競合を比較する。Exa自身も、この評価エコシステムの改善に貢献したいと考えており、たとえ自社がトップでなくとも、透明性の高い情報を公開していく方針を示した。
エージェンティック検索の未来:巨大市場とインフラのボトルネック
Brykは、「エージェンティック検索は2030年代までにGoogle検索よりも大きなビジネスになる」と予測する。この予測の根拠は、単純な計算にある。人間は1日に平均して数回の検索を行うが、エージェントは個人アシスタントやあらゆるソフトウェアツールに組み込まれ、数百万回もの検索を実行するようになる。検索は「電気のように、世界を満たす基本的なインフラ」となる。このトレンドを保守的に見積もっても、エージェンティック検索のTAM(総獲得可能市場)は2030年代にはGoogleの広告事業を超える規模になると彼は主張する。
この巨大な未来を実現するためのボトルネックは、時間の経過とともに変化する。短期的には「インフラ」が最大の課題となる。Googleの何千倍もの検索クエリを処理するためには、現在のベクトルデータベースの処理能力をはるかに超える、超高スループットのインフラが必要となる。Exaは、この課題に対応するため、新しいタイプのベクトルデータベースの探求に積極的だ。
中長期的には「データ」がボトルネックになる。エージェントはウェブ上に存在しない情報、例えば個人の頭の中にある知識や衛星画像、さらには人類の歴史を通じて記録されていない情報までも求め始める。Brykは「世界は情報に満ちているが、そのすべてが記録されているわけではない」と述べ、未だデジタル化されていないデータを「発掘」する必要性を強調する。そして、データが潤沢になった先には、新たな「検索(retrieval)」の課題が待ち受ける。もしウェブ上のページ数が現在の1兆から1000兆(クアドリリオン)に増加した場合、既存の検索アルゴリズムは計算コストの面で破綻する可能性がある。このような「クアドリリオンページの世界」で機能する検索アルゴリズムとは何か。これは、火星移住のような遠い未来を見据えた、極めて根源的な問いであるとBrykは語る。
結びに
本エピソードは、AIエージェントの台頭が検索という最も基本的なインターネット技術に根本的な変革をもたらしていることを鮮明に描き出した。Will Brykのビジョンは、単なる検索エンジンの改善を超え、情報へのアクセスを人類の協調と問題解決の基盤として再定義するものだ。彼の「政治的分断も孤独も、究極的には検索問題である」という主張は、技術の可能性に対する深い楽観主義と、社会課題への真摯な関心を感じさせる。Exaのアプローチは、人間のクリック履歴という過去のデータに依存せず、エージェントの論理的かつ包括的な情報要求に応えるためにゼロから設計された点で、既存の巨人とは一線を画す。トークン消費の効率化からコーディングエージェントの精度向上、そして未来のクアドリリオンページ時代の検索アルゴリズムに至るまで、議論は多岐にわたるが、その根底には「検索こそがAI時代の最重要インフラである」という確信が一貫して流れている。このエピソードは、AIエージェント経済の幕開けにおいて、検索が果たす役割の大きさと、そこに眠る計り知れない機会について、深い洞察を与えてくれる。
要点
- Will Brykは、検索を「人類の種を調整するもの」と定義し、完璧な検索は政治的分断や孤独といった社会問題の解決にもつながると主張する。
- Exaは、人間のクリックデータに依存せず、複雑なクエリを処理し包括的な結果を求めるAIエージェントのためにゼロから設計された検索エンジンである。
- エージェント向け検索には、従来の99.9%ではなく99.999%以上の精度が求められ、この「完璧さへの追求」がExaの研究開発を駆動している。
- 検索は、LLMのトークン消費逼迫問題に対する有効な解決策であり、小さなモデルが検索を活用することで、コストを最大20倍削減できる。
- Exaは、強化学習(RL)などLLMで効果を上げている手法を検索モデルのトレーニングに応用しており、その結果、エージェントはより少ない呼び出しで高精度な結果を得られる。
- Brykは、エージェンティック検索の市場規模が2030年代にはGoogleの広告事業を超えると予測し、その際のボトルネックはインフラ、次いで未デジタル化データの収集になると分析する。
- Exaの企業文化は、メンバーが自ら情熱を持てるプロジェクトを選択できることに特徴があり、CEOのBrykは全採用候補者と最終面接を行い、情熱(passion)を最も重視している。