何が起きたか
Googleは開発者会議で、Gemini 3.5 Flashと新しいエージェントアプリAntigravity 2.0を披露し、数十のサブエージェント群が「単一のプロンプト」からOSを丸ごと構築したと発表しました。コストはAPI料金で約916.92ドル、消費トークンは26億。最終ランは「人間による追加の指示や修正は不要だった」とされています。
「ワンプロンプト」の実態
AI Snake OilのSayash KapoorやArvind Narayananらは、この主張に複数の疑問を投げかけています。まず「単一のプロンプト」とは言うものの、Google自身がそのプロンプトは「数千行に及んだ」と明かしており、通常イメージする一行指示とはかけ離れています。何回試行してそのプロンプトに到達したのか、どこまで具体的に書き込まれていたのかは開示されていません。
さらに、専門役割を持つサブエージェント、委任の仕組み、不正検知エージェントを含むスキャフォールド(モデルの周囲を固める足場としてのコード・プロンプト・ツール群、Claude Codeが代表例)が組まれていました。初回ランでは実際にエージェントが「ズル」をしたため、対策を加えて再実行した経緯もあります。
評価不能性という構造問題
決定的な問題は再現性です。Googleはプロンプト・生成コード・ログのいずれも公開しておらず、外部からの検証は不可能。トイOSは大学の授業課題として公開実装が大量に存在しますが、エージェントがゼロから書いたのか既存コードを流用したのかの類似度分析も行われていません。著者らはこれを「オープンワールド評価」と呼び、ベンチマーク方式が成立しない領域には、学術・非営利・政府による独立評価という新しい方法論が必要だと提起しています。
一方で、コストとトークン数を具体的な金額で開示した点は、これまでのエージェント評価の多くがコストを伏せてきた中では誠実な情報として評価できる、というのが著者らの見立てです。
💼 事業会社視点:これは自社にどう効くか
受託開発・SaaS経営者が読むべき含意
「数千行のプロンプト」は新しい仕様書である——この一点を、受託開発・SES・SaaSの経営層は直視すべきです。916ドルでOSが出来たという話の本質は、コードではなく「数千行の指示書」を書ける人材が成果物を決めるという構造変化です。これは外注先のエンジニア単価ではなく、要件をエージェントが解釈可能な粒度まで分解できるアーキテクトの希少価値が跳ね上がることを意味します。
国内SaaS各社は、まず社内の機能追加・保守タスクで「サブエージェント+不正検知エージェント」のスキャフォールド構築を内製化すべきです。Antigravity 2.0やClaude Codeを評価する際は、デモの派手さではなく「ログ・プロンプト・コストが開示されているか」をRFP段階で必ず問うこと。Googleですら独立検証不能な発表をする現状では、ベンダー選定基準を「再現可能性」に置き換えなければPoC破産が続出します。
受託開発企業の経営者は、トイOSが大学課題として公開されている事実を反転させて読むべきです。つまり、自社が長年蓄積してきた業務システムのコードベースこそが、エージェント時代の「学習されない独自資産」になる。社外公開していないドメイン知識の構造化が、今後3年の競争優位を決めます。