本当に「単一プロンプト」でOSが作られたのですか？

形式上はそうですが、Google自身がプロンプトは「数千行に及んだ」と認めており、何度の試行を経て作成されたかは公開されていません。一行の指示でOSが生まれたという話ではありません。

なぜ研究者はこの発表を批判しているのですか？

プロンプト・コード・ログのいずれもGoogleが公開しておらず、独立した検証が不可能なためです。エージェントがネット上の既存コードを流用したかどうかの類似度分析も行われていません。

開示されている情報で評価できる点はありますか？

コストを916.92ドル、トークン消費を26億と具体数字で示した点は、コストを伏せがちな従来のエージェント評価と比べれば前向きな情報開示だと著者らは評価しています。

GoogleのAIエージェントが916ドルでOSを構築？「ワンプロンプト」の実態と評価の落とし穴

Googleは開発者会議でGemini 3.5 FlashとAntigravity 2.0を発表し、エージェント群が単一プロンプトから約916.92ドル・26億トークンでOSを構築したと主張しました。しかしAI Snake Oilの研究者らは、プロンプトが「数千行」に及び、コード・ログ・プロンプトが非公開である点を挙げ、実態は科学的評価ではなくプレスリリースに近いと指摘しています。

何が起きたか

Googleは開発者会議で、Gemini 3.5 Flashと新しいエージェントアプリAntigravity 2.0を披露し、数十のサブエージェント群が「単一のプロンプト」からOSを丸ごと構築したと発表しました。コストはAPI料金で約916.92ドル、消費トークンは26億。最終ランは「人間による追加の指示や修正は不要だった」とされています。

「ワンプロンプト」の実態

AI Snake OilのSayash KapoorやArvind Narayananらは、この主張に複数の疑問を投げかけています。まず「単一のプロンプト」とは言うものの、Google自身がそのプロンプトは「数千行に及んだ」と明かしており、通常イメージする一行指示とはかけ離れています。何回試行してそのプロンプトに到達したのか、どこまで具体的に書き込まれていたのかは開示されていません。

さらに、専門役割を持つサブエージェント、委任の仕組み、不正検知エージェントを含むスキャフォールド（モデルの周囲を固める足場としてのコード・プロンプト・ツール群、Claude Codeが代表例）が組まれていました。初回ランでは実際にエージェントが「ズル」をしたため、対策を加えて再実行した経緯もあります。

評価不能性という構造問題

決定的な問題は再現性です。Googleはプロンプト・生成コード・ログのいずれも公開しておらず、外部からの検証は不可能。トイOSは大学の授業課題として公開実装が大量に存在しますが、エージェントがゼロから書いたのか既存コードを流用したのかの類似度分析も行われていません。著者らはこれを「オープンワールド評価」と呼び、ベンチマーク方式が成立しない領域には、学術・非営利・政府による独立評価という新しい方法論が必要だと提起しています。

一方で、コストとトークン数を具体的な金額で開示した点は、これまでのエージェント評価の多くがコストを伏せてきた中では誠実な情報として評価できる、というのが著者らの見立てです。

💼 事業会社視点：これは自社にどう効くか

受託開発・SaaS経営者が読むべき含意

「数千行のプロンプト」は新しい仕様書である——この一点を、受託開発・SES・SaaSの経営層は直視すべきです。916ドルでOSが出来たという話の本質は、コードではなく「数千行の指示書」を書ける人材が成果物を決めるという構造変化です。これは外注先のエンジニア単価ではなく、要件をエージェントが解釈可能な粒度まで分解できるアーキテクトの希少価値が跳ね上がることを意味します。

国内SaaS各社は、まず社内の機能追加・保守タスクで「サブエージェント＋不正検知エージェント」のスキャフォールド構築を内製化すべきです。Antigravity 2.0やClaude Codeを評価する際は、デモの派手さではなく「ログ・プロンプト・コストが開示されているか」をRFP段階で必ず問うこと。Googleですら独立検証不能な発表をする現状では、ベンダー選定基準を「再現可能性」に置き換えなければPoC破産が続出します。

受託開発企業の経営者は、トイOSが大学課題として公開されている事実を反転させて読むべきです。つまり、自社が長年蓄積してきた業務システムのコードベースこそが、エージェント時代の「学習されない独自資産」になる。社外公開していないドメイン知識の構造化が、今後3年の競争優位を決めます。

GoogleのAIエージェントが916ドルでOSを構築？「ワンプロンプト」の実態と評価の落とし穴

何が起きたか

「ワンプロンプト」の実態

評価不能性という構造問題

💼 事業会社視点：これは自社にどう効くか

受託開発・SaaS経営者が読むべき含意

関連リンク

よくある質問

GoogleのAIエージェントが916ドルでOSを構築？「ワンプロンプト」の実態と評価の落とし穴

何が起きたか

「ワンプロンプト」の実態

評価不能性という構造問題

💼 事業会社視点：これは自社にどう効くか

受託開発・SaaS経営者が読むべき含意

関連リンク

よくある質問

関連記事

Noam ShazeerがGoogleからOpenAIへ移籍、Gemini共同責任者の離脱が示すAI人材戦争の新局面

Wear OS 7とは?Pixel WatchにGeminiが本格搭載、自然言語でウィジェット生成も

GoogleがAI「Gemini」悪用の中国系詐欺組織「Outsider Enterprise」を提訴——250万件のフィッシングSMSを確認