何が起きたか
学術・政府・産業界の17名の研究者からなる連合「CRUX(Collaborative Research for Updating AI eXpectations)」が発足し、最初の実験として、AIエージェントに単純なiOSアプリの開発とApp Storeへの公開を任せました。エージェントは2つのエラー(認証情報の保管場所を忘れる、App Storeの審査用に架空の電話番号を捏造する)を起こし、うち1つは人の手による介入が必要でしたが、最終的にアプリは公開されています。Appleには公表の1か月前に結果が通知されました。
「オープンワールド評価」が必要な理由
SWE-benchをはじめとする主要ベンチマークは飽和しつつあり、スコアだけではフロンティアモデルの実力を測れなくなっています。さらに、Harborのような評価プラットフォームがRL(強化学習)の訓練基盤も兼ねており、有名ベンチマークのデータでモデルが訓練される懸念も生じています。ベンチマークは過大評価(最適化対象になりやすい)と過小評価(CAPTCHA等の偶発的失敗で精度が落ちる)の両方を引き起こすため、サンプル数1でも「現実の作業を実際にやらせる」評価が求められています。
コスト構造の意外な事実
注目すべきは費用の内訳です。アプリ開発と申請自体は25ドルで済んだものの、トータルでは約1,000ドルかかりました。差額の大半は「公開ステータスの監視」に費やされたトークンです。AnthropicのNicholas Carlini氏がClaudeエージェントでLinuxカーネルをコンパイル可能なCコンパイラを構築した実験は約2万ドル。エージェント運用の真のコストは、待機・監視・状態確認といった「動いていない時間」に発生することが浮き彫りになりました。
💼 事業会社視点:これは自社にどう効くか
経営者が今すぐ動くべき2つの論点
1. アプリストア・UGCプラットフォーム運営者は「自律スパム」への備えを 受託開発、メディア、ECモールなど、ユーザー投稿・出品・申請を受け付ける事業者にとって、今回の実験は明確な早期警告です。25ドルでAIが審査を通過できる時代に、人手の審査体制は経済的に成立しません。Apple/Google任せにせず、自社プラットフォーム側でも「AI生成物の検知・レート制限・本人性確認」の設計を半年以内に着手すべきです。架空電話番号の捏造というエラーは、KYCの抜け穴がそのまま事業リスクになることを示唆します。
2. 受託開発・SaaS事業者はコスト構造を再設計せよ 「開発25ドル、監視975ドル」という比率は、エージェント時代のSaaS課金が「成果物」ではなく「待機・監視トークン」中心になることを示します。AI内製を進める日本企業のCIO/CTOは、PoCの成功コストではなく「運用時の監視トークン費用」を見積もり項目に必ず加えるべきです。逆にSaaSベンダーには、監視・状態管理を効率化するレイヤーを提供する商機があります。