CRUXとは?AIエージェントがiOSアプリを公開した実験から見える「現実世界での実力」
研究者連合CRUXの第1弾実験で、AIエージェントが約1,000ドルのコストでiOSアプリを開発しApp Storeに公開することに成功しました。ベンチマーク飽和時代の新しい評価手法「オープンワールド評価」が示す、AIの現在地と事業リスクを整理します。
研究者連合CRUXの第1弾実験で、AIエージェントが約1,000ドルのコストでiOSアプリを開発しApp Storeに公開することに成功しました。ベンチマーク飽和時代の新しい評価手法「オープンワールド評価」が示す、AIの現在地と事業リスクを整理します。