#UC Berkeley の記事一覧(1)

UC Berkeley、AIエージェント評価の新ベンチマーク「ALE」を公開。GPT-5.5が首位24.0%、Claude Fable 5は3位
2026-06-10 ・ VentureBeat

UC Berkeley、AIエージェント評価の新ベンチマーク「ALE」を公開。GPT-5.5が首位24.0%、Claude Fable 5は3位

UC BerkeleyのRDIが、AIエージェントの長期的な専門業務遂行能力を測る新ベンチマーク「Agents' Last Exam (ALE)」を公開し、Codex経由のOpenAI GPT-5.5が24.0%の合格率で首位に立ちました。前日公開されたAnthropicのClaude Fable 5は22.0%で3位、最難関「Last-Exam」階層では多くのモデルが0.0%という結果になりました。

← タグ一覧へ