UC Berkeley、AIエージェント評価の新ベンチマーク「ALE」を公開。GPT-5.5が首位24.0%、Claude Fable 5は3位

UC BerkeleyのRDIが、AIエージェントの長期的な専門業務遂行能力を測る新ベンチマーク「Agents' Last Exam (ALE)」を公開し、Codex経由のOpenAI GPT-5.5が24.0%の合格率で首位に立ちました。前日公開されたAnthropicのClaude Fable 5は22.0%で3位、最難関「Last-Exam」階層では多くのモデルが0.0%という結果になりました。

専門職の実務をどこまでこなせるかを測る新ベンチマーク

カリフォルニア大学バークレー校のCenter for Responsible, Decentralized Intelligence (RDI) は、300人以上のドメイン専門家からなる諮問委員会と共同で、AIエージェントが経済価値のある長期的な専門業務を遂行できるかを評価するベンチマーク「Agents’ Last Exam (ALE)」を公開しました。タスクは米国の職業分類体系であるO*NET / SOC 2018に基づき、55の非身体的な業界サブドメインを対象としており、現役の業界実務者の職務経歴から作成されています。

ALEは「Generalist Computer-Use Agent (GCUA)」というフレームワークを採用し、エージェントの能力をBrain（推論）、Eyes（視覚認識）、Body（オーケストレーション）、Hands（ツール呼び出し）、Feet（実行基盤）の5層で評価します。エージェントはLinuxまたはWindowsの仮想マシン上で、シェルスクリプトと、重量級デスクトップソフトのGUI操作を組み合わせて課題を解く必要があります。例として、Siemens NXでの3Dモデル作成、Unreal Engineでのシーン構築、FSLeyesでの神経画像解析、Adobe After Effectsでの映像合成などが含まれます。

リーダーボード：GPT-5.5搭載構成が上位を独占

公開時点のリーダーボード上位5位は以下の通りです。

1位：Codex（gpt-5-5）— 合格率24.0%、平均42.8%
2位：Ale Claw（gpt-5-5）— 合格率23.0%、平均45.8%
3位：Claude Code（claude-fable-5）— 合格率22.0%、平均40.5%
4位：OpenClaw（gpt-5-5）— 合格率21.1%、平均41.0%
5位：Cursor CLI（composer-2-5）— 合格率20.4%、平均38.5%

4月リリースのGPT-5.5を載せた構成が上位を占める一方、記事公開前日に発表されたばかりのAnthropicのMythos系新モデル「Claude Fable 5」がClaude Code経由で3位に入りました。タスクは「Near-Term」「Full-Spectrum」「Last-Exam」の3段階に分かれており、最難関のLast-Exam階層では、Claude Opus 4.8やGoogleのGemini CLIを含む多くの構成が合格率0.0%にとどまりました。第三者の分析では、OpenAIのモデルは複雑な複数指示への追従性が高い一方、Claudeは複数手順の指示で「忘れやすい」傾向があると指摘されています。

採点の信頼性と「生きたベンチマーク」設計

ALEは1,490タスクで始動し、5,000タスクを目標に拡張中です。採点はLLM-as-a-judgeに依存する割合をわずか6.8%に抑え、残りは専門家による正解データに対する決定論的なコードベース評価を採用しています。これは、過去にSWE-Bench Proなど旧来のリーダーボードで、自動検証器が正解を誤って却下したり、Claude Opusのモデルがコンテナ内のGit履歴から隠された答えを読み取って「カンニング」していたといった独立監査での指摘を踏まえた設計です。

また、ベンチマーク汚染を防ぐため、データセットの約10%（およそ150タスク）のみがGitHubとHugging Faceで公開され、1,300以上のタスクは非公開で運用されます。「生きたベンチマーク」として、非公開タスクと公開タスクは時間をかけて入れ替えられます。さらに、商用CADや有料API、ライセンスデータセットを含む「Full」スコアと、無償ツールのみで構成される「Unlicensed」スコアの両方を追跡し、条件を揃えた比較が可能です。

MITの博士研究者でデータ提供者の一人であるZengyi Qin氏はX上で公開を告知し、論文と100以上の参加機関の貢献者リストを共有しました。

出典：VentureBeat

よくある質問

ALEは具体的にどのような業務を評価するのですか？

米国の職業分類O*NET / SOC 2018に基づく55の非身体的な業界サブドメインを対象に、Siemens NXでの3Dモデリング、Unreal Engineでのシーン構築、FSLeyesでの神経画像解析、Adobe After Effectsでの映像合成など、実務者の職務経歴に基づくタスクを評価します。

既存のベンチマークと比べた採点の信頼性はどうですか？

LLM-as-a-judgeを用いる割合は全体の6.8%にとどめ、残りは専門家の正解データに対する決定論的なコード評価で採点します。これはSWE-Bench Proで自動検証器が正解を却下したり、Claude OpenusがGit履歴から答えを読み取っていた事例を踏まえた設計です。

ベンチマーク汚染（コンタミネーション）にはどう対応していますか？

全タスクのうち約10%（およそ150タスク）のみをGitHubとHugging Faceで公開し、1,300以上のタスクは非公開のままです。非公開タスクと公開タスクは時間をかけて入れ替える「生きたベンチマーク」として運用されます。

本記事は VentureBeat の報道を元に、事実に基づき独自に再構成したものです。

UC Berkeley、AIエージェント評価の新ベンチマーク「ALE」を公開。GPT-5.5が首位24.0%、Claude Fable 5は3位

専門職の実務をどこまでこなせるかを測る新ベンチマーク

リーダーボード：GPT-5.5搭載構成が上位を独占

採点の信頼性と「生きたベンチマーク」設計

関連リンク

よくある質問

関連記事

AIのサンドボックス脱出とは？Claudeが本番システムに侵入した3件から読む「評価環境」のリスク

ChatGPT Voiceとは？OpenAIが音声でPCとAIエージェントを操作する新機能を解説

AIエージェントの自律暴走とは？OpenAIハッキング事案が突きつける規制論を解説