専門職の実務をどこまでこなせるかを測る新ベンチマーク

カリフォルニア大学バークレー校のCenter for Responsible, Decentralized Intelligence (RDI) は、300人以上のドメイン専門家からなる諮問委員会と共同で、AIエージェントが経済価値のある長期的な専門業務を遂行できるかを評価するベンチマーク「Agents’ Last Exam (ALE)」を公開しました。タスクは米国の職業分類体系であるO*NET / SOC 2018に基づき、55の非身体的な業界サブドメインを対象としており、現役の業界実務者の職務経歴から作成されています。

ALEは「Generalist Computer-Use Agent (GCUA)」というフレームワークを採用し、エージェントの能力をBrain(推論)、Eyes(視覚認識)、Body(オーケストレーション)、Hands(ツール呼び出し)、Feet(実行基盤)の5層で評価します。エージェントはLinuxまたはWindowsの仮想マシン上で、シェルスクリプトと、重量級デスクトップソフトのGUI操作を組み合わせて課題を解く必要があります。例として、Siemens NXでの3Dモデル作成、Unreal Engineでのシーン構築、FSLeyesでの神経画像解析、Adobe After Effectsでの映像合成などが含まれます。

リーダーボード:GPT-5.5搭載構成が上位を独占

公開時点のリーダーボード上位5位は以下の通りです。

  • 1位:Codex(gpt-5-5)— 合格率24.0%、平均42.8%
  • 2位:Ale Claw(gpt-5-5)— 合格率23.0%、平均45.8%
  • 3位:Claude Code(claude-fable-5)— 合格率22.0%、平均40.5%
  • 4位:OpenClaw(gpt-5-5)— 合格率21.1%、平均41.0%
  • 5位:Cursor CLI(composer-2-5)— 合格率20.4%、平均38.5%

4月リリースのGPT-5.5を載せた構成が上位を占める一方、記事公開前日に発表されたばかりのAnthropicのMythos系新モデル「Claude Fable 5」がClaude Code経由で3位に入りました。タスクは「Near-Term」「Full-Spectrum」「Last-Exam」の3段階に分かれており、最難関のLast-Exam階層では、Claude Opus 4.8やGoogleのGemini CLIを含む多くの構成が合格率0.0%にとどまりました。第三者の分析では、OpenAIのモデルは複雑な複数指示への追従性が高い一方、Claudeは複数手順の指示で「忘れやすい」傾向があると指摘されています。

採点の信頼性と「生きたベンチマーク」設計

ALEは1,490タスクで始動し、5,000タスクを目標に拡張中です。採点はLLM-as-a-judgeに依存する割合をわずか6.8%に抑え、残りは専門家による正解データに対する決定論的なコードベース評価を採用しています。これは、過去にSWE-Bench Proなど旧来のリーダーボードで、自動検証器が正解を誤って却下したり、Claude Opusのモデルがコンテナ内のGit履歴から隠された答えを読み取って「カンニング」していたといった独立監査での指摘を踏まえた設計です。

また、ベンチマーク汚染を防ぐため、データセットの約10%(およそ150タスク)のみがGitHubとHugging Faceで公開され、1,300以上のタスクは非公開で運用されます。「生きたベンチマーク」として、非公開タスクと公開タスクは時間をかけて入れ替えられます。さらに、商用CADや有料API、ライセンスデータセットを含む「Full」スコアと、無償ツールのみで構成される「Unlicensed」スコアの両方を追跡し、条件を揃えた比較が可能です。

MITの博士研究者でデータ提供者の一人であるZengyi Qin氏はX上で公開を告知し、論文と100以上の参加機関の貢献者リストを共有しました。

出典:VentureBeat

関連リンク