AA-Briefcaseとは？AIが現実の知識労働で「3%しか完遂できない」現実

Artificial Analysisの新ベンチマーク「AA-Briefcase」で、最上位のClaude Fable 5でも全基準を満たして完遂できたのは全タスクのわずか3%。SlackやメールなどバラバラのファイルからAIが多週間の業務を遂行できるかを測ると、現行モデルの限界が一気に露呈しました。

何が起きたか

AI評価機関のArtificial Analysisが、知識労働の実態に近づけた新ベンチマーク「AA-Briefcase」の結果を公開しました。Slackスレッド、メール、会議の文字起こし、大規模なデータエクスポートなど、数千の断片的なファイルを束ねた「数週間がかりのプロジェクト」をAIに解かせるテストです。

結果は衝撃的で、最上位のClaude Fable 5(Anthropic)ですら、ルーブリックの全項目を満たして「完遂」できたのは91タスク中3%にとどまりました。さらに91タスク中31タスクでは、どのモデルも50%の達成率に届きませんでした。

なぜ重要か

これまでのベンチマークは、整理された問題セットに対する単発の回答精度を測るものが中心でした。しかし実務では、情報は散らばり、要件は曖昧で、答えは複数ソースの突き合わせから初めて見える――AA-Briefcaseはその「散らかった現実」を初めて正面から評価した点に意義があります。

つまり「ベンチマークでは高得点なのに、自社の業務に入れると思ったほど動かない」というギャップの正体を、定量的に可視化した格好です。

失敗パターンの質的変化

興味深いのは、モデルの実力に応じて「失敗の質」が変わることです。弱いモデルは関連ファイルを見落としたり、使い物にならない成果物を出します。一方で強いモデルは表面的な要件は満たすものの、複数ソースを突き合わせて初めて見えるディテールを取りこぼします。後者は人間のレビューでも気付きにくく、むしろ厄介です。

コスト差は800倍以上

価格面の落差も極端で、1タスクあたりのコストはDeepSeek V4 Flashの約0.04ドルから、Claude Fable 5の31ドル超まで800倍以上開いています。「最高性能でも3%」という現実と組み合わせると、どのモデルにいくら払うかの判断は急に難しくなります。

💼 事業会社視点：これは自社にどう効くか

日本企業が「社内Slackやメールを丸ごとAIに渡せば、調査・要約・資料作成が自動化できる」と期待してPoCを走らせると、AA-Briefcaseが示す壁にそのまま突き当たります。最上位モデルでも完遂率3%、しかも失敗の多くは「もっともらしいが詰めが甘い成果物」です。

受託開発・SIerが顧客にAIエージェント基盤を売る局面では、Claude Fable 5級を前提にしたタスク単価31ドル超の試算が、案件採算を直撃します。逆にECやSaaS事業者の社内利用では、「一発で完遂させる」設計をやめ、人間のレビューを前提にDeepSeek V4 Flashなど安価モデルで広く回す方が合理的なケースが増えます。

役員・事業責任者が今すぐ問うべきは2つ。第一に、自社の「AIに任せたい業務」が91タスクのどの難度帯にあたるのか。第二に、完遂率と単価の積で見たときに、その業務はAI化でROIが立つのか。「最新モデル導入」より「タスク分解と人間のレビュー設計」に投資判断を寄せるべき局面です。

よくある質問

AA-Briefcaseは従来のベンチマークと何が違うのですか?

Slackスレッド、メール、会議の文字起こし、大規模なデータエクスポートなど、数千の断片的なソースファイルを束ねた「数週間規模のプロジェクト」をAIに解かせる点が特徴です。整理された設問に対する単発回答ではなく、散らかった実務環境での遂行能力を測ります。

高性能モデルと低価格モデル、どちらを選ぶべきですか?

AA-Briefcaseの結果では、Claude Fable 5が最高性能ながら1タスク31ドル超、DeepSeek V4 Flashは約0.04ドルと800倍以上の差があります。完遂率は最上位でも3%にとどまるため、どちらにせよ人間レビューが前提となり、業務の難度と量に応じて使い分ける設計が現実的です。

強いモデルでも失敗するのはどういうケースですか?

Artificial Analysisによると、強いモデルは表面的な要件は満たす一方、複数ソースを突き合わせて初めて見えるディテールを取りこぼす傾向があります。一見もっともらしい成果物が出るため、人間のレビューでも見落とされやすい点が課題です。

本記事は The Decoder の報道を元に、事実に基づき独自に再構成したものです。

AA-Briefcaseとは？AIが現実の知識労働で「3%しか完遂できない」現実

何が起きたか

なぜ重要か

失敗パターンの質的変化

コスト差は800倍以上

💼 事業会社視点：これは自社にどう効くか

関連リンク

よくある質問

関連記事

FrontierMathとは？Claude Fable 5がGPT-5.5を13ポイント差で抜いた意味を解説

AIバブル崩壊はドットコムより深刻か？NYU教授ダモダラン氏が指摘する「債務」と「規模の経済の弱さ」

Claude Fable 5の輸出規制とは？米政府がジェイルブレイク懸念で凍結、Anthropicとの攻防を解説