何が起きたか

AI評価機関のArtificial Analysisが、知識労働の実態に近づけた新ベンチマーク「AA-Briefcase」の結果を公開しました。Slackスレッド、メール、会議の文字起こし、大規模なデータエクスポートなど、数千の断片的なファイルを束ねた「数週間がかりのプロジェクト」をAIに解かせるテストです。

結果は衝撃的で、最上位のClaude Fable 5(Anthropic)ですら、ルーブリックの全項目を満たして「完遂」できたのは91タスク中3%にとどまりました。さらに91タスク中31タスクでは、どのモデルも50%の達成率に届きませんでした。

なぜ重要か

これまでのベンチマークは、整理された問題セットに対する単発の回答精度を測るものが中心でした。しかし実務では、情報は散らばり、要件は曖昧で、答えは複数ソースの突き合わせから初めて見える――AA-Briefcaseはその「散らかった現実」を初めて正面から評価した点に意義があります。

つまり「ベンチマークでは高得点なのに、自社の業務に入れると思ったほど動かない」というギャップの正体を、定量的に可視化した格好です。

失敗パターンの質的変化

興味深いのは、モデルの実力に応じて「失敗の質」が変わることです。弱いモデルは関連ファイルを見落としたり、使い物にならない成果物を出します。一方で強いモデルは表面的な要件は満たすものの、複数ソースを突き合わせて初めて見えるディテールを取りこぼします。後者は人間のレビューでも気付きにくく、むしろ厄介です。

コスト差は800倍以上

価格面の落差も極端で、1タスクあたりのコストはDeepSeek V4 Flashの約0.04ドルから、Claude Fable 5の31ドル超まで800倍以上開いています。「最高性能でも3%」という現実と組み合わせると、どのモデルにいくら払うかの判断は急に難しくなります。

💼 事業会社視点:これは自社にどう効くか

日本企業が「社内Slackやメールを丸ごとAIに渡せば、調査・要約・資料作成が自動化できる」と期待してPoCを走らせると、AA-Briefcaseが示す壁にそのまま突き当たります。最上位モデルでも完遂率3%、しかも失敗の多くは「もっともらしいが詰めが甘い成果物」です。

受託開発・SIerが顧客にAIエージェント基盤を売る局面では、Claude Fable 5級を前提にしたタスク単価31ドル超の試算が、案件採算を直撃します。逆にECやSaaS事業者の社内利用では、「一発で完遂させる」設計をやめ、人間のレビューを前提にDeepSeek V4 Flashなど安価モデルで広く回す方が合理的なケースが増えます。

役員・事業責任者が今すぐ問うべきは2つ。第一に、自社の「AIに任せたい業務」が91タスクのどの難度帯にあたるのか。第二に、完遂率と単価の積で見たときに、その業務はAI化でROIが立つのか。「最新モデル導入」より「タスク分解と人間のレビュー設計」に投資判断を寄せるべき局面です。

関連リンク