AA-Briefcaseとは?AIが現実の知識労働で「3%しか完遂できない」現実
Artificial Analysisの新ベンチマーク「AA-Briefcase」で、最上位のClaude Fable 5でも全基準を満たして完遂できたのは全タスクのわずか3%。SlackやメールなどバラバラのファイルからAIが多週間の業務を遂行できるかを測ると、現行モデルの限界が一気に露呈しました。
Artificial Analysisの新ベンチマーク「AA-Briefcase」で、最上位のClaude Fable 5でも全基準を満たして完遂できたのは全タスクのわずか3%。SlackやメールなどバラバラのファイルからAIが多週間の業務を遂行できるかを測ると、現行モデルの限界が一気に露呈しました。