#AIベンチマークの記事一覧（8）

2026-07-30 ・ The Decoder

ARC-AGI-3のスコア論争とは？GPT-5.6 Solが38.3%と7.8%に分かれた「ハーネス」問題を解説

OpenAIは自社のResponses APIで「Retained Reasoning」と「Compaction」の2設定を使い、GPT-5.6 SolがARC-AGI-3で38.3%を記録しClaude Opus 5の30.2%を上回ったと主張しました。同じモデルがARC Prize公式の実行環境では7.8%にとどまっており、ARC Prize共同創業者のFrançois Chollet氏は「設定とコストを明示するなら汎用APIの設定は容認する」と応じています。

#ARC-AGI-3 #GPT-5.6 Sol #Claude Opus 5 #OpenAI

2026-07-26 ・ The Decoder

ARC-AGI-3とは？Claude Opus 5が30.2%で新記録、その中身を検証

AnthropicのClaude Opus 5が、未知タスクの推論を測るARC-AGI-3で30.2%を記録し、従来トップだったOpenAIのGPT-5.6 Sol(Max)の7.8%を大きく更新しました。ただし独立系ベンチマークWitnessでは伸びが小さく、ベンチマーク特化学習の可能性も指摘されています。

#Claude Opus 5 #ARC-AGI-3 #Anthropic #AIベンチマーク

2026-07-25 ・ The Decoder

Claude Opus 5とは？ベンチマークでFable 5を上回り「より安い」最上位AIの実力を解説

AnthropicのClaude Opus 5が、Artificial Analysis Intelligence Indexで61点を記録しFable 5(60)やGPT-5.6 Sol(59)を上回りながら、1タスク平均$2.03とFable 5($2.75)より安いと複数の評価機関が報告しました。ただし推論の最上位より「high」設定が実用では有利という逆転現象も明らかになっています。

#Claude Opus 5 #Anthropic #AIベンチマーク #Claude Code

2026-06-19 ・ The Decoder

AA-Briefcaseとは？AIが現実の知識労働で「3%しか完遂できない」現実

Artificial Analysisの新ベンチマーク「AA-Briefcase」で、最上位のClaude Fable 5でも全基準を満たして完遂できたのは全タスクのわずか3%。SlackやメールなどバラバラのファイルからAIが多週間の業務を遂行できるかを測ると、現行モデルの限界が一気に露呈しました。

#AA-Briefcase #Artificial Analysis #Claude Fable 5 #AIベンチマーク

2026-06-16 ・ The Decoder

AIモデルのロシア・プロパガンダ耐性ランキング、ClaudeがトップでMistralは下位3分の1に

エストニア言語研究所が公開したベンチマークで、AnthropicのClaudeシリーズが偽情報への耐性で首位を獲得し、欧州の旗手Mistralの最新Medium 3.5を含むモデル群が下位3分の1に沈みました。評価対象は60モデル、3言語75問、14のプロパガンダ・ナラティブです。

#Anthropic #Claude #Mistral #プロパガンダ対策

2026-06-13 ・ The Decoder

FrontierMathとは？Claude Fable 5がGPT-5.5を13ポイント差で抜いた意味を解説

AnthropicのClaude Fable 5が、最難関とされる数学ベンチマーク「FrontierMath」のティア4(v2)で88%を記録し、約75%のOpenAI GPT-5.5を13ポイント上回りました。半年前まで10%未満だった同系統モデルからの跳躍であり、AIの「研究レベルの数学推論」が実用射程に入りつつあることを示しています。

#Claude Fable 5 #FrontierMath #Anthropic #GPT-5.5