#GPT-5.5 の記事一覧(3)

FrontierMathとは?Claude Fable 5がGPT-5.5を13ポイント差で抜いた意味を解説
2026-06-13 ・ The Decoder

FrontierMathとは?Claude Fable 5がGPT-5.5を13ポイント差で抜いた意味を解説

AnthropicのClaude Fable 5が、最難関とされる数学ベンチマーク「FrontierMath」のティア4(v2)で88%を記録し、約75%のOpenAI GPT-5.5を13ポイント上回りました。半年前まで10%未満だった同系統モデルからの跳躍であり、AIの「研究レベルの数学推論」が実用射程に入りつつあることを示しています。

UC Berkeley、AIエージェント評価の新ベンチマーク「ALE」を公開。GPT-5.5が首位24.0%、Claude Fable 5は3位
2026-06-10 ・ VentureBeat

UC Berkeley、AIエージェント評価の新ベンチマーク「ALE」を公開。GPT-5.5が首位24.0%、Claude Fable 5は3位

UC BerkeleyのRDIが、AIエージェントの長期的な専門業務遂行能力を測る新ベンチマーク「Agents' Last Exam (ALE)」を公開し、Codex経由のOpenAI GPT-5.5が24.0%の合格率で首位に立ちました。前日公開されたAnthropicのClaude Fable 5は22.0%で3位、最難関「Last-Exam」階層では多くのモデルが0.0%という結果になりました。

← タグ一覧へ