#GPT-5.5 の記事一覧（3）

2026-06-13 ・ The Decoder

SkillOptとは?MicrosoftがMarkdown1枚でGPT-5.5を23点底上げした「スキル訓練」を解説

MicrosoftらがGPT-5.5を凍結したまま、Markdownの指示書(スキル)を訓練するSkillOptを発表しました。6ベンチマーク平均でGPT-5.5を約23ポイント押し上げ、生成されるドキュメントはわずか300〜2,000トークンに収まります。

#SkillOpt #Microsoft #GPT-5.5 #Claude Code

2026-06-13 ・ The Decoder

FrontierMathとは？Claude Fable 5がGPT-5.5を13ポイント差で抜いた意味を解説

AnthropicのClaude Fable 5が、最難関とされる数学ベンチマーク「FrontierMath」のティア4(v2)で88%を記録し、約75%のOpenAI GPT-5.5を13ポイント上回りました。半年前まで10%未満だった同系統モデルからの跳躍であり、AIの「研究レベルの数学推論」が実用射程に入りつつあることを示しています。

#Claude Fable 5 #FrontierMath #Anthropic #GPT-5.5

2026-06-10 ・ VentureBeat

UC Berkeley、AIエージェント評価の新ベンチマーク「ALE」を公開。GPT-5.5が首位24.0%、Claude Fable 5は3位

UC BerkeleyのRDIが、AIエージェントの長期的な専門業務遂行能力を測る新ベンチマーク「Agents' Last Exam (ALE)」を公開し、Codex経由のOpenAI GPT-5.5が24.0%の合格率で首位に立ちました。前日公開されたAnthropicのClaude Fable 5は22.0%で3位、最難関「Last-Exam」階層では多くのモデルが0.0%という結果になりました。

#AIエージェント #ベンチマーク #UC Berkeley #OpenAI

← タグ一覧へ