SkillOptとは?MicrosoftがMarkdown1枚でGPT-5.5を23点底上げした「スキル訓練」を解説
MicrosoftらがGPT-5.5を凍結したまま、Markdownの指示書(スキル)を訓練するSkillOptを発表しました。6ベンチマーク平均でGPT-5.5を約23ポイント押し上げ、生成されるドキュメントはわずか300〜2,000トークンに収まります。
MicrosoftらがGPT-5.5を凍結したまま、Markdownの指示書(スキル)を訓練するSkillOptを発表しました。6ベンチマーク平均でGPT-5.5を約23ポイント押し上げ、生成されるドキュメントはわずか300〜2,000トークンに収まります。
AnthropicのClaude Fable 5が、最難関とされる数学ベンチマーク「FrontierMath」のティア4(v2)で88%を記録し、約75%のOpenAI GPT-5.5を13ポイント上回りました。半年前まで10%未満だった同系統モデルからの跳躍であり、AIの「研究レベルの数学推論」が実用射程に入りつつあることを示しています。
UC BerkeleyのRDIが、AIエージェントの長期的な専門業務遂行能力を測る新ベンチマーク「Agents' Last Exam (ALE)」を公開し、Codex経由のOpenAI GPT-5.5が24.0%の合格率で首位に立ちました。前日公開されたAnthropicのClaude Fable 5は22.0%で3位、最難関「Last-Exam」階層では多くのモデルが0.0%という結果になりました。