DeLMとは?Stanfordが示す「中央司令官なし」マルチエージェントの仕組みとコスト半減の根拠
Stanfordの研究チームが、中央オーケストレータを置かずにAIエージェント同士を直接連携させる新フレームワーク「DeLM(decentralized language model)」を発表。SWE-bench Verifiedで最強ベースラインを10.5%上回り、タスクあたりコストを約50%削減したと報告しています。
Stanfordの研究チームが、中央オーケストレータを置かずにAIエージェント同士を直接連携させる新フレームワーク「DeLM(decentralized language model)」を発表。SWE-bench Verifiedで最強ベースラインを10.5%上回り、タスクあたりコストを約50%削減したと報告しています。
上海交通大学らが公開した新ベンチマーク「SWE-Explore」で、Claude CodeやCodexなど主要AIコーディングエージェントの行レベルのコード特定率がわずか14〜19%にとどまることが判明しました。ファイル特定は得意でも、修正すべき該当行をピンポイントで読めていないという構造的な弱点が浮き彫りになっています。
AnthropicがMythos級の公開モデル「Claude Fable 5」を投入。SWE-bench Verifiedで95%、Vibe Code Benchで90.35%とコーディング系で首位に立つ一方、月2万ドル級のコスト、約8〜9%のタスクで発生する拒否・フォールバック、30日間のデータ保持ポリシーが事業利用の論点となっています。
Anthropicは最上位クラス「Mythos」級AIを広く解放する新モデル、Claude Fable 5とMythos 5を発表しました。SWE-bench Proで80.3%とGPT-5.5(58.6%)を大きく上回り、Stripeでは5,000万行のRubyコード移行を1日で完了したと報告されています。