#SWE-bench の記事一覧(4)

DeLMとは?Stanfordが示す「中央司令官なし」マルチエージェントの仕組みとコスト半減の根拠
2026-06-16 ・ VentureBeat

DeLMとは?Stanfordが示す「中央司令官なし」マルチエージェントの仕組みとコスト半減の根拠

Stanfordの研究チームが、中央オーケストレータを置かずにAIエージェント同士を直接連携させる新フレームワーク「DeLM(decentralized language model)」を発表。SWE-bench Verifiedで最強ベースラインを10.5%上回り、タスクあたりコストを約50%削減したと報告しています。

SWE-Exploreとは?AIコーディングエージェントが「ファイルは当てるが行を外す」弱点を可視化する新ベンチマーク
2026-06-14 ・ The Decoder

SWE-Exploreとは?AIコーディングエージェントが「ファイルは当てるが行を外す」弱点を可視化する新ベンチマーク

上海交通大学らが公開した新ベンチマーク「SWE-Explore」で、Claude CodeやCodexなど主要AIコーディングエージェントの行レベルのコード特定率がわずか14〜19%にとどまることが判明しました。ファイル特定は得意でも、修正すべき該当行をピンポイントで読めていないという構造的な弱点が浮き彫りになっています。

Claude Fable 5とは?Anthropic最大級モデルの性能・価格・データ保持リスクを解説
2026-06-10 ・ The Decoder

Claude Fable 5とは?Anthropic最大級モデルの性能・価格・データ保持リスクを解説

AnthropicがMythos級の公開モデル「Claude Fable 5」を投入。SWE-bench Verifiedで95%、Vibe Code Benchで90.35%とコーディング系で首位に立つ一方、月2万ドル級のコスト、約8〜9%のタスクで発生する拒否・フォールバック、30日間のデータ保持ポリシーが事業利用の論点となっています。

← タグ一覧へ