SWE-Exploreとは?AIコーディングエージェントが「ファイルは当てるが行を外す」弱点を可視化する新ベンチマーク
上海交通大学らが公開した新ベンチマーク「SWE-Explore」で、Claude CodeやCodexなど主要AIコーディングエージェントの行レベルのコード特定率がわずか14〜19%にとどまることが判明しました。ファイル特定は得意でも、修正すべき該当行をピンポイントで読めていないという構造的な弱点が浮き彫りになっています。
上海交通大学らが公開した新ベンチマーク「SWE-Explore」で、Claude CodeやCodexなど主要AIコーディングエージェントの行レベルのコード特定率がわずか14〜19%にとどまることが判明しました。ファイル特定は得意でも、修正すべき該当行をピンポイントで読めていないという構造的な弱点が浮き彫りになっています。