SWE-Exploreとは？AIコーディングエージェントが「ファイルは当てるが行を外す」弱点を可視化する新ベンチマーク

上海交通大学らが公開した新ベンチマーク「SWE-Explore」で、Claude CodeやCodexなど主要AIコーディングエージェントの行レベルのコード特定率がわずか14〜19%にとどまることが判明しました。ファイル特定は得意でも、修正すべき該当行をピンポイントで読めていないという構造的な弱点が浮き彫りになっています。

SWE-Exploreが測るのは「修正」ではなく「探索」

SWE-Exploreは、AIコーディングエージェントの第1段階である「コード検索・特定（ローカリゼーション）」工程だけを切り出して評価する新ベンチマークです。従来のSWE-bench系ベンチマークは最終的な修正成功率しか測らず、エージェントが本当に関連コードを読めていたのかは見えませんでした。SWE-Exploreはバグ記述とプロジェクトを与え、エージェントが返す「関連コード箇所のランク付きリスト」を評価します。

データセットは203のオープンソースプロジェクトから集めた848問、10言語にわたり、うち547問がPythonです。正解は手作業で定義するのではなく、強力なモデルによる成功した解決過程の読み取り痕跡から導出され、複数の独立した解法が共通して参照した箇所が「有用な文脈」として認定されます。

ファイルは当たる、行は外す

結果は明確です。ファイル単位では各エージェントとも適切なソースファイルを早期に上位ランクへ持ち込めるのに対し、行単位では一般的なコーディングエージェントが本当に必要な行を14〜19%しかカバーできていません。Claude Code、Codex、OpenHands、Mini-SWE-Agent、AweAgentはほぼ同じスコアで横並びとなり、GPT-5.4やGemini 3 Pro、Claude Sonnet 4.6、Kimi K2.6など6モデルを試してもこの傾向は変わりません。モデルを強くしても解消しない構造的な問題だということです。

キーワード検索はバグ記述の語がテンプレートやドキュメントに偏在するため、ほぼ偶然と変わらない精度しか出ません。エージェントが優位なのは、全件を一気にソートするのではなくプロジェクトを段階的に探索するためです。

「核となる領域」の50〜75%が境界線

アブレーション実験では、修正モデルに核となる領域の0、25、50、75、100%だけを見せる条件が比較されました。成功率は段階的に伸びるのではなく、50〜75%の被覆率の間で急激に跳ね上がります。修正には「最低限の手がかり量」が必要で、それを下回るとほぼ通らないということです。一方、必要な箇所さえ含まれていれば余計なコードが混ざっても害は小さい。研究チームの結論は「Filter less, read more（絞り込みすぎず、もっと読め）」です。CoSILのようにコードを相互接続されたネットワークとして走査するシステムは、行レベルでも大きく上回るスコアを記録しています。

💼 事業会社視点：これは自社にどう効くか

この結果は、AIコーディング導入を進める日本の事業会社にとって、ROI設計の前提を見直す材料です。第一に、受託開発・SIerやSaaSのプロダクト組織が「Claude CodeやCodexを入れれば工数が何割削れる」と試算している場合、行レベルで14〜19%しか当たらないという事実は、自動修正よりも「該当箇所探索の人間レビュー」をどう残すかが歩留まりを決めることを意味します。エンジニアの工数削減目標は、修正生成ではなく「読むべき箇所の特定」に再配分すべきです。

第二に、レガシーコードを多く抱える金融・製造業の内製化部門では、CoSILのようにコード全体をグラフ構造として扱う探索手法が今後の差を生みます。短期的にはRAGや静的解析と組み合わせた「文脈供給パイプライン」の内製が、エージェント単体導入より費用対効果が高い領域が広がるでしょう。

第三に、METRの「半分は機能的欠陥で却下」という指摘と合わせれば、PoCの評価指標を「PR通過率」ではなく「人間レビュー後の採用率」に置き直す必要があります。経営者は今、ベンダーの修正率KPIを鵜呑みにせず、ローカリゼーション精度を別建てで問うべき局面にあります。

よくある質問

SWE-bench系のベンチマークとは何が違うのですか？

約2年前に登場したSWE-benchは修正の成否を測りますが、関連コードを実際に読めていたかは分かりません。SWE-Exploreは修正前の探索工程のみを切り出し、エージェントが返した関連コード候補のランクを正解と突き合わせます。

より強力なLLMに置き換えれば行レベルの精度は改善しますか？

GPT-5.4、Gemini 3 Pro、Claude Sonnet 4.6、Kimi K2.6を含む6モデルで検証しても、ファイル特定率の高さに比べ行カバー率は一貫して低く、モデルの大型化だけでは解決しないと報告されています。

修正成功率を上げるには何を変えるべきですか？

アブレーション結果から、核となる領域の50〜75%を境に成功率が跳ね上がります。余計なコードが混ざる害より読み不足の害が大きく、CoSILのようにコードをネットワークとして走査する手法や文脈供給の強化が有効とされています。

本記事は The Decoder の報道を元に、事実に基づき独自に再構成したものです。

SWE-Exploreとは？AIコーディングエージェントが「ファイルは当てるが行を外す」弱点を可視化する新ベンチマーク

SWE-Exploreが測るのは「修正」ではなく「探索」

ファイルは当たる、行は外す

「核となる領域」の50〜75%が境界線

💼 事業会社視点：これは自社にどう効くか

関連リンク

よくある質問

関連記事

SWE-Bench Proの3割が壊れている──OpenAIの検証が突きつける「AIコーディング評価」の限界

Bunの言語書き換え（Zig→Rust）はなぜAIエージェントで成立したか──100万行超をClaude Codeが移植した事例を読む

MetaがClaude Code・Codexの社内利用を制限──「蒸留」リスクとMetaCode内製化の本音