SWE-Exploreとは?AIコーディングエージェントが「ファイルは当てるが行を外す」弱点を可視化する新ベンチマーク
上海交通大学らが公開した新ベンチマーク「SWE-Explore」で、Claude CodeやCodexなど主要AIコーディングエージェントの行レベルのコード特定率がわずか14〜19%にとどまることが判明しました。ファイル特定は得意でも、修正すべき該当行をピンポイントで読めていないという構造的な弱点が浮き彫りになっています。
上海交通大学らが公開した新ベンチマーク「SWE-Explore」で、Claude CodeやCodexなど主要AIコーディングエージェントの行レベルのコード特定率がわずか14〜19%にとどまることが判明しました。ファイル特定は得意でも、修正すべき該当行をピンポイントで読めていないという構造的な弱点が浮き彫りになっています。
OpenAIは2026年6月12日、コーディングエージェントCodexのレート制限リセット方式を変更し、Go・Plus・Pro・Business全プランのユーザーに1回分の無料リセット権を付与する「バンク制」を導入した。CEOのSam Altmanがコスト問題を深刻な課題と認める中、Anthropicとの顧客争奪を見据えた動きとも重なる。
OpenAIは、ドイツ・キール発のスタートアップOna(旧Gitpod)の買収を発表した。Codexがユーザーのノートパソコンを閉じた状態でも数時間から数日にわたりタスクを継続できる自律型環境の構築が目的で、規制当局の承認を前提に手続きが進む。
OpenAIはCodexの開発者であるThibault Sottiaux氏をコア製品責任者に任命し、週間アクティブユーザー約10億人を抱えるChatGPTを個人・業務用の「スーパーアプリ」へ刷新する計画を進めている。数週間以内にCodexをChatGPTへ統合し、汎用AIエージェントとして一般ユーザーに開放する予定だ。