何が示されたか
Import AI 455は、AIが自らの後継モデルを自律的に構築する「人間不在のAI R&D」が2028年末までに実現する確率を60%以上と見積もる論考を掲載しました。著者は2026年中の実現は見込まないものの、1〜2年内にフロンティア未満のモデル段階で「モデルが後継を端から端まで訓練する」概念実証が現れると予想しています。arXiv、bioRxiv、NBERなどの公開情報とフロンティア各社の製品動向を根拠としています。
根拠となるベンチマークの進展
複数の指標が急角度で立ち上がっています。コード生成のSWE-Benchは2023年末の登場時にClaude 2が約2%でしたが、Claude Mythos Previewは93.9%に到達し事実上飽和しました。研究再現性を測るCORE-Benchは2024年9月にGPT-4oが約21.5%だった最難関タスクで、2025年12月にOpus 4.5が95.5%を記録し、著者の一人が「解かれた」と宣言しています。OpenAIのMLE-Benchは2024年10月の登場時にo1ベースのスコアが16.9%でしたが、2026年2月時点でGemini3が64.4%まで伸ばしました。
METRが追う「50%の確率で完遂できるタスク時間」も2022年のGPT 3.5の約30秒から、2025年のGPT 5.2(High)で約6時間、2026年のOpus 4.6で約12時間にまで拡大。METRのAjeya Cotra氏は2026年末に約100時間規模も非現実的ではないとしています。
カーネルとポストトレーニングの自動化
訓練・推論効率を決めるGPUカーネル設計では、DeepSeekモデルによる生成、PyTorchからCUDAへの自動変換、MetaのTritonカーネル最適化、HuaweiのAscendCraftなどの研究が進みます。報酬が検証可能なため、AI主導R&Dとの相性が良い領域です。Anthropicの内部タスクではClaude Opus 4が2025年5月にCPU専用言語モデル訓練の最適化で平均2.9倍の高速化を実現しました。
さらにPostTrainBenchは、フロンティアモデルがQwen 3やGemma 3 4Bなど小型オープン重みモデルをどれだけ巧みにファインチューニングできるかを測定します。2026年3月時点では人間調整の約半分の上振れにとどまり、4月時点の首位Opus 4.6とGPT 5.4でも25〜28%(人間51%)に留まります。ここがR&D完全自動化の最後のボトルネックです。
💼 事業会社視点:これは自社にどう効くか
事業会社の経営者は「AIが自社のAIを作る」が2028年末という近距離の予測になった意味を直視すべきです。受託開発・SIerは、SWE-Benchが2年で2%から93.9%に伸びた事実から逆算し、「人月で売る一次コーディング」の収益モデルは2027年までに崩れる前提で価格と人員配置を組み直す局面です。要件定義・業務ドメイン理解・責任引受といったAIが代替しにくい層に粗利を再配分しないと、単価下落に飲まれます。
国内SaaSベンダーや事業会社のAI推進部門は、ポストトレーニングの自動化スコアが人間の半分まで来ている点に注目すべきです。自社データでの追加学習やドメイン特化チューニングは、近い将来「人手で属人的に作り込む工程」から「CLIエージェントに指示して回す工程」に置き換わります。今のうちに評価データセットと再現可能な学習パイプラインを整備した企業だけが、自動化の恩恵をそのまま競争力に変換できます。
ECや小売の役員にとっては、12時間連続で自律稼働できるエージェントの登場が現場改革の前提条件になります。マーチャンダイジング、需要予測、CS応答の「半日分の意思決定」をエージェントに渡せる設計を、システム側ではなく業務プロセス側で先に作っておくべきです。