AIが自らの後継モデルを作る日は2028年末か——Import Aiが示すR&D自動化のロードマップ

Import AI 455は、人間が関与しないAIによるエンドツーエンドの研究開発が2028年末までに実現する確率を60%超と見積もりました。SWE-Benchの93.9%到達、CORE-Benchの「攻略宣言」、カーネル設計やポストトレーニング自動化の進展を根拠としています。

何が示されたか

Import AI 455は、AIが自らの後継モデルを自律的に構築する「人間不在のAI R&D」が2028年末までに実現する確率を60%以上と見積もる論考を掲載しました。著者は2026年中の実現は見込まないものの、1〜2年内にフロンティア未満のモデル段階で「モデルが後継を端から端まで訓練する」概念実証が現れると予想しています。arXiv、bioRxiv、NBERなどの公開情報とフロンティア各社の製品動向を根拠としています。

根拠となるベンチマークの進展

複数の指標が急角度で立ち上がっています。コード生成のSWE-Benchは2023年末の登場時にClaude 2が約2%でしたが、Claude Mythos Previewは93.9%に到達し事実上飽和しました。研究再現性を測るCORE-Benchは2024年9月にGPT-4oが約21.5%だった最難関タスクで、2025年12月にOpus 4.5が95.5%を記録し、著者の一人が「解かれた」と宣言しています。OpenAIのMLE-Benchは2024年10月の登場時にo1ベースのスコアが16.9%でしたが、2026年2月時点でGemini3が64.4%まで伸ばしました。

METRが追う「50%の確率で完遂できるタスク時間」も2022年のGPT 3.5の約30秒から、2025年のGPT 5.2(High)で約6時間、2026年のOpus 4.6で約12時間にまで拡大。METRのAjeya Cotra氏は2026年末に約100時間規模も非現実的ではないとしています。

カーネルとポストトレーニングの自動化

訓練・推論効率を決めるGPUカーネル設計では、DeepSeekモデルによる生成、PyTorchからCUDAへの自動変換、MetaのTritonカーネル最適化、HuaweiのAscendCraftなどの研究が進みます。報酬が検証可能なため、AI主導R&Dとの相性が良い領域です。Anthropicの内部タスクではClaude Opus 4が2025年5月にCPU専用言語モデル訓練の最適化で平均2.9倍の高速化を実現しました。

さらにPostTrainBenchは、フロンティアモデルがQwen 3やGemma 3 4Bなど小型オープン重みモデルをどれだけ巧みにファインチューニングできるかを測定します。2026年3月時点では人間調整の約半分の上振れにとどまり、4月時点の首位Opus 4.6とGPT 5.4でも25〜28%(人間51%)に留まります。ここがR&D完全自動化の最後のボトルネックです。

💼 事業会社視点：これは自社にどう効くか

事業会社の経営者は「AIが自社のAIを作る」が2028年末という近距離の予測になった意味を直視すべきです。受託開発・SIerは、SWE-Benchが2年で2%から93.9%に伸びた事実から逆算し、「人月で売る一次コーディング」の収益モデルは2027年までに崩れる前提で価格と人員配置を組み直す局面です。要件定義・業務ドメイン理解・責任引受といったAIが代替しにくい層に粗利を再配分しないと、単価下落に飲まれます。

国内SaaSベンダーや事業会社のAI推進部門は、ポストトレーニングの自動化スコアが人間の半分まで来ている点に注目すべきです。自社データでの追加学習やドメイン特化チューニングは、近い将来「人手で属人的に作り込む工程」から「CLIエージェントに指示して回す工程」に置き換わります。今のうちに評価データセットと再現可能な学習パイプラインを整備した企業だけが、自動化の恩恵をそのまま競争力に変換できます。

ECや小売の役員にとっては、12時間連続で自律稼働できるエージェントの登場が現場改革の前提条件になります。マーチャンダイジング、需要予測、CS応答の「半日分の意思決定」をエージェントに渡せる設計を、システム側ではなく業務プロセス側で先に作っておくべきです。

よくある質問

「AIが自分の後継モデルを作る」とは具体的に何を指しますか?

AIシステムが人間の関与なしに、自らよりも能力の高い次世代モデルを自律的に構築するエンドツーエンドのAI R&Dを指します。Import AI 455は2028年末までに60%超の確率で実現すると推定しています。

なぜカーネル設計がAI R&D自動化で特に有望なのですか?

GPUカーネルは訓練・推論の効率を直接決める一方、性能が数値で容易に検証できるため報酬設計がしやすく、AI主導の最適化と相性が良いためです。Claude Opus 4はCPU訓練最適化で平均2.9倍の高速化を達成しています。

AIによるファインチューニング自動化はどこまで進んでいますか?

PostTrainBenchの2026年4月時点ではOpus 4.6とGPT 5.4が25〜28%で、人間の51%の約半分の上振れにとどまります。研究自動化全体の中で最後のボトルネックとされています。

本記事は Import AI の報道を元に、事実に基づき独自に再構成したものです。

AIが自らの後継モデルを作る日は2028年末か——Import Aiが示すR&D自動化のロードマップ

何が示されたか

根拠となるベンチマークの進展

カーネルとポストトレーニングの自動化

💼 事業会社視点：これは自社にどう効くか

関連リンク

よくある質問

関連記事

AIの値段は「モデルの賢さ」では決まらなくなった──今日の四つの異変から読む潮目

UC Berkeley、AIエージェント評価の新ベンチマーク「ALE」を公開。GPT-5.5が首位24.0%、Claude Fable 5は3位

AIドローンが人間チャンピオンを撃破、Anthropicは「自己改善」の兆候を報告──Import AI 460が示すAIの転換点