AIドローンは完全自律で人間王者を破ったのですか?

機体上ではなく外部PCから無線経由で制御されていました。研究チームも電子戦が想定される実戦環境では制約になると明記しています。

Anthropicが言う「再帰的自己改善」はもう起きているのですか?

極大型RSI(AIが自律的に後継モデルを設計する状態)はまだ観測されていません。社内コードマージ量の8倍増という「予兆」段階で、著者は2028年末までの発生確率を60%と推定しているに留まります。

中国国家メディアの影響は中国語モデルだけの問題ですか?

研究では37の単一言語圏国家を横断で分析し、国家統制が強い国ほどその言語で問い合わせたLLMが現政権を好意的に描く傾向を確認しています。中国語に限らず構造的な現象です。

AIドローンが人間チャンピオンを撃破、Anthropicは「自己改善」の兆候を報告──Import AI 460が示すAIの転換点

チューリッヒ大とGoogle DeepMindのRL学習ドローンが時速80km超でスイス王者マルヴィン・シェッパー氏を破り、Anthropicは2026年のコードマージ量が過去比8倍に達し再帰的自己改善(RSI)の予兆を観測しました。Import AI第460号は、AIが「人間の専門技能」と「自身の開発工程」の双方を侵食し始めた局面を切り取っています。

RL学習ドローンが世界王者を破った

チューリッヒ大学とGoogle DeepMindの研究チームは、強化学習(PPO)とPerceiverエンコーダ、競争的セルフプレイで訓練したクアッドコプターを、5度のスイス王者マルヴィン・シェッパー氏と対戦させました。1対1で5回中5回完走(100%)を達成し、人間側の完走率は平均53.33%。秒速22メートル超で飛びながら、衝突率は従来の単一エージェント手法から50%削減されました。

注目すべきは学習コストです。NVIDIA RTX 4090一枚で約27時間、5,500イテレーション・2億ステップで完了しています。シミュレータFlightmareとAgiliciousを統合し、Stable-Baselines3をリーグ式セルフプレイ向けに拡張。ドメインランダム化でsim-to-real転移を実現しました。ただし機体は外部PCから無線操縦されており、電子戦下での運用には課題が残ります。

Anthropicが報告する「再帰的自己改善」の予兆

Anthropicは、自社コードベースへのマージ量が2026年に2021〜2024年比で8倍に増加し、加速が続いていると報告。著者は2028年末までに「AIが後継モデルを自律設計する」極大型RSIが起きる確率を60%と見積もります。一方で、研究者の難問を解く能力は伸びているが、パラダイム転換級の創造性はまだ観測されていない、とも釘を刺しています。

国家メディアがLLMの「意見」を作る

Nature掲載の研究(オレゴン大、パデュー大、UCSD、プリンストン大、NYU)は、CulturaXに含まれる中国語文書の1.64%が国家由来データセットと重複し、これは中国語Wikipediaの約41倍、Baiduの16倍に達すると指摘。学習アプリ「学習強国」(アリババがCCP宣伝部と連携して開発)由来の文書も198,872件含まれます。LLaMa 2 13Bに6,400件のスクリプト記事を追加学習させただけで、ベースモデルより約80%の頻度で当局に好意的な応答を返すようになりました。37の単一言語圏国家を横断調査しても、国家統制が強い国ほどLLMが現政権を肯定的に描く傾向が確認されています。

「制度のDDoS」というもう一つの懸念

社会制度はルールベースの報酬系として記述できるため、報酬ハッキングに長けたAIは「技術的には合法、制度趣旨には反する」隙間を学習する──そんなベンチマーク結果も紹介されています。行政手続きや規制をAIが大量探索する「institutional DDoS」が現実味を帯びてきました。

💼 事業会社視点：これは自社にどう効くか

役員が今週決めるべき3つの論点

1. 受託開発・SIerは「人月」を捨てる準備を: Anthropicの8倍コードマージは、内製企業のコード生産関数が非連続に変化していることを示します。日本のSIerが従来通り「工数×単価」で見積もるほど、内製化したクライアントとの生産性差は開きます。RFPの単位を「機能完了・SLA」に切り替え、AI込みのチーム設計を提案できるかが2027年の受注を左右します。

2. 政府・自治体向けSaaS、ロビイング業務は「制度DDoS」前提の設計へ: パブコメ・規制対応APIを持つLegalTech/GovTechは、AI自動化された大量応答への耐性(本人確認・レート制限・意図解釈)が新たな価値軸になります。逆に、規制対応を売りにする事業会社は、自社の規制申請プロセスが「形式は満たすが意図を外す」AI生成物に侵食されるリスクを監査すべきです。

3. 中国語・多言語LLM活用のEC・メディアは「学習データ来歴」を契約条件に: 国家メディア由来データが1.64%混入し政権寄り回答を80%誘発する事実は、越境EC・インバウンド向け生成AIにとって地政学的レピュテーションリスクです。BtoB契約では、ベンダーに学習データソースの開示とフィルタリング保証を要求する条項を入れる時期に来ています。

AIドローンが人間チャンピオンを撃破、Anthropicは「自己改善」の兆候を報告──Import AI 460が示すAIの転換点

RL学習ドローンが世界王者を破った

Anthropicが報告する「再帰的自己改善」の予兆

国家メディアがLLMの「意見」を作る

「制度のDDoS」というもう一つの懸念

💼 事業会社視点：これは自社にどう効くか

役員が今週決めるべき3つの論点

関連リンク

よくある質問

AIドローンが人間チャンピオンを撃破、Anthropicは「自己改善」の兆候を報告──Import AI 460が示すAIの転換点

RL学習ドローンが世界王者を破った

Anthropicが報告する「再帰的自己改善」の予兆

国家メディアがLLMの「意見」を作る

「制度のDDoS」というもう一つの懸念

💼 事業会社視点：これは自社にどう効くか

役員が今週決めるべき3つの論点

関連リンク

よくある質問

関連記事

再帰的自己改善（RSI）は2年以内に来るのか？Anthropic共同創業者の警告と事業への含意

AIの「良い癖」は分野を越えて転移する——OpenAIが示したRL訓練の意外な副作用とは

AIが自らの後継モデルを作る日は2028年末か——Import Aiが示すR&D自動化のロードマップ