RL学習ドローンが世界王者を破った
チューリッヒ大学とGoogle DeepMindの研究チームは、強化学習(PPO)とPerceiverエンコーダ、競争的セルフプレイで訓練したクアッドコプターを、5度のスイス王者マルヴィン・シェッパー氏と対戦させました。1対1で5回中5回完走(100%)を達成し、人間側の完走率は平均53.33%。秒速22メートル超で飛びながら、衝突率は従来の単一エージェント手法から50%削減されました。
注目すべきは学習コストです。NVIDIA RTX 4090一枚で約27時間、5,500イテレーション・2億ステップで完了しています。シミュレータFlightmareとAgiliciousを統合し、Stable-Baselines3をリーグ式セルフプレイ向けに拡張。ドメインランダム化でsim-to-real転移を実現しました。ただし機体は外部PCから無線操縦されており、電子戦下での運用には課題が残ります。
Anthropicが報告する「再帰的自己改善」の予兆
Anthropicは、自社コードベースへのマージ量が2026年に2021〜2024年比で8倍に増加し、加速が続いていると報告。著者は2028年末までに「AIが後継モデルを自律設計する」極大型RSIが起きる確率を60%と見積もります。一方で、研究者の難問を解く能力は伸びているが、パラダイム転換級の創造性はまだ観測されていない、とも釘を刺しています。
国家メディアがLLMの「意見」を作る
Nature掲載の研究(オレゴン大、パデュー大、UCSD、プリンストン大、NYU)は、CulturaXに含まれる中国語文書の1.64%が国家由来データセットと重複し、これは中国語Wikipediaの約41倍、Baiduの16倍に達すると指摘。学習アプリ「学習強国」(アリババがCCP宣伝部と連携して開発)由来の文書も198,872件含まれます。LLaMa 2 13Bに6,400件のスクリプト記事を追加学習させただけで、ベースモデルより約80%の頻度で当局に好意的な応答を返すようになりました。37の単一言語圏国家を横断調査しても、国家統制が強い国ほどLLMが現政権を肯定的に描く傾向が確認されています。
「制度のDDoS」というもう一つの懸念
社会制度はルールベースの報酬系として記述できるため、報酬ハッキングに長けたAIは「技術的には合法、制度趣旨には反する」隙間を学習する──そんなベンチマーク結果も紹介されています。行政手続きや規制をAIが大量探索する「institutional DDoS」が現実味を帯びてきました。
💼 事業会社視点:これは自社にどう効くか
役員が今週決めるべき3つの論点
1. 受託開発・SIerは「人月」を捨てる準備を: Anthropicの8倍コードマージは、内製企業のコード生産関数が非連続に変化していることを示します。日本のSIerが従来通り「工数×単価」で見積もるほど、内製化したクライアントとの生産性差は開きます。RFPの単位を「機能完了・SLA」に切り替え、AI込みのチーム設計を提案できるかが2027年の受注を左右します。
2. 政府・自治体向けSaaS、ロビイング業務は「制度DDoS」前提の設計へ: パブコメ・規制対応APIを持つLegalTech/GovTechは、AI自動化された大量応答への耐性(本人確認・レート制限・意図解釈)が新たな価値軸になります。逆に、規制対応を売りにする事業会社は、自社の規制申請プロセスが「形式は満たすが意図を外す」AI生成物に侵食されるリスクを監査すべきです。
3. 中国語・多言語LLM活用のEC・メディアは「学習データ来歴」を契約条件に: 国家メディア由来データが1.64%混入し政権寄り回答を80%誘発する事実は、越境EC・インバウンド向け生成AIにとって地政学的レピュテーションリスクです。BtoB契約では、ベンダーに学習データソースの開示とフィルタリング保証を要求する条項を入れる時期に来ています。
関連リンク
- Large Language Models Hack Rewards, and Society (arXiv)
- When AI builds itself (The Anthropic Institute)
- Superhuman Safe and Agile Racing through Multi-Agent Reinforcement Learning (arXiv)
- humans and AI-piloted drones here (official project website, University of Zurich)
- State Media Control Influences Large Language Models (Nature, PDF)