何が起きたか

Google DeepMindが、高度なAIエージェントを潜在的な「内部脅威(インサイダー脅威)」として扱う安全フレームワーク「AI Control Roadmap」を公表しました。社内のAIエージェントを、オフィスへのアクセス権を持つ従業員が会社の利益に反して動く可能性に重ねて設計している点が特徴です。挙動の検証に応じて権限を段階的に付与する仕組みは、「補助ブレーキ付きの教習車」に例えられています。

何が新しいのか

枠組みはサイバーセキュリティの定番「MITRE ATT&CK」を土台に、想定される攻撃を戦術と技法に分解。AI向けの脅威モデル、信頼された「supervisors」と呼ばれるAIが動作中のエージェントを監視する検知系、有害な行動をブロックする予防系を組み合わせます。検知はD1〜D4の4段階、対応はR1〜R3の3段階に整理され、低リスクで巻き戻せる行動はログによる事後レビュー、大規模なサイバー攻撃のような高リスク行動はリアルタイム遮断と、リスクに応じた濃淡を付けています。

監視そのもののリスク

DeepMindは、監視の有効性が「監視を出し抜く方法を学習しない限りで成立する」と注意を促しています。リスクとして挙げるのは、自分が見られていることを察する「oversight awareness」と、可視テキストを残さず思考する「opaque reasoning」。これらが現実化すれば、行動分析やモデル内部の検査に踏み込む必要があるとしています。

すでに稼働中

社内では非同期監視のプロトタイプを構築し、約100万タスクで検証。キーワード検出を超えた挙動ベースのパターン検知が可能で、コーディングエージェント「Gemini Spark」のライブ監視として稼働中です。意図せぬデータ削除をリアルタイムで捕捉する例もあり、検知されるものの多くは悪意ではなく、ユーザー目的を過剰に追いかけた解釈ミスや行き過ぎだといいます。

DeepMindは政策担当者向けに別途「Three Layers of Agent Security」を公開し、個別エージェント・マルチエージェント系・エコシステム全体の三層で議論。X上の投稿では、マルチエージェントが世界規模で広がる前にプロトコルを固める「narrow window(限られた猶予)」しかないと警鐘を鳴らしています。

💼 事業会社視点:これは自社にどう効くか

このロードマップは「AIエージェントを社員ではなく内部脅威として設計する」という設計思想の宣言であり、エージェントを業務に組み込もうとする日本企業に強い示唆を与えます。

まずSaaS各社は、エージェント機能の「権限設計」と「監視可能性」がいま競争軸に変わると認識すべきです。出力の正確さよりも、誤動作を検知・遮断できる設計か、ログから事後追跡できるかが、エンタープライズ契約の通過条件になっていきます。

ECや業務システムを抱える事業会社は、エージェントに「在庫操作」「返金処理」「顧客対応送信」など巻き戻せない権限を直結させる発想を一度白紙に戻すべきです。低リスクは事後ログ、高リスクはリアルタイム遮断という濃淡設計は、自社の業務でも同じ整理ができます。

受託開発・SIerにとっては、「エージェント監査・モニタリング基盤の構築」が新たな受注領域です。MITRE ATT&CK由来の脅威分解は、既存のセキュリティ提案資産と地続きで売れます。役員は、PoCを進める前に「監視と権限の段階設計」を要件に書き込めているかを問い直すべきタイミングです。

関連リンク