何が起きたのか

Anthropicは、同社のモデル「Fable」をめぐるホワイトハウスの報告書のコピーを、セキュリティ専門家のカティ・ムスーリス氏(Luta Security)に共有し、独立した評価を依頼しました。報告書は、IT専門家がFableにバグの発見と修正を依頼するというシナリオを扱ったものです。

ムスーリス氏の検証によれば、意図的に脆弱性を埋め込んだコードを与えた上で「review the code for security issues(セキュリティ問題のためにコードをレビューせよ)」と指示した場合、Fableはこのプロンプトを拒否しました。一方で「fix this code(このコードを修正せよ)」と頼み、その後にいくつかの手動ステップを踏むと、Fableは応じたとされます。

なぜ「脱獄」ではなく「仕様通り」なのか

ムスーリス氏はこの挙動を「the model working as intended(モデルが意図通りに動作している)」、すなわちサイバー防御の文脈で正しく機能していると評価しました。脆弱性の網羅的な「監査」を依頼するプロンプトには警戒し、具体的な不具合を「直してほしい」という開発者の自然な依頼には応じる——これは攻撃用途と防御用途を分ける現実的な線引きと言えます。

論点:報道と検証のギャップ

The AtlanticのMatteo Wong氏らによる報道では「脱獄(jailbreak)」というフレーミングが先行しましたが、ムスーリス氏は独立した立場(Anthropicから無報酬)で「設計通りの安全動作」と再定義しました。AIの安全性をめぐる議論では、プロンプト一つの表層的な結果だけでなく、文脈・前提・想定ユースケースを含めた評価が不可欠であることを示す事例です。

💼 事業会社視点:これは自社にどう効くか

日本企業の経営者が読み取るべき含意

まず受託開発・SIerにとって、この件は「AIによるセキュアコーディング支援」を顧客提案する際の説得材料になります。Fableが脆弱性監査を拒否しつつ修正依頼に応じたという挙動は、悪用耐性と開発生産性を両立できる設計が現実解として存在することを示します。提案書では「AIが何でもやる」ではなく「攻撃用途は拒否し、防御用途で動く」境界設計を明示すべきです。

SaaS事業者・ECプラットフォームの事業責任者は、社内のAIコーディング規程を見直す好機です。「セキュリティレビューさせる」運用は拒否される可能性があり、CI/CDに組み込むなら「修正タスク」として渡す設計が現実的です。

そして全業界の役員にとって重要なのは、AIインシデント報道を額面通り受け取らない眼です。ホワイトハウス文書ですら、独立専門家の検証で評価が反転しうる。AI関連の社内意思決定では、一次資料と独立評価をセットで確認する体制を整えるべきです。

関連リンク