AnthropicのサイバーセキュリティAI「Fable」、研究者から過剰な制限に批判の声

Anthropicが火曜日に公開したサイバーセキュリティ特化モデル「Fable」について、複数のセキュリティ研究者が「ガードレールがキーワードベースで広すぎる」と批判している。ブログ記事の閲覧依頼やセキュアコードの記述など、無害なタスクでも制限が発動するケースが報告されている。

Fableとは何か

Anthropicは火曜日、同社のサイバーセキュリティ専用モデル「Mythos」の限定公開版として「Fable」をリリースした。Mythosは4月にProject Glasswingと呼ばれる取り組みを通じて一部組織に限定提供が始まり、直近の週には15カ国の数百の組織へとアクセスが拡大されていた。

FableはMythosの一般向け入口として位置づけられるが、マルウェア開発や生物兵器製造への悪用を防ぐため、サイバーセキュリティおよび生物学に関連するリクエストを検出した場合にClaude Opus 4.8へのフォールバックが作動する仕組みになっている。

研究者が指摘する「過検知」問題

リリース直後から、現場のセキュリティ研究者たちが制限の広さを問題視する声を上げている。

IBM X-ForceのValentina Palmiotti氏は「サイバー関連と少しでも接点があるリクエストはすべて弾かれる。ブログ記事を読むよう頼むだけでも同様だ」と述べた。制限が発動した際には「このメッセージはサイバーセキュリティまたは生物学のトピックに関するフラグが立てられました」というメッセージが表示される。

TolmoのMatt Suiche氏も「セキュアなコードを書くよう頼むと、ソフトウェアエンジニアリングのベストプラクティスではなくサイバーセキュリティ関連の作業と判断され、ダウングレードされてしまう」と指摘。「語彙の中に『サイバーセキュリティ』の関連語が含まれるだけでガードレールが作動するようだ。キーワードベースの実装とみられる」と分析した。

X（旧Twitter）上では、コードレビューを依頼しただけでFableの制限が発動したと報告するユーザーも現れた。

段階的な緩和を示唆する声も

批判を寄せるSuiche氏自身は「こうしたリリース時には、足りないよりも多く捕捉するほうが望ましく、ガードレールは時間をかけて緩和していけばよい」とも述べており、現状を一定程度理解する見方も示している。

承認済み研究者向けの緩和プログラム

AnthropicはCyber Verification Programと呼ばれる審査プログラムを運営しており、承認を受けたサイバーセキュリティ専門家には制限が少ない形でモデルを利用できる仕組みを提供している。OpenAIにも同様の「Trusted Access for Cyber」と呼ばれるプログラムが存在する。

Anthropicは本記事執筆時点でコメントの求めに応じていない。

出典：TechCrunch

よくある質問

Fableのガードレールが発動するとどうなりますか？

リクエストがサイバーセキュリティまたは生物学のトピックに関連すると判断された場合、Fableはフラグメッセージを表示し、Claude Opus 4.8へフォールバックします。

制限なしにFableを利用する方法はありますか？

AnthropicのCyber Verification Programに申請して承認を受けたサイバーセキュリティ専門家は、通常より少ない制限でモデルを利用できます。

FableとMythosの違いは何ですか？

MythosはAnthropicのサイバーセキュリティ専用モデルで、Project Glasswingを通じて選定組織に提供されています。Fableはその一般向け限定公開版として位置づけられています。

本記事は TechCrunch の報道を元に、事実に基づき独自に再構成したものです。

AnthropicのサイバーセキュリティAI「Fable」、研究者から過剰な制限に批判の声

Fableとは何か

研究者が指摘する「過検知」問題

段階的な緩和を示唆する声も

承認済み研究者向けの緩和プログラム

関連リンク

よくある質問

関連記事

Opus 5とは？「性能の飛躍」より「半額」を選んだAnthropicの狙いを解説

Claude Opus 5とは？半額で最上位に迫るAnthropicの新主力モデルを事業視点で解説

AIエージェントの自律暴走とは？OpenAIハッキング事案が突きつける規制論を解説