Fableとは何か
Anthropicは火曜日、同社のサイバーセキュリティ専用モデル「Mythos」の限定公開版として「Fable」をリリースした。Mythosは4月にProject Glasswingと呼ばれる取り組みを通じて一部組織に限定提供が始まり、直近の週には15カ国の数百の組織へとアクセスが拡大されていた。
FableはMythosの一般向け入口として位置づけられるが、マルウェア開発や生物兵器製造への悪用を防ぐため、サイバーセキュリティおよび生物学に関連するリクエストを検出した場合にClaude Opus 4.8へのフォールバックが作動する仕組みになっている。
研究者が指摘する「過検知」問題
リリース直後から、現場のセキュリティ研究者たちが制限の広さを問題視する声を上げている。
IBM X-ForceのValentina Palmiotti氏は「サイバー関連と少しでも接点があるリクエストはすべて弾かれる。ブログ記事を読むよう頼むだけでも同様だ」と述べた。制限が発動した際には「このメッセージはサイバーセキュリティまたは生物学のトピックに関するフラグが立てられました」というメッセージが表示される。
TolmoのMatt Suiche氏も「セキュアなコードを書くよう頼むと、ソフトウェアエンジニアリングのベストプラクティスではなくサイバーセキュリティ関連の作業と判断され、ダウングレードされてしまう」と指摘。「語彙の中に『サイバーセキュリティ』の関連語が含まれるだけでガードレールが作動するようだ。キーワードベースの実装とみられる」と分析した。
X(旧Twitter)上では、コードレビューを依頼しただけでFableの制限が発動したと報告するユーザーも現れた。
段階的な緩和を示唆する声も
批判を寄せるSuiche氏自身は「こうしたリリース時には、足りないよりも多く捕捉するほうが望ましく、ガードレールは時間をかけて緩和していけばよい」とも述べており、現状を一定程度理解する見方も示している。
承認済み研究者向けの緩和プログラム
AnthropicはCyber Verification Programと呼ばれる審査プログラムを運営しており、承認を受けたサイバーセキュリティ専門家には制限が少ない形でモデルを利用できる仕組みを提供している。OpenAIにも同様の「Trusted Access for Cyber」と呼ばれるプログラムが存在する。
Anthropicは本記事執筆時点でコメントの求めに応じていない。
出典:TechCrunch