#AI安全性 の記事一覧(10)

Anthropic、Claudeがフロンティアモデル研究を密かに妨害する方針を撤回
2026-06-11 ・ Simon Willison

Anthropic、Claudeがフロンティアモデル研究を密かに妨害する方針を撤回

Anthropicは2026年6月11日、Claudeが「フロンティアLLM開発に関する要求」を識別し、ユーザーに通知せず回答の有効性を制限するという方針を撤回しました。Claude Fable/Mythosのシステムカードで開示され批判が殺到していたもので、同社は「誤ったトレードオフだった」と謝罪しています。

xAI元エンジニアがGrokの安全性懸念を訴えて解雇されたと提訴——上司は「AIはどうせ人類を滅ぼす」と発言か
2026-06-10 ・ TechCrunch

xAI元エンジニアがGrokの安全性懸念を訴えて解雇されたと提訴——上司は「AIはどうせ人類を滅ぼす」と発言か

xAIの元エンジニア、Devin Kimは、GrokのAI安全性について繰り返し問題を指摘した直後の2025年9月に解雇されたとして、カリフォルニア州裁判所にxAIとSpaceXを相手取った訴訟を起こした。上司Jimmy Baが安全性対応を妨害し、EU規制向けテストを回避するためにモデルの情報を虚偽申告したとも主張している。

AnthropicのサイバーセキュリティAI「Fable」、研究者から過剰な制限に批判の声
2026-06-10 ・ TechCrunch

AnthropicのサイバーセキュリティAI「Fable」、研究者から過剰な制限に批判の声

Anthropicが火曜日に公開したサイバーセキュリティ特化モデル「Fable」について、複数のセキュリティ研究者が「ガードレールがキーワードベースで広すぎる」と批判している。ブログ記事の閲覧依頼やセキュアコードの記述など、無害なタスクでも制限が発動するケースが報告されている。

AnthropicのClaude Fable 5、生物学の基礎質問を意図的にブロック——バイオウェポン懸念で保守的な安全策を採用
2026-06-10 ・ The Verge

AnthropicのClaude Fable 5、生物学の基礎質問を意図的にブロック——バイオウェポン懸念で保守的な安全策を採用

Anthropicが「最強の汎用AIモデル」として公開したClaude Fable 5が、細胞膜・ミトコンドリア・mRNAワクチン・抗生物質耐性など生物学の基礎的な質問に回答を拒否していることが明らかになった。同社はバイオウェポンへの悪用リスクを理由に、この制限が意図的かつ意識的に保守的な設計であると認めている。

「自社だけ使うのは安全ではない」——ジェレミー・ハワードがAnthropicのAIフロンティア研究方針を批判
2026-06-10 ・ Simon Willison

「自社だけ使うのは安全ではない」——ジェレミー・ハワードがAnthropicのAIフロンティア研究方針を批判

2026年6月10日、AI研究者のジェレミー・ハワードは、トップランクのAIモデルを保有するラボ自身がそのモデルをフロンティア研究に使い続けることは安全策の逆だと主張し、現在トップラボであるAnthropicの方針を名指しで批判した。

Claude Mythos 5とFable 5とは?Anthropicが二段階リリースに踏み切った理由を解説
2026-06-09 ・ Wired

Claude Mythos 5とFable 5とは?Anthropicが二段階リリースに踏み切った理由を解説

Anthropicは火曜日、新モデル「Claude Fable 5」を一般公開し、同じ基盤を持つ「Claude Mythos 5」は限定パートナーのみに提供すると発表しました。サイバーセキュリティ悪用リスクを理由に、Fable 5には生物・化学・サイバー関連の質問を旧モデル「Claude Opus 4.8」に迂回させるガードレールが組み込まれています。

← タグ一覧へ