LLMはロシアのプロパガンダにどこまで耐えるか?GPT-5.4が首位、Google勢が苦戦するベンチマークの含意

主要LLMのロシア発プロパガンダ耐性を測るベンチマークで、OpenAIのGPT-5.4が平均88.9点・「Exemplary(模範的)」評価54%で首位に立ちました。一方でGoogleのGemini 3.5 Flashは73点にとどまり、NvidiaのNemotronやAlibabaのQwenといったオープンウェイト勢に水をあけられる結果となっています。

何が測られたのか

今回公開されたベンチマークは、各社のLLMがロシア発のプロパガンダ言説をどの程度はねのけられるかを定量化したものです。OpenAIのGPT-5.4が平均88.9点、模範回答率54%でトップ。NvidiaのNemotron、AlibabaのQwenといったオープンウェイトモデルもAnthropicの最上位モデルに匹敵する成績を残し、「オープン=性能で劣る」という先入観を覆す内容となりました。

数年で激変した「耐プロパガンダ性能」

注目すべきは時系列の変化です。2024年に最高評価だったClaude 3.5 Haikuは平均73.1点で、この水準は2026年公開モデル群の下位3分の1に沈みます。フロンティアモデルの「情報操作への抵抗力」がわずか1〜2年で大幅に底上げされたことを示しています。

ただし全社一律ではありません。GoogleのGemini 2.5 Proはほぼ1年前のモデルながら平均82点で同社最高。最新のGemini 3.5 Flashは73点と、2年近く前のAnthropic製モデルと同水準にとどまりました。悪意ある言い回しのプロンプトや、ロシア語入力に対して脆弱という分析がついています。

「言語」を変えると守りが崩れる問題

支援メディアPropastopの分析では、多くのモデルが英語よりロシア語で問われた途端に耐性が低下する傾向が確認されました。MoonshotのKimi K2、StepFunのStep 3.5 Flashも英露で点差が出ています。King’s CollegeのGregory Asmolov氏の研究は、ロシア政府がBRICS各国との技術連携を通じ、自国に「culturally sensitive(文化的に敏感)」な社会政治的立場をAIへ投影しようとしている構図を指摘しており、ベンチマーク結果はこの地政学的文脈と地続きです。

💼 事業会社視点：これは自社にどう効くか

日本の事業会社にとって、これは「どのLLMを基盤に据えるか」の判断軸を一つ増やす結果です。生成AIをカスタマーサポート、社内ナレッジ検索、コンテンツ生成に組み込んでいるEC・SaaS・メディア企業は、回答が政治的に偏った情報や情報工作の影響を受けた言説を返すリスクを、契約・コンプライアンス上の論点として扱う必要があります。特に多言語対応サービス(訪日インバウンドEC、グローバルSaaS)では、英語では問題なくてもロシア語・他言語で守りが崩れる現象が実証された以上、言語別の出力監査を運用フローに組み込むべきです。

受託開発・SIerにとっては営業材料が変わります。「Google Cloud標準でGemini」という選択を取る官公庁・金融案件で、Gemini 3.5 Flashが73点という事実は、RFP上の比較根拠として使われ得ます。一方でNemotronやQwenなどオープンウェイトが上位に入ったことは、自社調達GPU+OSSモデル運用を提案する企業に追い風です。経営者は「フロンティアモデル一択」ではなく、用途別マルチモデル戦略の再点検時期と捉えるべきでしょう。

よくある質問

なぜGoogleのモデルだけ評価が伸び悩んだのですか?

Gemini 2.5 Proは平均82点ですが約1年前のモデルで、最新のGemini 3.5 Flashは73点と退行的な結果でした。悪意あるプロンプトとロシア語入力に対する感度の高さが原因と分析されています。

オープンウェイトモデルは商用モデルより安全と考えてよいですか?

今回のベンチマークではNvidiaのNemotronやAlibabaのQwenがAnthropic最上位と並ぶ成績を出した一方、MoonshotのKimi K2やStepFunのStep 3.5 Flashは英語より露語で点を落としました。モデル個別の評価が必要です。

なぜロシア語で質問すると耐性が落ちるのですか?

Propastopの分析やKing's CollegeのGregory Asmolov氏の研究によれば、ロシア政府がBRICS技術連携を通じ自国に文化的に近い立場をAIに反映させようとする動きがあり、ロシア語学習データの偏りが影響している可能性が指摘されています。

本記事は Ars Technica の報道を元に、事実に基づき独自に再構成したものです。

LLMはロシアのプロパガンダにどこまで耐えるか?GPT-5.4が首位、Google勢が苦戦するベンチマークの含意

何が測られたのか

数年で激変した「耐プロパガンダ性能」

「言語」を変えると守りが崩れる問題

💼 事業会社視点：これは自社にどう効くか

関連リンク

よくある質問

関連記事

Anthropic、Claudeがフロンティアモデル研究を密かに妨害する方針を撤回

AIのメモリ機能が精度を下げる——Writer社が2本の論文でパーソナライゼーションの「副作用」を実証

AnthropicのサイバーセキュリティAI「Fable」、研究者から過剰な制限に批判の声