何が測られたのか

今回公開されたベンチマークは、各社のLLMがロシア発のプロパガンダ言説をどの程度はねのけられるかを定量化したものです。OpenAIのGPT-5.4が平均88.9点、模範回答率54%でトップ。NvidiaのNemotron、AlibabaのQwenといったオープンウェイトモデルもAnthropicの最上位モデルに匹敵する成績を残し、「オープン=性能で劣る」という先入観を覆す内容となりました。

数年で激変した「耐プロパガンダ性能」

注目すべきは時系列の変化です。2024年に最高評価だったClaude 3.5 Haikuは平均73.1点で、この水準は2026年公開モデル群の下位3分の1に沈みます。フロンティアモデルの「情報操作への抵抗力」がわずか1〜2年で大幅に底上げされたことを示しています。

ただし全社一律ではありません。GoogleのGemini 2.5 Proはほぼ1年前のモデルながら平均82点で同社最高。最新のGemini 3.5 Flashは73点と、2年近く前のAnthropic製モデルと同水準にとどまりました。悪意ある言い回しのプロンプトや、ロシア語入力に対して脆弱という分析がついています。

「言語」を変えると守りが崩れる問題

支援メディアPropastopの分析では、多くのモデルが英語よりロシア語で問われた途端に耐性が低下する傾向が確認されました。MoonshotのKimi K2、StepFunのStep 3.5 Flashも英露で点差が出ています。King’s CollegeのGregory Asmolov氏の研究は、ロシア政府がBRICS各国との技術連携を通じ、自国に「culturally sensitive(文化的に敏感)」な社会政治的立場をAIへ投影しようとしている構図を指摘しており、ベンチマーク結果はこの地政学的文脈と地続きです。

💼 事業会社視点:これは自社にどう効くか

日本の事業会社にとって、これは「どのLLMを基盤に据えるか」の判断軸を一つ増やす結果です。生成AIをカスタマーサポート、社内ナレッジ検索、コンテンツ生成に組み込んでいるEC・SaaS・メディア企業は、回答が政治的に偏った情報や情報工作の影響を受けた言説を返すリスクを、契約・コンプライアンス上の論点として扱う必要があります。特に多言語対応サービス(訪日インバウンドEC、グローバルSaaS)では、英語では問題なくてもロシア語・他言語で守りが崩れる現象が実証された以上、言語別の出力監査を運用フローに組み込むべきです。

受託開発・SIerにとっては営業材料が変わります。「Google Cloud標準でGemini」という選択を取る官公庁・金融案件で、Gemini 3.5 Flashが73点という事実は、RFP上の比較根拠として使われ得ます。一方でNemotronやQwenなどオープンウェイトが上位に入ったことは、自社調達GPU+OSSモデル運用を提案する企業に追い風です。経営者は「フロンティアモデル一択」ではなく、用途別マルチモデル戦略の再点検時期と捉えるべきでしょう。

関連リンク