AIモデルのロシア・プロパガンダ耐性ランキング、ClaudeがトップでMistralは下位3分の1に
エストニア言語研究所が公開したベンチマークで、AnthropicのClaudeシリーズが偽情報への耐性で首位を獲得し、欧州の旗手Mistralの最新Medium 3.5を含むモデル群が下位3分の1に沈みました。評価対象は60モデル、3言語75問、14のプロパガンダ・ナラティブです。
エストニア言語研究所が公開したベンチマークで、AnthropicのClaudeシリーズが偽情報への耐性で首位を獲得し、欧州の旗手Mistralの最新Medium 3.5を含むモデル群が下位3分の1に沈みました。評価対象は60モデル、3言語75問、14のプロパガンダ・ナラティブです。
AnthropicのClaude Fable 5が、最難関とされる数学ベンチマーク「FrontierMath」のティア4(v2)で88%を記録し、約75%のOpenAI GPT-5.5を13ポイント上回りました。半年前まで10%未満だった同系統モデルからの跳躍であり、AIの「研究レベルの数学推論」が実用射程に入りつつあることを示しています。
AnthropicのClaude Fable 5がArtificial Analysis Intelligence Indexで64.9点を獲得し首位に立ったが、前世代のClaude Opus 4.8と比べた性能向上は5.7%にとどまる一方、APIコストは入力・出力ともに2倍に設定されている。