#AIベンチマーク の記事一覧(3)

AIモデルのロシア・プロパガンダ耐性ランキング、ClaudeがトップでMistralは下位3分の1に
2026-06-16 ・ The Decoder

AIモデルのロシア・プロパガンダ耐性ランキング、ClaudeがトップでMistralは下位3分の1に

エストニア言語研究所が公開したベンチマークで、AnthropicのClaudeシリーズが偽情報への耐性で首位を獲得し、欧州の旗手Mistralの最新Medium 3.5を含むモデル群が下位3分の1に沈みました。評価対象は60モデル、3言語75問、14のプロパガンダ・ナラティブです。

FrontierMathとは?Claude Fable 5がGPT-5.5を13ポイント差で抜いた意味を解説
2026-06-13 ・ The Decoder

FrontierMathとは?Claude Fable 5がGPT-5.5を13ポイント差で抜いた意味を解説

AnthropicのClaude Fable 5が、最難関とされる数学ベンチマーク「FrontierMath」のティア4(v2)で88%を記録し、約75%のOpenAI GPT-5.5を13ポイント上回りました。半年前まで10%未満だった同系統モデルからの跳躍であり、AIの「研究レベルの数学推論」が実用射程に入りつつあることを示しています。

← タグ一覧へ