LLMはロシアのプロパガンダにどこまで耐えるか?GPT-5.4が首位、Google勢が苦戦するベンチマークの含意
主要LLMのロシア発プロパガンダ耐性を測るベンチマークで、OpenAIのGPT-5.4が平均88.9点・「Exemplary(模範的)」評価54%で首位に立ちました。一方でGoogleのGemini 3.5 Flashは73点にとどまり、NvidiaのNemotronやAlibabaのQwenといったオープンウェイト勢に水をあけられる結果となっています。
主要LLMのロシア発プロパガンダ耐性を測るベンチマークで、OpenAIのGPT-5.4が平均88.9点・「Exemplary(模範的)」評価54%で首位に立ちました。一方でGoogleのGemini 3.5 Flashは73点にとどまり、NvidiaのNemotronやAlibabaのQwenといったオープンウェイト勢に水をあけられる結果となっています。