VibeThinker-3Bとは?新浪微博の30億パラメータが大規模モデルに迫る理由とベンチマーク疑惑
中国・新浪微博の研究チームが、わずか30億パラメータの推論モデル「VibeThinker-3B」をarXivで公開し、AIME 2026で94.3点とDeepSeek V3.2(6710億パラメータ)に匹敵するスコアを記録しました。一方で、ベンチマークの妥当性を疑う声も噴出しています。
中国・新浪微博の研究チームが、わずか30億パラメータの推論モデル「VibeThinker-3B」をarXivで公開し、AIME 2026で94.3点とDeepSeek V3.2(6710億パラメータ)に匹敵するスコアを記録しました。一方で、ベンチマークの妥当性を疑う声も噴出しています。
ベンチマーク論争、政治対立、環境訴訟、課金停止。2026年6月17日に並んだ四つのニュースは、AIの主戦場が「モデルの賢さ」から「信頼と運用コストの設計」へと移りつつあることを示している。
F5やMinIOの技術者らは、企業のAIインフラ評価がGPUのコンピューティング性能に集中するあまり、ストレージからGPUクラスターへのデータ配送経路に潜むレイテンシやネットワーク劣化の影響を過小評価していると警告する。S3ではわずかなレイテンシの導入でもスループットが顕著に低下することが確認されており、本番環境での性能を左右する「データパス」の設計が戦略的課題として浮上している。
UC BerkeleyのRDIが、AIエージェントの長期的な専門業務遂行能力を測る新ベンチマーク「Agents' Last Exam (ALE)」を公開し、Codex経由のOpenAI GPT-5.5が24.0%の合格率で首位に立ちました。前日公開されたAnthropicのClaude Fable 5は22.0%で3位、最難関「Last-Exam」階層では多くのモデルが0.0%という結果になりました。