#ベンチマーク の記事一覧(4)

VibeThinker-3Bとは?新浪微博の30億パラメータが大規模モデルに迫る理由とベンチマーク疑惑
2026-06-17 ・ VentureBeat

VibeThinker-3Bとは?新浪微博の30億パラメータが大規模モデルに迫る理由とベンチマーク疑惑

中国・新浪微博の研究チームが、わずか30億パラメータの推論モデル「VibeThinker-3B」をarXivで公開し、AIME 2026で94.3点とDeepSeek V3.2(6710億パラメータ)に匹敵するスコアを記録しました。一方で、ベンチマークの妥当性を疑う声も噴出しています。

AIの値段は「モデルの賢さ」では決まらなくなった──今日の四つの異変から読む潮目
インサイト 2026-06-17 ・ まだ人間です 編集部

AIの値段は「モデルの賢さ」では決まらなくなった──今日の四つの異変から読む潮目

ベンチマーク論争、政治対立、環境訴訟、課金停止。2026年6月17日に並んだ四つのニュースは、AIの主戦場が「モデルの賢さ」から「信頼と運用コストの設計」へと移りつつあることを示している。

AIベンチマークが見落とす「データ配送」の壁――GPUの価値を左右するストレージ経路の実態
2026-06-11 ・ VentureBeat

AIベンチマークが見落とす「データ配送」の壁――GPUの価値を左右するストレージ経路の実態

F5やMinIOの技術者らは、企業のAIインフラ評価がGPUのコンピューティング性能に集中するあまり、ストレージからGPUクラスターへのデータ配送経路に潜むレイテンシやネットワーク劣化の影響を過小評価していると警告する。S3ではわずかなレイテンシの導入でもスループットが顕著に低下することが確認されており、本番環境での性能を左右する「データパス」の設計が戦略的課題として浮上している。

UC Berkeley、AIエージェント評価の新ベンチマーク「ALE」を公開。GPT-5.5が首位24.0%、Claude Fable 5は3位
2026-06-10 ・ VentureBeat

UC Berkeley、AIエージェント評価の新ベンチマーク「ALE」を公開。GPT-5.5が首位24.0%、Claude Fable 5は3位

UC BerkeleyのRDIが、AIエージェントの長期的な専門業務遂行能力を測る新ベンチマーク「Agents' Last Exam (ALE)」を公開し、Codex経由のOpenAI GPT-5.5が24.0%の合格率で首位に立ちました。前日公開されたAnthropicのClaude Fable 5は22.0%で3位、最難関「Last-Exam」階層では多くのモデルが0.0%という結果になりました。

← タグ一覧へ