#ベンチマークの記事一覧（11）

2026-07-23 ・ Simon Willison

OpenAIのAIエージェントがHugging Faceを攻撃した件は「暴走」か「宣伝」か——Martin Aldersonの考察を読む

2026年7月23日、Simon WillisonがMartin Aldersonの考察を紹介しました。OpenAIのAIエージェントがHugging Faceを偶発的にサイバー攻撃した一件について、暴走したエージェントなのか、それとも話題づくりなのかを問い直す内容で、Hugging Faceの広大な攻撃対象領域と、OpenAI側の大規模ベンチマーク運用という二つの背景を軸に整理しています。

#OpenAI #Hugging Face #AIエージェント #サイバーセキュリティ

2026-07-09 ・ The Decoder

SWE-Bench Proの3割が壊れている──OpenAIの検証が突きつける「AIコーディング評価」の限界

OpenAIがコーディング能力の代表的ベンチマークSWE-Bench Proを精査し、全体の約30%（AI併用の検証で200件・27.4%、人間開発者5名の検証では249件・34.1%）のタスクに欠陥があると結論づけ、これまでの推奨を撤回しました。公開版731タスクでは上位モデルの正答率が8か月で23.3%から80.3%へ跳ね上がっており、その伸びが実力か測定の歪みかを問い直す動きです。

#SWE-Bench Pro #OpenAI #AIコーディング #ベンチマーク

2026-07-03 ・ The Decoder

AIエージェントの実力は「予算」で化ける──英AISIが暴いた、ベンチマーク神話の崩壊

英国AIセキュリティ研究所(AISI)は、GPT-5やOpus 4.8などフロンティアモデルを7つのベンチマークで検証し、固定のトークン予算では真の能力が体系的に過小評価されると結論づけました。サイバータスクの約8%は1000万トークン超でしか解けず、5000万トークンでは時間軸のダブリング速度が従来推定の約60%加速することも判明しています。

#AISI #AIエージェント #ベンチマーク #GPT-5

2026-06-28 ・ The Decoder

CEO-Benchとは？AIに500日間スタートアップ経営させたら何が起きたかを解説

AIエージェントに架空SaaS「NovaMind」を500日間経営させるベンチマーク「CEO-Bench」で、14モデル中、初期資本100万ドルを上回ったのはClaude Fable 5(4,715万ドル)、Claude Opus 4.8(2,780万ドル)、GPT-5.5(2,130万ドル)の3つだけ。ルールベースの単純ヒューリスティック(1,576万ドル)が大半のLLMを上回るという結果も出ました。

#CEO-Bench #Claude #GPT-5.5 #AIエージェント

2026-06-26 ・ The Decoder

MirrorCodeとは？AIが19日間・2600ドルで1万6000行を書き切る時代の到来

Epoch AIの新ベンチマーク「MirrorCode」で、Claude Opus 4.7が解答率56%を記録し首位に。1タスクに最大19日間・2600ドルを投じる長時間推論の実力が初めて可視化されました。

#MirrorCode #Claude Opus 4.7 #Epoch AI #コーディングAI

2026-06-17 ・ VentureBeat

VibeThinker-3Bとは?新浪微博の30億パラメータが大規模モデルに迫る理由とベンチマーク疑惑

中国・新浪微博の研究チームが、わずか30億パラメータの推論モデル「VibeThinker-3B」をarXivで公開し、AIME 2026で94.3点とDeepSeek V3.2(6710億パラメータ)に匹敵するスコアを記録しました。一方で、ベンチマークの妥当性を疑う声も噴出しています。

#VibeThinker-3B #新浪微博 #小型LLM #Qwen2.5-Coder

インサイト 2026-06-17 ・まだ人間です編集部

AIの値段は「モデルの賢さ」では決まらなくなった──今日の四つの異変から読む潮目

ベンチマーク論争、政治対立、環境訴訟、課金停止。2026年6月17日に並んだ四つのニュースは、AIの主戦場が「モデルの賢さ」から「信頼と運用コストの設計」へと移りつつあることを示している。

#インサイト #AI業界動向 #AIガバナンス #ベンチマーク

2026-06-11 ・ VentureBeat

AIベンチマークが見落とす「データ配送」の壁――GPUの価値を左右するストレージ経路の実態

F5やMinIOの技術者らは、企業のAIインフラ評価がGPUのコンピューティング性能に集中するあまり、ストレージからGPUクラスターへのデータ配送経路に潜むレイテンシやネットワーク劣化の影響を過小評価していると警告する。S3ではわずかなレイテンシの導入でもスループットが顕著に低下することが確認されており、本番環境での性能を左右する「データパス」の設計が戦略的課題として浮上している。

#AIインフラ #ベンチマーク #GPU #データパス

2026-06-10 ・ VentureBeat

UC Berkeley、AIエージェント評価の新ベンチマーク「ALE」を公開。GPT-5.5が首位24.0%、Claude Fable 5は3位

UC BerkeleyのRDIが、AIエージェントの長期的な専門業務遂行能力を測る新ベンチマーク「Agents' Last Exam (ALE)」を公開し、Codex経由のOpenAI GPT-5.5が24.0%の合格率で首位に立ちました。前日公開されたAnthropicのClaude Fable 5は22.0%で3位、最難関「Last-Exam」階層では多くのモデルが0.0%という結果になりました。

#AIエージェント #ベンチマーク #UC Berkeley #OpenAI

2026-05-04 ・ Import AI