何が起きたか
新浪微博の研究者9名が日曜、14ページの技術報告とともに「VibeThinker-3B」をarXivに投稿しました。AlibabaのQwen2.5-Coder-3Bをベースに後段学習を施したモデルで、パラメータ数はわずか30億。それにもかかわらず、AIME 2026で94.3、AIME 2025で91.4、HMMT 2025で89.3といった数学ベンチマークで、Gemini 3 Pro(91.7)を上回る数値を出しました。コーディング系のLiveCodeBench v6でも80.2(Pass@1)を記録し、Hugging Faceで62 upvote、GitHubで685スターと急速に注目を集めています。
なぜ重要か
比較対象となるDeepSeek V3.2は6710億パラメータ、Zhipu AIのGLM-5は7440億、Moonshot AIのKimi K2.5は1兆超。VibeThinker-3Bはその約224分の1のサイズで、特定領域では同等水準に届いたと主張しています。研究チームは「Parametric Compression-Coverage Hypothesis(パラメータ圧縮・カバレッジ仮説)」を提示し、検証可能な推論タスク(数学・コード)はパラメータが少なくても到達可能だが、オープンドメイン知識は依然として規模を要する、と整理しました。実際、汎用知識を問うGPQA-Diamondでは70.2にとどまり、Gemini 3 Pro(91.9)やClaude Opus 4.5(87.0)に大きく引き離されています。
ベンチマーク疑惑という論点
Xでは「benchmaxxing(ベンチマーク特化の過学習)」を疑う声が相次ぎました。あるユーザーはフル精度版を試した結果、Python開発で広く使われる「uv」ツールを知らなかったと指摘。LM Studioでは2回目以降の応答が崩れるとの報告もあります。これに対し研究チームは、n-gramベースのフィルタリングを含む厳密なベンチマーク汚染除去を実施したと反論。論点を分けるのは「訓練カットオフ後に作られたベンチマークでも勝てるか」で、2026年4月25日〜5月31日のLeetCodeコンテストで128問中123問を初回提出で通過し、GPT-5.2やClaude Opus 4.6を上回ったと報告しています。
学習レシピの中身
採用された「Spectrum-to-Signal Principle」は4段階構成です。第1段階で5000トークン未満の推論トレースを破棄するカリキュラム学習、第2段階でMaxEnt-Guided Policy Optimization(MGPO)による64,000トークン文脈の強化学習、第3段階でRLチェックポイントからの蒸留、第4段階で指示追従の強化学習を行います。冗長性を抑える「Long2Short Math RL」など、小型モデルに推論力を凝縮する工夫が随所に盛り込まれています。
💼 事業会社視点:これは自社にどう効くか
日本企業の経営者・事業責任者にとって、この件の含意は「小型モデルの実用ラインが想像以上に近い」という一点に尽きます。30億パラメータならコンシューマー級ノートPCで動作可能で、SaaS事業者にとっては推論コストの構造を根本から見直す材料になります。特に、数学・コード・帳票チェックなど「検証可能な推論」を扱うバックオフィス系SaaSや受託開発の自動化領域では、GPT-5.2クラスを呼ぶ必要があった処理を自社GPUやエッジで完結できる可能性が出てきました。
一方で、役員視点で警戒すべきはベンチマーク疑惑です。社内PoCで「ベンチマーク値が高い=業務で使える」と短絡すれば、uvツールを知らないといった素の能力欠如に本番で気付くことになります。打ち手は二段構え。①汎用知識・対話を要する顧客接点はGemini 3 ProやClaude Opus 4.5級を維持。②自社の検証可能タスク(請求書突合、コードレビュー、数値計算)を切り出し、Qwen系小型モデルで内製ベンチを作って評価する。新浪微博が示したのは「用途を絞れば小さくて勝てる」という事実であり、自社ワークフローの分解能こそがコスト優位の源泉になります。EC事業者であれば商品データ整形や在庫予測ロジック、受託開発であればテスト生成や仕様書整合性チェックが第一候補です。