何が発表されたか

Googleはオープンウェイトモデル「Gemma 4 12B」を公開しました。11.95Bパラメータながら16GBのVRAMまたは統合メモリで動作し、Hugging Face、Kaggle、Google AI Edge Galleryから即時ダウンロードが可能です。vLLM、SGLang、MLX、llama.cppといった主要な推論フレームワークに対応し、Google CloudではGemini Enterprise Agent Platform Model Garden、Cloud Run、GKE経由でデプロイできます。

「エンコーダーレス統合アーキテクチャ」の意味

注目すべきは構造設計です。従来のマルチモーダルモデルが画像と音声の専用エンコーダーを介していたのに対し、Gemma 4 12Bは音声波形と視覚パッチを軽量な線形層で直接LLMの埋め込み空間に投影します。視覚側は35Mパラメータの単一行列乗算モジュールに置き換えられ、音声エンコーダーは完全に廃止されました。結果としてVRAM要件が下がり、マルチモーダル全体を一括でファインチューニングできるようになっています。

機能セット

256Kトークンの文脈長、ネイティブな関数呼び出し、明示的な段階的推論モードを備え、自律エージェント構築に必要な要素が標準で揃います。性能は同社の26B MoEモデルに迫る水準とされています。一方で音声入力は30秒、動画理解は1fpsで60秒までという制約があり、長尺メディアの解析には別途設計が必要です。

💼 事業会社視点:これは自社にどう効くか

このリリースの本質は「16GBの社用ノートPCでマルチモーダルAIが完結する」点にあり、ターゲットは明確に規制業種と受託開発の現場です。

金融・医療・防衛・自治体案件を抱えるSIerやコンサルは、これまで「APIに顧客データを出せない」案件をRAGや小型モデルで凌いできました。Gemma 4 12Bはこの構図を変えます。Apache 2.0で改変・再配布が自由なため、自社プロダクトに組み込み、オンプレ納品する選択肢が現実的になりました。役員層は「クラウドAPI前提だった案件のうち、どれがオンプレ・エッジ提案に切り替えられるか」をすぐ棚卸しすべきです。

SaaS事業者にとっては逆風と機会が同居します。Tier2機能(議事録要約、見積もり読み取り、社内検索)で外部API課金に依存していた事業は、顧客が自前ホスティングに流れるリスクを直視する必要があります。一方、エージェント実装・ファインチューニング・MLOps運用代行に軸足を移せる企業には商機が広がります。経営判断としては「モデル提供」から「実装と運用の責任を持つ」レイヤーへの転換を半期内に決めるべき局面です。

関連リンク