Google DeepMindがDiffusionGemmaを公開——拡散モデルでローカルAI推論を4倍高速化

Google DeepMindは拡散（diffusion）ベースのアーキテクチャを採用したAIモデル「DiffusionGemma」を公開した。自己回帰モデルと比べてローカル環境での推論速度が約4倍速く、Apache 2.0ライセンスのもとHugging Faceからウェイトを無償取得できる。

自己回帰モデルの課題を拡散アーキテクチャで解決

これまでの大規模言語モデルの多くは、トークンを1つずつ順番に生成する「自己回帰」方式を採用してきた。この方式はクラウド環境では大量のジョブをまとめて処理することで効率を上げられるが、ローカル環境ではメモリ帯域幅の使い方が非効率になりやすく、GPUがアイドル状態になる時間も生じやすい。

DiffusionGemmaはこの問題に対し、画像生成で実績のある拡散モデルの仕組みをテキスト生成に応用することで対処している。並列処理によってトークンを同時に絞り込むため、ローカル推論の速度が既存のGemmaモデルと比べて約4倍向上するとされる。

テキスト拡散ならではの難しさ

ただし、テキストへの拡散モデル適用は画像ほど単純ではない。画像と異なり、言語は離散的な性質を持つため、1つのトークンに誤りが生じるだけで文章全体が意味をなさなくなるリスクがある。そのため、テキスト拡散モデルはエラー率が画像拡散モデルより高くなる傾向がある。

また、出力が短い場合でも並列処理のオーバーヘッドが発生するため、短文生成ではリソースを無駄にしやすい構造的な課題も存在する。DiffusionGemmaは「実験的」ステータスで公開されており、こうした制約への対応が引き続き開発課題となっている。

他の効率化手法との比較

GoogleはDiffusionGemmaとは別に、複数トークンを同時予測する「Multi-Token Prediction（MTP）ドラフター」も効率化の手法として実装している。ただし、拡散ベースのアプローチのほうが速度面では上回るとされる。

対応ハードウェアと入手方法

DiffusionGemmaはNvidiaと共同で最適化されており、コンシューマー向けのRTX GPUから、エンタープライズ向けのH100やDGX Sparkまで幅広いハードウェア構成に対応する。ウェイトはHugging Faceからダウンロード可能で、ライセンスはApache 2.0が適用される。

出典: Ars Technica

よくある質問

DiffusionGemmaはクラウドでも自己回帰モデルより速いですか？

いいえ。クラウド環境では自己回帰モデルが大量ジョブの並列バッチ処理や高帯域メモリを効率的に活用できるため、クラウド用途での優位性は示されていません。速度面での利点は主にローカル推論環境に限られます。

商用利用は可能ですか？

DiffusionGemmaはApache 2.0ライセンスで公開されており、商用利用が可能です。ただし「実験的」ステータスであることに留意が必要です。

どんなGPUで動かせますか？

GoogleとNvidiaが共同で最適化を行っており、コンシューマー向けのRTX GPU、エンタープライズ向けのNvidia H100およびDGX Sparkでの動作に対応しています。

本記事は Ars Technica の報道を元に、事実に基づき独自に再構成したものです。

Google DeepMindがDiffusionGemmaを公開——拡散モデルでローカルAI推論を4倍高速化

自己回帰モデルの課題を拡散アーキテクチャで解決

テキスト拡散ならではの難しさ

他の効率化手法との比較

対応ハードウェアと入手方法

関連リンク

よくある質問

関連記事

Gemini 3.6 Flashとは？Google DeepMindが「Pro抜き」で出した3モデルの狙いを解説

リーナス・トーバルズがAIを擁護、「LinuxはアンチAIプロジェクトではない」——OSSと生成AIの向き合い方

生成AIによる災害リスクモデルとは？保険業界が直面する精度と収益のジレンマを解説