拡散原理をテキスト生成に応用した新アーキテクチャ

Googleが公開した「DiffusionGemma」は、画像生成分野で広く知られた拡散(ディフュージョン)の仕組みをテキスト生成にプロダクション規模で適用した実験的モデルだ。

従来の大規模言語モデルは左から右へと1トークンずつ逐次的に出力を生成する。DiffusionGemmaはこれとは根本的に異なるアプローチを取る。256トークンのブロックをノイズが乗った状態で一度に展開し、全トークン位置を並列に繰り返しデノイズ(ノイズ除去)することで最終出力を完成させる。各トークンが他のすべてのトークンに双方向でアテンションを向けられるため、後続の文脈も参照しながら生成を行える点が特徴だ。

速度性能と対応ハードウェア

FP8バージョンのベンチマークでは、バッチサイズ1のNVIDIA H100上で毎秒1,008トークン、H200では毎秒1,288トークンを達成した。それぞれ標準的な自己回帰ベースラインと比較して5倍・6倍の高速化となる。

モデルの規模は26BパラメータのMixture of Expertsだが、推論時に実際に活性化されるのは3.8Bパラメータのみ。コンシューマー向けGPUでも18GB VRAMの範囲で動作する。エンタープライズ環境向けには、NVIDIAのHopperおよびBlackwellサーバーでNVFP4カーネルを使った最適化もサポートする。

また、DiffusionGemmaはvLLM推論プラットフォームで初めてネイティブサポートされた拡散型言語モデルでもある。

自己修正機能と品質面の現状

DiffusionGemmaには、各パスで信頼度の低いトークン位置を特定して再評価する自己修正機能が備わっている。ファインチューニングを施したSudokuソルバーでは80%の成功率を達成しており、標準ベースラインの48デノイズステップに対して12ステップで収束するなど、制約付き生成タスクへの適性を示している。

一方でGoogleは「最高品質を求めるアプリケーションには標準のGemma 4の使用を推奨する」と明示しており、現時点での全体的な出力品質は標準Gemma 4には及ばない。

速度優位が得られる条件

速度面でのメリットは条件付きだ。効果が大きいのはローカル推論や並列リクエスト数が少ない低並列デプロイメントに限られる。数百件の並列リクエストを処理するような高スループットのクラウドサービング環境では、この速度優位は成立しない。

拡散モデルの商用展開としては、Inception LabsがMercury Coderを2025年にリリースした先例がある。DiffusionGemmaは、Googleがオープンソースとしてこの分野に参入した最初の大規模な試みとなる。


出典:VentureBeat

関連リンク