自己回帰モデルの課題を拡散アーキテクチャで解決
これまでの大規模言語モデルの多くは、トークンを1つずつ順番に生成する「自己回帰」方式を採用してきた。この方式はクラウド環境では大量のジョブをまとめて処理することで効率を上げられるが、ローカル環境ではメモリ帯域幅の使い方が非効率になりやすく、GPUがアイドル状態になる時間も生じやすい。
DiffusionGemmaはこの問題に対し、画像生成で実績のある拡散モデルの仕組みをテキスト生成に応用することで対処している。並列処理によってトークンを同時に絞り込むため、ローカル推論の速度が既存のGemmaモデルと比べて約4倍向上するとされる。
テキスト拡散ならではの難しさ
ただし、テキストへの拡散モデル適用は画像ほど単純ではない。画像と異なり、言語は離散的な性質を持つため、1つのトークンに誤りが生じるだけで文章全体が意味をなさなくなるリスクがある。そのため、テキスト拡散モデルはエラー率が画像拡散モデルより高くなる傾向がある。
また、出力が短い場合でも並列処理のオーバーヘッドが発生するため、短文生成ではリソースを無駄にしやすい構造的な課題も存在する。DiffusionGemmaは「実験的」ステータスで公開されており、こうした制約への対応が引き続き開発課題となっている。
他の効率化手法との比較
GoogleはDiffusionGemmaとは別に、複数トークンを同時予測する「Multi-Token Prediction(MTP)ドラフター」も効率化の手法として実装している。ただし、拡散ベースのアプローチのほうが速度面では上回るとされる。
対応ハードウェアと入手方法
DiffusionGemmaはNvidiaと共同で最適化されており、コンシューマー向けのRTX GPUから、エンタープライズ向けのH100やDGX Sparkまで幅広いハードウェア構成に対応する。ウェイトはHugging Faceからダウンロード可能で、ライセンスはApache 2.0が適用される。
出典: Ars Technica