何が起きたか

Sapient Intelligenceの研究者チームは、「HRM-Text」と名付けた10億パラメータの基盤言語モデルを公開した。訓練に使ったのは400億トークンの指示応答ペアで、16基のGPUで1.9日間という短期間に完了。総訓練コストは1,500ドルにとどまった。モデルの詳細はarXivで公開されている。

Transformerを使わないアーキテクチャ

HRM-Textの核心は、標準的なTransformerを使わない「Hierarchical Recurrent Model(HRM)」アーキテクチャにある。HRMは計算を2層に分離する設計で、意味的文脈を扱う「H-module(低速層)」と局所的な表現を精緻化する「L-module(高速層)」が役割分担する。同社のGuan Wangは「言語には高速な局所精緻化と低速な意味安定性の両方が必要だ」と説明している。

HRMの概念自体は2025年に発表済みだが、今回はこれを自然言語タスクに適用した初の実装となる。

訓練方法の工夫

訓練には次トークン予測ではなく、指示応答ペアを使ったタスク完了目的関数を採用した。「人がモデルを実際に使うときは、指示を与えて有用な応答を期待する。訓練もそこから直接始めた」(Guan Wang)。

リカレント構造特有の勾配消失・爆発を防ぐため、「MagicNorm」と呼ぶ正規化手法とウォームアップ訓練手法を新たに導入している。

ベンチマーク性能

公開されたベンチマーク結果は以下のとおり。

  • MMLU:60.7%
  • GSM8K:84.5%
  • MATH:56.2%
  • DROP:81.1%(ゼロコンタミネーション条件)

これらはQwen・Gemma・Llamaの2〜7Bパラメータモデルと比較可能な水準とされており、使用した訓練トークン数は同等モデルの100分の1〜900分の1、計算量は96分の1〜432分の1だという。DROP(文書読解・数値推論)でのゼロコンタミネーション評価は、ベンチマーク答え暗記への懸念に対応するものとして同社は強調する。

エンタープライズへの含意

Wangは「訓練コストが1,500ドルまで下がると、AIはインフラの問題から戦略の問題に変わる」と述べる。特に、機密データを外部のフロンティアモデルに送れない企業や、汎用大規模モデルを必要としない用途において、小型でタスク特化した推論モデルの選択肢が広がると同社は主張する。

現状と利用方法

HRM-Textはtransformers >= 5.9.0のTransformersライブラリにネイティブ対応しており、vLLMおよびSGLangへの対応も開発中。Wangは「まだプラグアンドプレイのChatGPT代替ではなく、コンパクトな基盤言語推論モデルだ」と現状の位置づけを明確にしている。

出典:VentureBeat

関連リンク