入力トークンを16分の1に圧縮、推論速度8.8倍——NYUら6機関がLLM新アーキテクチャ「LCLM」をオープンソース公開

NYU・コロンビア大学・プリンストン大学・メリーランド大学・ハーバード大学・ローレンス・リバモア国立研究所の共同研究チームが開発した「Latent Context Language Models（LCLM）」は、LLMの入力トークン列をデコーダー処理前に最大16分の1へ圧縮し、KVキャッシュ手法と比較して出力速度を8.8倍向上させた。16倍圧縮時でもRULERベンチマークで75.06%の精度を維持し、検証済みの全KVキャッシュ手法を上回る結果を出した。

何が変わったのか

長文コンテキストの処理はLLMにとって計算上のボトルネックになりつつある。従来の圧縮手法はKVキャッシュをフルサイズで展開してから不要部分を削除する設計だが、LCLMはこのアプローチを根本的に変える。専用のエンコーダーが入力トークン列をデコーダーへ渡す前に圧縮する仕組みだ。

研究チームのMicah Goldblum氏は「膨張し続けるコンテキストはメモリと計算の両面でボトルネックになっている。長い文脈を効率よく正確に扱えるモデルを作れれば、あらゆる処理がより安価で高速になる」と述べている。

精度と速度のデータ

RULERベンチマークでの評価結果は以下のとおりだ。

圧縮率	精度	備考
なし（ベースライン）	94.41%	—
4倍圧縮	91.76%	差は約2.65ポイント
16倍圧縮	75.06%	入力トークンの93.75%を削除、検証済み全KVキャッシュ手法を上回る

速度面では16倍圧縮時にKVキャッシュベースラインより8.8倍の高速化を達成した。また100万トークンのコンテキストをNVIDIA H200 GPU 1枚で処理可能で、非圧縮手法ではメモリ不足となる規模の処理に対応できる。

アーキテクチャと学習

LCLMは6億パラメータのエンコーダーと40億パラメータのデコーダーを組み合わせた構成で、3500億トークン超のデータで学習した。学習データは継続事前学習データ、教師ありファインチューニングデータ、補助的な再構成タスクの3種類を混合している。

Goldblum氏は「人間がコンテンツをざっと読んで関連箇所に集中するのと同じ」と説明する。膨大なテキストやコードを高速にスキャンしたうえで、必要な部分だけを精読するマルチスケールなアプローチが可能になるという。

既存システムへの組み込み方

Goldblum氏によれば、既存のLLMをLCLMに置き換える手順は単純だ。「ドキュメントを取得してモデルのコンテキストに流し込む場面では、まずLCLMの圧縮器にかけるだけでよい。既存のLLMをそのままLCLMに差し替えられる」としている。

モデルとコードはHuggingFace（huggingface.co/latent-context）とGitHub（github.com/LeonLixyz/LCLM）でオープンソース公開されている。

残された課題と業界動向

研究チームは未解決の課題も明示している。RAGパイプラインへの完全な統合にはチューニングが必要で、推論トレースのオンライン圧縮は未検証のままだ。Goldblum氏は「推論トレースを生成しながら定期的に圧縮する素朴なアプローチは機能するかもしれないが、まだ確認されていない」と述べている。

エンタープライズ側でも文脈処理の効率化への関心は高まっている。VB Pulse Q1 2026調査（従業員100名以上の組織対象）によると、ハイブリッド検索の採用意向は2026年1月の10.3%から同年3月には33.3%へと2カ月で約3倍に増加した。回答者の28.9%が検索最適化を優先課題に挙げている。

出典：VentureBeat

よくある質問

LCLMは従来のKVキャッシュ圧縮と何が違うのですか？

KVキャッシュ手法はフルサイズのキャッシュを一度展開してから不要部分を削除しますが、LCLMはデコーダーへ渡す前にエンコーダーが入力トークン列を直接圧縮します。これによりメモリ消費と処理速度の両面で優位性があります。

既存のRAGシステムやLLMアプリに組み込めますか？

基本的な組み込みは可能で、取得したドキュメントをLCLMの圧縮器に通してからデコーダーへ渡す形で利用できます。ただし研究チームはRAGパイプラインへの完全な統合にはチューニングが必要と明示しています。

16倍圧縮時の精度低下はどの程度ですか？

RULERベンチマークでは圧縮なしの94.41%に対し、16倍圧縮時は75.06%となります。一方で、この精度は検証済みの全KVキャッシュ手法を上回る結果でした。4倍圧縮であれば91.76%と、低下幅は約2.65ポイントにとどまります。

本記事は VentureBeat の報道を元に、事実に基づき独自に再構成したものです。

入力トークンを16分の1に圧縮、推論速度8.8倍——NYUら6機関がLLM新アーキテクチャ「LCLM」をオープンソース公開

何が変わったのか

精度と速度のデータ

アーキテクチャと学習

既存システムへの組み込み方

残された課題と業界動向

関連リンク

よくある質問

関連記事

MetaのForum・Sellerとは？LLMで「アプリ量産」に舵を切ったMetaの狙いを解説

Anyscale買収とは？Nscaleが16.5億ドルで「Ray」を手に入れた狙いを解説

Recursive Superintelligenceとは？AWSと410億円規模のクラウド契約を結んだ「自己改善型AI」を解説