テキスト解析を捨てたRAG「PixelRAG」、精度18.1%向上・トークンコスト10分の1を達成

UC Berkeley・Princeton・EPFL・Databricksの研究者チームが開発した「PixelRAG」は、Webページをスクリーンショットとして処理することでテキストベースRAGを6つのベンチマークすべてで上回り、AIエージェントが必要とするプロンプトトークン数を37.5百万から3.6百万へと約10分の1に削減した。

テキスト解析の「宿命的な情報損失」を回避する発想

RAG（検索拡張生成）パイプラインにおけるテキストベースのアプローチは、Webページを取得した後にHTMLを解析し、テキストに変換してからモデルへ渡す工程を経る。しかしこの変換過程には根本的な問題がある。研究チームの分析によれば、テキストベースRAGの失敗原因の55.2%は「ランク損失」（正しい情報を含むチャンクの順位が下がる問題）、36.6%は「パーサー損失」（解析段階での情報欠落）、残り8.2%が「リーダー損失」に由来する。

PixelRAGはこの構造的な問題に対して異なるアプローチを取る。Webページをレンダリングしてスクリーンショットとして保存し、その画像をそのまま検索・参照に用いる。テキスト変換を行わないため、レイアウトや表組みなどの視覚的構造が保持される。

仕組み：Playwright×Qwen3-VL×FAISS

技術的には、Playwrightブラウザ自動化で幅875ピクセルのビューポートにページをレンダリングし、1024ピクセル高のタイルに分割する。各タイルはQwen3-VL-Embedding-2Bモデルで2048次元のベクトルに変換され、FAISSでインデックスされる。

検証はWikipediaの700万記事から生成した3000万枚のスクリーンショットタイルで実施。インデックスサイズはfp16で120GB、生データは5.6TBに達する。学習はH100上で4万ペアのデータを用いて約3時間で完了した。

精度とコストの実績

SimpleQAベンチマークでは、PixelRAGが78.8%の正解率を記録し、最良のテキストパーサーの71.6%を上回った。構造化テーブルの抽出精度も48.8%対42.5%と優位を示す。6ベンチマーク全体での最大改善幅は18.1ポイントに上る。

コスト面では、AIエージェントが1回の処理に必要なプロンプトトークンがテキスト検索の37.5百万に対してPixelRAGでは3.6百万と、費用にして2〜4倍の削減効果が確認されている。

制約と今後の方向性

現状の課題として研究チームが挙げるのは「視覚的チャンキング」の問題だ。現在は固定ピクセル高でタイルを切り出しているため、意味的なまとまりをまたいで分割されるケースがある。テキストRAGの研究では長年にわたって最適なチャンキング戦略が研究されてきたが、視覚的検索ではこの領域の研究が大幅に遅れているという。

またPixelRAGが精度面でのメリットを発揮するには、Qwen3-VL-4Bクラス以上のモデルが必要で、2Bモデルでは効果が限定的とされる。

近期の実用的な展開として研究チームが提案するのは、既存のテキスト検索システムへの「拡張レイヤー」としての活用だ。視覚とテキストを組み合わせたハイブリッド検索は実装が比較的容易で、多くの本番環境がこの方向に進化するとみられる。実際、VB Pulseの調査ではハイブリッド検索の採用意向を示す企業の割合が2026年1月の10.3%から3月には33.3%へと約3倍に増加している。

出典：VentureBeat

よくある質問

PixelRAGを使うには特別なモデルが必要ですか？

精度向上の恩恵を得るにはQwen3-VL-4Bクラス以上のビジョン言語モデルが必要です。2Bモデルでは効果が限定的とされています。

テキストベースRAGと比べてコストはどう変わりますか？

AIエージェントが使用するプロンプトトークン数が約10分の1（37.5百万→3.6百万）となり、処理コストは2〜4倍削減されます。

既存のRAGシステムをPixelRAGに完全移行する必要がありますか？

研究チームは完全移行よりも、既存のテキスト検索に視覚検索を組み合わせるハイブリッド構成を現実的な近期アプローチとして提案しています。

本記事は VentureBeat の報道を元に、事実に基づき独自に再構成したものです。

テキスト解析を捨てたRAG「PixelRAG」、精度18.1%向上・トークンコスト10分の1を達成

テキスト解析の「宿命的な情報損失」を回避する発想

仕組み：Playwright×Qwen3-VL×FAISS

精度とコストの実績

制約と今後の方向性

関連リンク

よくある質問

関連記事

Opus 5とは？「性能の飛躍」より「半額」を選んだAnthropicの狙いを解説

Claude Opus 5とは？半額で最上位に迫るAnthropicの新主力モデルを事業視点で解説

若者はなぜAIに冷めたのか？「that's AI（それって嘘でしょ）」が示す世代の距離感