テキスト解析の「宿命的な情報損失」を回避する発想
RAG(検索拡張生成)パイプラインにおけるテキストベースのアプローチは、Webページを取得した後にHTMLを解析し、テキストに変換してからモデルへ渡す工程を経る。しかしこの変換過程には根本的な問題がある。研究チームの分析によれば、テキストベースRAGの失敗原因の55.2%は「ランク損失」(正しい情報を含むチャンクの順位が下がる問題)、36.6%は「パーサー損失」(解析段階での情報欠落)、残り8.2%が「リーダー損失」に由来する。
PixelRAGはこの構造的な問題に対して異なるアプローチを取る。Webページをレンダリングしてスクリーンショットとして保存し、その画像をそのまま検索・参照に用いる。テキスト変換を行わないため、レイアウトや表組みなどの視覚的構造が保持される。
仕組み:Playwright×Qwen3-VL×FAISS
技術的には、Playwrightブラウザ自動化で幅875ピクセルのビューポートにページをレンダリングし、1024ピクセル高のタイルに分割する。各タイルはQwen3-VL-Embedding-2Bモデルで2048次元のベクトルに変換され、FAISSでインデックスされる。
検証はWikipediaの700万記事から生成した3000万枚のスクリーンショットタイルで実施。インデックスサイズはfp16で120GB、生データは5.6TBに達する。学習はH100上で4万ペアのデータを用いて約3時間で完了した。
精度とコストの実績
SimpleQAベンチマークでは、PixelRAGが78.8%の正解率を記録し、最良のテキストパーサーの71.6%を上回った。構造化テーブルの抽出精度も48.8%対42.5%と優位を示す。6ベンチマーク全体での最大改善幅は18.1ポイントに上る。
コスト面では、AIエージェントが1回の処理に必要なプロンプトトークンがテキスト検索の37.5百万に対してPixelRAGでは3.6百万と、費用にして2〜4倍の削減効果が確認されている。
制約と今後の方向性
現状の課題として研究チームが挙げるのは「視覚的チャンキング」の問題だ。現在は固定ピクセル高でタイルを切り出しているため、意味的なまとまりをまたいで分割されるケースがある。テキストRAGの研究では長年にわたって最適なチャンキング戦略が研究されてきたが、視覚的検索ではこの領域の研究が大幅に遅れているという。
またPixelRAGが精度面でのメリットを発揮するには、Qwen3-VL-4Bクラス以上のモデルが必要で、2Bモデルでは効果が限定的とされる。
近期の実用的な展開として研究チームが提案するのは、既存のテキスト検索システムへの「拡張レイヤー」としての活用だ。視覚とテキストを組み合わせたハイブリッド検索は実装が比較的容易で、多くの本番環境がこの方向に進化するとみられる。実際、VB Pulseの調査ではハイブリッド検索の採用意向を示す企業の割合が2026年1月の10.3%から3月には33.3%へと約3倍に増加している。
出典:VentureBeat