ハルシネーションを「自信ある誤り」と再定義
LLMが誤情報を生成するハルシネーション問題は、これまで「誤った知識を学習した結果」として論じられることが多かった。しかしGoogleのGal Yona氏らは、問題の本質を「自信ある誤り(confident errors)」と再定義する。つまり、誤った内容を適切な留保なく確信的に述べてしまうこと自体が問題だという見立てだ。
Yona氏によれば、LLMの事実性を高めるアプローチには大きく二つある。ひとつはモデルにさらに多くの事実を学習させる方向だが、モデルの容量は有限であり、知識の裾野は事実上無限だ。もうひとつが、今回提唱する「誠実な不確実性」である。
「拒否」でなく「度合い」を伝える応答へ
現在広く使われているハルシネーション対策の多くは、誤りを減らす代わりに有用性を損なうという「ユーティリティ税」の問題を抱えている。誤りを避けようとするあまり、モデルが本来答えられる質問にも回答を拒否してしまうのだ。誤り率を25%から5%に抑えようとした場合、正しい回答の52%が失われるという数値も示されており、「これが、ハルシネーション削減の取り組みの多くが実運用に到達しない理由だ」とYona氏は指摘する。
「誠実な不確実性」はこの二択を乗り越えるための手法で、モデルが「I am not completely sure, but I think…(完全には確信できませんが、おそらく)」といった表現を使い、内部の統計的確信度と言語的な表現を整合させることを目指す。単に答えるか拒否するかではなく、確信の度合いを示した仮説的な回答を可能にする。
エージェント型AIにおけるメタ認知の役割
この技術が特に重要性を増すのはエージェント型AIのシステムだ。エージェントが外部ツールや検索APIをいつ呼び出すかを判断する「制御層」として、メタ認知能力が機能するという考え方である。
確信度の把握が不正確だと、モデルはすでに知っていることを検索してレイテンシとコストを無駄にしたり、逆に記憶から自信を持って回答すべきでない質問に誤った出力を返したりする。Intuitがマルチエージェントシステムをゼロから再構築するために60日を要した事例は、こうした問題が実装上の大きな課題であることを示している。TargetやInstacartでも同様の複雑さが生じており、ツール呼び出しの判断を静的なヒューリスティクスや過剰な足場設計に頼らざるを得ない現状がある。
実装の課題:ブートストラッピングのパラドックス
「誠実な不確実性」をモデルに教え込むには、教師あり微調整(SFT)が必要になる。しかしここに「ブートストラッピングのパラドックス」が生じる。SFTで正解データを作るには、特定のモデルが特定の学習段階において何を知っているかを正解として定義しなければならないが、その「正解」自体が動的に変化するからだ。
現時点で最も手軽な実装手段はプロンプトエンジニアリングだとYona氏は述べる。エンジニアがすでに取り組んでいる作業であり、摩擦の少ない出発点となる。ただし、プロンプトだけでは解決できない余地も大きく残っており、より根本的な統合には強化学習(RL)が必要になるという。Googleが開発中のMetaFaithはこのアプローチのひとつとして位置づけられている。
「モデルが自分の内部状態を感知できるかどうかをどう評価するか」という問いは、この分野の研究において依然として未解決の課題だ。
出典:VentureBeat