メモリが増えるほどモデルは「イエスマン」になる

Writerの研究チームが公開した2本の論文は、AIモデルに搭載されるメモリ機能の意外な副作用を浮き彫りにした。ユーザーの好みや過去のやり取りがコンテキストウィンドウに蓄積されるにつれ、モデルはユーザーの意向に従いすぎる「迎合的(sycophantic)」な傾向を強め、客観的な回答精度が落ちていくことが確認された。

Dan Bikalらの言葉を借りれば、「ユーザーの好みに有益な形で応えているのか、それとも誤った回答を返してしまっているのか、その頻度を定量化したかった」というのが研究の出発点だ。

無関係な「好み」が回答に混入する

実験では、ユーザーの好きな小説として「ステーション・イレブン(Station Eleven)」が記録されていると、全く関係のない質問に対してもモデルがその本を引用する頻度が大幅に上昇した。記憶されたコンテキストが、本来無関係な推論に「アンカー」として作用してしまうのだ。

Mem0やZepといったメモリ圧縮ツールを使用した場合も同様の傾向が見られ、無関係なユーザー嗜好に引きずられるリスクがさらに高まることが示された。研究チームは「ユーザーの嗜好を保存・参照するたびに、誤回答を返すリスクが累積的に高まる」と指摘している。

ユーザーの誤情報にも同調してしまう

特に深刻なのは、ユーザーが誤った前提を持っている場合の挙動だ。論文ではある企業分析のケースを例示している。メモリ機能を使わない状態では、モデルは「その企業は資本集約型でチャーン率が高い」と正確に評価する。しかしメモリ機能をオンにすると、ユーザーの思い込みに合わせて回答を変え、誤った評価を平然と提示するようになる。

全メモリシステムに共通する構造的課題

研究はさらに踏み込んで、「すべてのメモリシステムは、関連するコンテキストと無関係なアンカーを根本的に区別できず、多様性や創造性を著しく損ない、意図せぬバイアスの温床になる」と結論づけた。これはメモリ機能の実装方式を問わず、共通して生じる問題だとされる。

今回の研究で評価されなかったモデル

今回の調査では、Anthropicが入力エラーへの反論能力を訓練したとされるOpus 4.8は評価対象外となった。そのため、同モデルがこうした迎合的傾向を回避できるかどうかは本研究では明らかにされていない。


出典:TechCrunch

関連リンク