AIの「良い癖」は分野を越えて転移する——OpenAIが示したRL訓練の意外な副作用とは
OpenAIが、ごく少量の「望ましい振る舞い」データを強化学習に混ぜるだけで、AIモデルが53の独立ベンチマーク中44で改善し、敵対的プロンプトや有害なファインチューニングへの耐性も高まったと発表しました。健康分野のみで訓練しても、欺瞞検出など無関係な領域の性能まで向上したといいます。
OpenAIが、ごく少量の「望ましい振る舞い」データを強化学習に混ぜるだけで、AIモデルが53の独立ベンチマーク中44で改善し、敵対的プロンプトや有害なファインチューニングへの耐性も高まったと発表しました。健康分野のみで訓練しても、欺瞞検出など無関係な領域の性能まで向上したといいます。