AIアラインメントの記事一覧

2026-06-19 ・ The Decoder

AIの「良い癖」は分野を越えて転移する——OpenAIが示したRL訓練の意外な副作用とは

OpenAIが、ごく少量の「望ましい振る舞い」データを強化学習に混ぜるだけで、AIモデルが53の独立ベンチマーク中44で改善し、敵対的プロンプトや有害なファインチューニングへの耐性も高まったと発表しました。健康分野のみで訓練しても、欺瞞検出など無関係な領域の性能まで向上したといいます。