ACL24] • 低尤度の応答は選好順序の学習が困難 [Chen+, NeurIPS24] • 深い推論を模倣学習するとout-of-domainの性能が低下する [Huan+, arXiv25] • 同じモデル系列からの蒸留が効果的 [Zhang+, NAACL25] ... など • 推論型モデルではrepetitionが起きやすいのだが,GRPO損失の報酬標準化によっ て負の勾配が生じることが原因なのかも. • On-policy学習では文生成パラメータに注意するのがよさそう. • 動力学の定常性が担保できないOn-policy DPOの分析は容易ではないだろう. 19