と理論的には一致する 事後学習: DPOのロス 数式などは Rafailov et al, 2024より DPO 第1項: Reward を最大化を目指す。 Reward Model r φ が必要 第2項: Reference Policy π ref から離れすぎないように KL正則化 ロスを計算してFine-tuningを行う学習方式で学習可能 - π ref から離れすぎないようにしつつ、 y w の尤度を増やし、y l の尤度を減らすように学習 y w , y l というペアさえあれば、 Reward Modelは学習時に不要 Instruct-GPTにて OpenAIがRLHFで 用いていた強化学習手法