Direct Preference Optimization

Direct Preference Optimization 機械学習の社会実装勉強会第32回 Henry 2024/2/24

内容 ▪ NeurIPS 2023 Outstanding Main Track Runner-Ups 受賞 ▪
著者に有名な先生が多い 2

モチベーション ▪ 大量テキストで学習した言語モデルを望ましい挙動に微調整する必要（Alignment） • 大量コードの平均能力でなく、少量存在の優れたコードに • 一般大衆のもつ誤認識でなく、それを修正すべき ▪ Alignmentを達成するために、現状２段階の複雑な強化学習
手法を使うので、それと理論上等価なシンプルな手法を提案 3

RLHFアプローチの３ステップ ▪ SFT: Supervised fine-tuning ▪ Rewardモデルを学習する • RewardモデルがBradley-Terry (BT)に従う想定
• BTの仮定で導出する損失関数 ▪ RL Fine-tune • Rewardモデルを使って、下記損失関数でfine-tune ▪ 提案法はRewardとRL Fine-tuneをまとめて、rewardモデルを使わずに学習 4

提案法DPO ▪ RL Fine-tuneの損失関数の最適解 ▪ 上記最適解をrewardモデルを取り出すよう書き換える • Your Language Model
Is Secretly a Reward Model ▪ Rewardモデルを学習する損失関数に代入する • BTモデルのお陰で、Zが消える • Directに言語モデルを最適化できるようになる 5

実験 ▪ ３つのタスクで評価 • controlled sentiment generation • summarization •
single-turn dialogue ▪ 複数スケールのデータセットでRHLFと同等またはそれ以上の性能を確認 ▪ 多数のオープンソース言語モデルに実装 6

Direct Preference Optimization

Direct Preference Optimization

Henry Cui

More Decks by Henry Cui

Other Decks in Science

Featured

Transcript

Direct Preference Optimization 機械学習の社会実装勉強会第32回 Henry 2024/2/24

内容 ▪ NeurIPS 2023 Outstanding Main Track Runner-Ups 受賞 ▪

RLHFアプローチの３ステップ ▪ SFT: Supervised fine-tuning ▪ Rewardモデルを学習する • RewardモデルがBradley-Terry (BT)に従う想定

提案法DPO ▪ RL Fine-tuneの損失関数の最適解 ▪ 上記最適解をrewardモデルを取り出すよう書き換える • Your Language Model

実験 ▪ ３つのタスクで評価 • controlled sentiment generation • summarization •