Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Direct Preference Optimization
Search
Henry Cui
February 24, 2024
Science
0
340
Direct Preference Optimization
Henry Cui
February 24, 2024
Tweet
Share
More Decks by Henry Cui
See All by Henry Cui
プロダクション言語モデルの情報を盗む攻撃 / Stealing Part of a Production Language Model
zchenry
0
140
Diffusion Model with Perceptual Loss
zchenry
0
310
レンズの下のLLM / LLM under the Lens
zchenry
0
170
Go with the Prompt Flow
zchenry
0
150
Mojo Dojo
zchenry
0
190
ことのはの力で画像の異常検知 / Anomaly Detection by Language
zchenry
0
490
驚愕の事実!LangChainが抱える問題 / Problems of LangChain
zchenry
0
210
MLOps初心者がMLflowを触る / MLflow Brief Introduction
zchenry
0
98
{{guidance}}のガイダンス / Guidance of guidance
zchenry
0
150
Other Decks in Science
See All in Science
地表面抽出の方法であるSMRFについて紹介
kentaitakura
1
450
私たちのプロダクトにとってのよいテスト/good test for our products
camel_404
0
280
創薬における機械学習技術について
kanojikajino
16
5.1k
観察研究における因果推論
nearme_tech
PRO
1
190
04_石井クンツ昌子_お茶の水女子大学理事_副学長_D_I社会実現へ向けて.pdf
sip3ristex
0
260
Spectral Sparsification of Hypergraphs
tasusu
0
270
生成AI による論文執筆サポートの手引き(ワークショップ) / A guide to supporting dissertation writing with generative AI (workshop)
ks91
PRO
0
440
Pericarditis Comic
camkdraws
0
1.5k
Transformers are Universal in Context Learners
gpeyre
0
770
学術講演会中央大学学員会八王子支部
tagtag
0
290
2024-06-16-pydata_london
sofievl
0
630
学術講演会中央大学学員会いわき支部
tagtag
0
140
Featured
See All Featured
Making Projects Easy
brettharned
116
6.1k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
102
18k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.4k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.8k
Visualization
eitanlees
146
16k
Become a Pro
speakerdeck
PRO
27
5.2k
VelocityConf: Rendering Performance Case Studies
addyosmani
328
24k
Designing for Performance
lara
606
69k
Stop Working from a Prison Cell
hatefulcrawdad
268
20k
How to train your dragon (web standard)
notwaldorf
91
5.9k
Optimising Largest Contentful Paint
csswizardry
35
3.2k
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
Transcript
Direct Preference Optimization 機械学習の社会実装勉強会第32回 Henry 2024/2/24
内容 ▪ NeurIPS 2023 Outstanding Main Track Runner-Ups 受賞 ▪
著者に有名な先生が多い 2
モチベーション ▪ 大量テキストで学習した言語モデルを望ましい挙動に微調整 する必要(Alignment) • 大量コードの平均能力でなく、少量存在の優れたコードに • 一般大衆のもつ誤認識でなく、それを修正すべき ▪ Alignmentを達成するために、現状2段階の複雑な強化学習
手法を使うので、それと理論上等価なシンプルな手法を提案 3
RLHFアプローチの3ステップ ▪ SFT: Supervised fine-tuning ▪ Rewardモデルを学習する • RewardモデルがBradley-Terry (BT)に従う想定
• BTの仮定で導出する損失関数 ▪ RL Fine-tune • Rewardモデルを使って、下記損失関数でfine-tune ▪ 提案法はRewardとRL Fine-tuneをまとめて、rewardモデルを 使わずに学習 4
提案法DPO ▪ RL Fine-tuneの損失関数の最適解 ▪ 上記最適解をrewardモデルを取り出すよう書き換える • Your Language Model
Is Secretly a Reward Model ▪ Rewardモデルを学習する損失関数に代入する • BTモデルのお陰で、Zが消える • Directに言語モデルを最適化できるようになる 5
実験 ▪ 3つのタスクで評価 • controlled sentiment generation • summarization •
single-turn dialogue ▪ 複数スケールのデータセットでRHLFと同等またはそれ以上の 性能を確認 ▪ 多数のオープンソース言語モデルに実装 6