$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Direct Preference Optimization
Search
Henry Cui
February 24, 2024
Science
0
410
Direct Preference Optimization
Henry Cui
February 24, 2024
Tweet
Share
More Decks by Henry Cui
See All by Henry Cui
プロダクション言語モデルの情報を盗む攻撃 / Stealing Part of a Production Language Model
zchenry
1
220
Diffusion Model with Perceptual Loss
zchenry
0
460
レンズの下のLLM / LLM under the Lens
zchenry
0
200
Go with the Prompt Flow
zchenry
0
180
Mojo Dojo
zchenry
0
230
ことのはの力で画像の異常検知 / Anomaly Detection by Language
zchenry
0
630
驚愕の事実!LangChainが抱える問題 / Problems of LangChain
zchenry
0
280
MLOps初心者がMLflowを触る / MLflow Brief Introduction
zchenry
0
160
{{guidance}}のガイダンス / Guidance of guidance
zchenry
0
180
Other Decks in Science
See All in Science
データマイニング - グラフ埋め込み入門
trycycle
PRO
1
130
データベース15: ビッグデータ時代のデータベース
trycycle
PRO
0
400
データベース12: 正規化(2/2) - データ従属性に基づく正規化
trycycle
PRO
0
1k
力学系から見た現代的な機械学習
hanbao
3
3.7k
良書紹介04_生命科学の実験デザイン
bunnchinn3
0
110
LayerXにおける業務の完全自動運転化に向けたAI技術活用事例 / layerx-ai-jsai2025
shimacos
2
21k
Kaggle: NeurIPS - Open Polymer Prediction 2025 コンペ 反省会
calpis10000
0
290
機械学習 - K近傍法 & 機械学習のお作法
trycycle
PRO
0
1.3k
mOrganic™ Holdings, LLC.
hyperlocalnetwork
0
210
NDCG is NOT All I Need
statditto
2
2.6k
ランサムウェア対策にも考慮したVMware、Hyper-V、Azure、AWS間のリアルタイムレプリケーション「Zerto」を徹底解説
climbteam
0
190
サイコロで理解する原子核崩壊と拡散現象 〜単純化されたモデルで本質を理解する〜
syotasasaki593876
0
130
Featured
See All Featured
Building AI with AI
inesmontani
PRO
1
570
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
0
950
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.1k
Building Applications with DynamoDB
mza
96
6.8k
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
1
1.3k
How to Ace a Technical Interview
jacobian
281
24k
Why Our Code Smells
bkeepers
PRO
340
57k
GraphQLとの向き合い方2022年版
quramy
50
14k
The World Runs on Bad Software
bkeepers
PRO
72
12k
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
1
1.3k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.8k
Optimizing for Happiness
mojombo
379
70k
Transcript
Direct Preference Optimization 機械学習の社会実装勉強会第32回 Henry 2024/2/24
内容 ▪ NeurIPS 2023 Outstanding Main Track Runner-Ups 受賞 ▪
著者に有名な先生が多い 2
モチベーション ▪ 大量テキストで学習した言語モデルを望ましい挙動に微調整 する必要(Alignment) • 大量コードの平均能力でなく、少量存在の優れたコードに • 一般大衆のもつ誤認識でなく、それを修正すべき ▪ Alignmentを達成するために、現状2段階の複雑な強化学習
手法を使うので、それと理論上等価なシンプルな手法を提案 3
RLHFアプローチの3ステップ ▪ SFT: Supervised fine-tuning ▪ Rewardモデルを学習する • RewardモデルがBradley-Terry (BT)に従う想定
• BTの仮定で導出する損失関数 ▪ RL Fine-tune • Rewardモデルを使って、下記損失関数でfine-tune ▪ 提案法はRewardとRL Fine-tuneをまとめて、rewardモデルを 使わずに学習 4
提案法DPO ▪ RL Fine-tuneの損失関数の最適解 ▪ 上記最適解をrewardモデルを取り出すよう書き換える • Your Language Model
Is Secretly a Reward Model ▪ Rewardモデルを学習する損失関数に代入する • BTモデルのお陰で、Zが消える • Directに言語モデルを最適化できるようになる 5
実験 ▪ 3つのタスクで評価 • controlled sentiment generation • summarization •
single-turn dialogue ▪ 複数スケールのデータセットでRHLFと同等またはそれ以上の 性能を確認 ▪ 多数のオープンソース言語モデルに実装 6