Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
CoCon
Search
Zhang Yixiao
December 16, 2020
Science
0
340
CoCon
Zhang Yixiao
December 16, 2020
Tweet
Share
More Decks by Zhang Yixiao
See All by Zhang Yixiao
vq-cpc
ldzhangyx
0
340
MixPoet
ldzhangyx
4
370
diora
ldzhangyx
0
240
drummernet
ldzhangyx
0
200
ON-LSTM
ldzhangyx
0
150
Other Decks in Science
See All in Science
マクロ経済学の視点で、財政健全化は必要か
ryo18cm
1
100
Visual Analytics for R&D Intelligence @Funding the Commons & DeSci Tokyo 2024
hayataka88
0
110
ACL読み会2024@名大 REANO: Optimising Retrieval-Augmented Reader Models through Knowledge Graph Generation
takuma_matsubara
0
100
(2024) Livres, Femmes et Math
mansuy
0
110
【人工衛星】座標変換についての説明
02hattori11sat03
0
130
Introduction to Image Processing: 2.Frequ
hachama
0
270
Iniciativas independentes de divulgação científica: o caso do Movimento #CiteMulheresNegras
taisso
0
400
学術講演会中央大学学員会八王子支部
tagtag
0
250
Improving Search @scale with efficient query experimentation @BerlinBuzzwords 2024
searchhub
0
250
生成AI による論文執筆サポートの手引き(ワークショップ) / A guide to supporting dissertation writing with generative AI (workshop)
ks91
PRO
0
320
20分で分かる Human-in-the-Loop 機械学習におけるアノテーションとヒューマンコンピューターインタラクションの真髄
hurutoriya
5
2.5k
白金鉱業Meetup Vol.15 DMLによる条件付処置効果の推定_sotaroIZUMI_20240919
brainpadpr
2
590
Featured
See All Featured
Designing Experiences People Love
moore
138
23k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Building Your Own Lightsaber
phodgson
103
6.1k
A Modern Web Designer's Workflow
chriscoyier
693
190k
Designing for Performance
lara
604
68k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
365
25k
The Language of Interfaces
destraynor
154
24k
GraphQLとの向き合い方2022年版
quramy
44
13k
YesSQL, Process and Tooling at Scale
rocio
169
14k
Embracing the Ebb and Flow
colly
84
4.5k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
29
2k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
48k
Transcript
CoCon: A Self-Supervised Approach for Controlled Text Generation Presenter: Yixiao
Zhang
TL;DR • 任务:用文本指导文本,进行可控生成 • 亮点: • 让文本成为控制变量:更加灵活 • 漂亮的损失函数 •
模型是自监督训练的 • 结果表明显著加强了语言模型的可控性
Introduction • 基于Transformer的预训练LM成为了新的浪潮,但是从头训练LM 的成本巨大 • 问题:不改变预训练LM的情况下,LM如何进行控制? • 解决办法1:PPLM,通过属性模型控制生成文本 • 缺点:不够精细,可能造成巨大差异
Sumanth Dathathri, Andrea Madotto, Janice Lan, Jane Hung, Eric Frank, Piero Molino, Jason Yosinski, and Rosanne Liu. Plug and play language models: a simple approach to controlled text generation. arXiv preprint arXiv:1912.02164, 2019.
Related Work • 生成包含所需属性的文本 • 早期工作 • 条件生成模型,可通过RL或GAN训练 • 缺陷:对预定属性的要求限制了生成文本的可能类型
• CTRL • 使用control code(预置的metadata)生成文本 • 缺陷:control code也是预先设定的 • PPLM(最相似) • 在LM上插拔一个模块,不重新训练实现生成 • 区别: • 本文旨在在更局部的内容上控制 • CoCon自监督学习,免去了标签数据
Related Work • 文本风格迁移 • 少数研究采用AE以分离表示 • 另外一些模型能识别attribute markers •
一些特定风格相关的n-grams • 通过替换的方式编辑文本风格
CoCon • 模型目标: • 给定引导文本1:−1 和控制文本,模型 生成: • 过程: •
分别编码c和x • 自注意力交互,得 到新的特征 • 进行下一个词预测
CoCon • CoCon是一个单层 Transformer Block • 首先得到x和c的QKV • 将KV拼起来过self-attn
Loss Function • 自重构损失(Self Reconstruction Loss) • 令c = ,使得模型能够学习结合控制文本的内容
• 无文本损失(Null Content Loss) • 令 = ∅,使得模型退化成LM,以生成流畅的文本
Loss Function • 循环重构损失(Cycle Reconstruction Loss) • 在inference中,生成文本不太可能与引导文本共存 • 给定两个不同的文本(,
′)
Loss Function • 对抗损失(Adversarial Loss) • 总优化目标
实验 • 文本引导的文本生成评估指标有BLEU、NIST、METEOR、PPL和 Dist-1/2/3
实验 • 文本引导的文本生成评估指标有BLEU、NIST、METEOR、PPL和 Dist-1/2/3
例子
多个控制