Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文読み会 SNLP2020 ELECTRA: Pre-training Text Encod...

S
May 17, 2023

論文読み会 SNLP2020 ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

第12回最先端NLP勉強会
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators (ICLR2020)
https://sites.google.com/view/snlp-jp/home/

S

May 17, 2023
Tweet

More Decks by S

Other Decks in Research

Transcript

  1. ELECTRA: Pre-training Text Encoders As Discriminators Rather Than Generators. In:

    ICLR 2020 Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning 第12回 最先端NLP勉強会 Titech Okazaki Lab/Hottolink: Sakae Mizuki 2020/09/26 ※ スライド中の図表・数式は,断りのないかぎり本論文からの引用です
  2. 背景・目的・仮説・提案手法 • 背景 • BERT等のMasked Language Modeling(=MLM)は有効だが,pre-trainingがしんどい. • 目的 •

    Masked Language Modeling(=MLM)の効率を改善したい. • つまり,MLMより少ない計算量で済むpre-training taskを考えたい. • ここでいう計算量とは,pre-training taskに消費するFLOPSのこと. • 仮説 • MLMでは,masked token(15%)のみに教師信号が付与される. • すべてのtokenに教師信号を付与できるtaskならば,学習効率が改善するのでは? • 提案手法 • pre-training taskとしてReplaced Token Detection(=RTD)を提案する. • corrupted sentenceを入力して,各tokenがoriginalかreplacedかを識別する. 3
  3. Replaced Token Detectionの説明 • GeneratorおよびDiscriminatorを用意する. • Generatorの役割は masked token filling

    を用いて corrupted sentence を生成す ること.pre-trainingが終われば用済み. • Discriminatorの役割は corrupted sentence のtokenがoriginalかreplacedかを識 別すること.pre-trainingのあとでdownstream taskに転移学習する. • Next sentence predictionは行わない. 6 Generator (small MLM) Discriminator (ELECTRA) the artist sold the car original original original original replaced [mask] artist sold the [mask] the artist sold the painting original sentence corrupted sentence original / replaced detection sample sample
  4. Replaced Token Detectionの説明 • GeneratorはDiscriminatorと同時並行で学習する. • Generatorの学習には,masked token predictionを使う.Discriminatorから誤差逆 伝播するわけではない.

    • つまりGeneratorは,small MLMを学習している. • Generatorの学習が進捗するにつれて本物らしいcorrupted sentenceが生成される. Generator (small MLM) the car [mask] artist sold the [mask] the artist sold the painting 7
  5. 類似手法との区別 • GANではない. • Generatorを敵対的学習するわけではない. • そもそも,Discriminator lossからGeneratorに誤差逆伝播しない. • Denoising

    AutoEncoder(=DAE)とは,ちょっと違う. • original OR replaced を識別するだけなので,original inputを再構成しない. • むしろContinuous Bag-of-Words(=CBOW)に似ている. • Transformerによってtarget vectorとcontext vectorを計算していると考える. • Generatorをproposal distribution,original tokenを正例,replaced tokenを負例とみ なすと,CBOWの枠組みに一致する. 8
  6. うまくいかなかった派生手法 • GeneratorとDiscriminatorの訓練方法を変えることにより,いろいろな派生 手法を作り出すことができる. • たとえば,Generatorの敵対的学習も原理的には可能.どうなるか気になりますよね? • しかし以下に挙げる派生手法は,提案手法ほどの性能が出なかった. • Simpler

    “unigram” generator • unigram確率分布を使ってcorrupted sentenceを生成. • Adversarial ELECTRA • Generatorを敵対的学習(=Discriminatorを騙すように学習). • Two-Stage ELECTRA • Generatorを先に学習.パラメータを固定してから,Discriminatorを学習. 9
  7. 検証仮説および実験設定 • 実験で検証したい仮説は,以下の通り. • ELECTRAの学習効率が,既存手法よりも高いこと. • 具体的には,pre-trainingに要するFLOPS(compute budget)が少ないこと. • 訓練データ量や最適化手法をできるだけ揃えた上で,複数のモデルサイズで

    Baselinesと比較する. • 実験設定は以下の通り. • モデルサイズ:ELECTRA-{Small, Base, Large} • Baselines:BERT-{Small, Base, Large}, RoBERTa(Large), XLNet(Large) • Downstream tasks:GLUE, SQuAD 1.1/2.0(スライドは省略) 12
  8. 効率的な学習の要因 • ELECTRAの学習効率が,既存手法よりも高い理由を分析する. • そこで,Discriminatorの訓練方法を変更して性能を比較してみる. 1. ELECTRA 15% • masked

    tokenのみに対して,Replaced Token Detectionを学習. • ELECTRAとの相違点は,masked token(全体の15%)のみに教師信号が付与されること. 2. Replace MLM • Corrupted sentenceを入力して,masked token predictionを学習. • BERTとの相違点は [mask] tokenが,replaced tokenになること.つまりpre-train/fine-tune discrepancy[Devlin+, 2018]が解消されること. 3. All-Tokens MLM • Corrupted sentenceを入力して,token predictionを学習. • ELECTRAとの相違点は,original/replaced detectionではなくtoken predictionになること. 16
  9. 論文のまとめ • Masked Language Modelingより少ない計算量で済むpre-training taskを考えたい. • 「すべてのtokenに教師信号を付与するとよい」という仮説に基づき, Replaced Token

    Detection taskを提案.本taskでは,smaller MLM をcorrupted sentence generatorとして使用する. • BERT, XLNet, RoBERTaと比較して,学習効率が高い・性能が高いこ とを実証. • Discriminatorの訓練方法を通じた考察により,すべてのtokenに教師 信号を付与することが高効率な学習の源泉らしいことを確認. 19
  10. 発表者の所感 • とてもおもしろい論文である. • Masked Language Modelingの次は何なんだ,を妄想できる. • Negative resultsも報告されているので,とてもありがたい.

    • (お手軽な)発展研究の余地がある. • DiscriminatorからGeneratorに誤差逆伝播してみる. • Masking strategy(e.g. SpanBERT)と併用してみる. • Generatorも転移学習に使用する.など • 一方で Scaling Laws の餌食になる可能性もある. • 訓練データ・計算量の大規模化により,RoBERTaがXLNetを上回った. • Language modelingでは,モデルの大規模化により学習効率が上がるという報告があ る[Kaplan+, 2020]. • ELECTRAもモデルが大規模化するとgainが小さくなる傾向がある(本論文Figure.4). 20 [Kaplan+, 2020] KAPLAN, Jared, et al. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020.
  11. Stepsおよび最適化について • Figure.1では,RoBERTa-100kのFLOPSがELECTRA-100kの約4倍になっています.これ は誤りでは?と思う方のために補足説明しておきます. • stepsは,モデルパラメータの更新回数(=mini batchの個数)を表しています. • RoBERTaのbatch sizeは,ELECTRAの4倍です.このためFLOPSも約4倍になっています.

    (ちょうど4倍にならないのは,GeneratorのFLOPSが加算されるため) • 参考までに,各モデルの主な最適化設定を一覧にしておきます. 22 モデル batch size max steps. optimizer trainset XLNet 2,048 500K Adam [Yang+, 2019] RoBERTa 8,192 500K Adam [Liu+, 2019] BERT 256 1,000K Adam [Devlin+, 2018] BERT(ours)(※) 2,048 500K LAMB [Yang+, 2019] ELECTRA 2,048 500K LAMB [Yang+, 2019] ※ 本論文Table.2