Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
最先端NLP2020: Dice Loss for Data-imbalanced NLP ...
Search
tatHi
September 25, 2020
Research
0
1.9k
最先端NLP2020: Dice Loss for Data-imbalanced NLP Tasks
Japanese presentation introducing "Dice Loss for Data-imbalanced NLP Tasks".
tatHi
September 25, 2020
Tweet
Share
More Decks by tatHi
See All by tatHi
SNLP2023: From Characters to Words: Hierarchical Pre-trained Language Model for Open-vocabulary Language Understanding
tathi
0
390
最長一致法のためのサブワード正則化手法(MaxMatch-Dropout)とその周辺の話
tathi
1
630
最先端NLP2022: Rare Tokens Degenerate All Tokens: Improving Neural Text Generation via Adaptive Gradient Gating for Rare Token Embeddings
tathi
1
600
テキストベクトルの重み付けを用いたタスクに対する単語分割の最適化
tathi
1
820
要点を聞いてもらえるプレゼンを作ろう
tathi
13
6.2k
Task-Oriented Word Segmentation (Presentation for Doctoral Dissertation)
tathi
3
600
論文紹介: Fast WordPiece Tokenization
tathi
0
520
最先端NLP2021: How Good is Your Tokenizer? On the Monolingual Performance of Multilingual Language Models
tathi
0
640
文系的な興味を理系的な達成目標に変換する
tathi
7
4.6k
Other Decks in Research
See All in Research
o1 pro mode の調査レポート
smorce
0
150
研究を支える拡張性の高い ワークフローツールの提案 / Proposal of highly expandable workflow tools to support research
linyows
0
360
Mathematics in the Age of AI and the 4 Generation University
hachama
0
140
アプリケーションから知るモデルマージ
maguro27
0
290
プロシェアリング白書2025_PROSHARING_REPORT_2025
circulation
1
240
情報処理学会関西支部2024年度定期講演会「自然言語処理と大規模言語モデルの基礎」
ksudoh
10
2.7k
Gemini と Looker で営業DX をドライブする / Driving Sales DX with Gemini and Looker
sansan_randd
0
190
DPUを用いたマルチタスクDNN表情認識システムのFPGA実装
takuto_andtt
0
120
Satellite Sunroof: High-res Digital Surface Models and Roof Segmentation for Global Solar Mapping
satai
3
190
A Segment Anything Model based weakly supervised learning method for crop mapping using Sentinel-2 time series images
satai
3
180
The many faces of AI and the role of mathematics
gpeyre
1
1.7k
NeurIPS 2024 参加報告 & 論文紹介 (SACPO, Ctrl-G)
reisato12345
0
390
Featured
See All Featured
The Language of Interfaces
destraynor
156
24k
How to train your dragon (web standard)
notwaldorf
91
5.9k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
366
25k
Thoughts on Productivity
jonyablonski
69
4.5k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
It's Worth the Effort
3n
184
28k
Reflections from 52 weeks, 52 projects
jeffersonlam
349
20k
Build The Right Thing And Hit Your Dates
maggiecrowley
34
2.6k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
227
22k
The Pragmatic Product Professional
lauravandoore
33
6.5k
Six Lessons from altMBA
skipperchong
27
3.7k
Practical Orchestrator
shlominoach
186
10k
Transcript
Dice Loss for Data-imbalanced NLP Tasks Xiaoya Li, Xiaofei Sun,
Yuxian Meng, Junjun Liang, Fei Wu, Jiwei Li (ACL2020) Presenter: 平岡達也(東⼯⼤岡崎研D2) 2020/9/21 最先端NLP2020 1
まとめると • 問題: • (1) NLPタスクにおけるラベルの偏りがもたらす性能低下 • (2) easy-exampleに偏った学習を⾏うことによる性能低下 •
→これらは⼀般的に使⽤されるCross Entropy Lossでは考慮できない • 解決⽅策: • (1) Dice係数に基づくロス(Dice Loss)を導⼊し, ラベルの偏りを考慮した学習を⾏う. • (2) Focal Lossを応⽤することで, easy-exampleに学習が偏らない損失関数へとDice Lossを拡張 • 結果: • 複数のタスクで性能向上に寄与 • POS, NER, Reading comprehension, Paraphrase identification 2020/9/21 最先端NLP2020 2
NLPタスクにおける偏ったラベル⽐ • POS • ほとんどがNOUN • NER • ほとんどがOタグ •
Sentiment • ほとんどがpositive 2020/9/21 最先端NLP2020 3
偏ったラベル⽐が引き起こす⼆つの問題 1. 学習と評価の乖離 • 学習時は各サンプルをCross Entropy Lossで学習するため,サンプル 数の多いラベルに予測が傾く. • 評価ではF1値を⽤いるため,偏った予測に対するペナルティがある.
2. Easy negative exampleを重点的に学習 • 特定のラベルに偏ったデータではeasy-exampleが多くなる • 偏ったラベルの中の特に簡単なサンプルを重点的に学習してしまう 2020/9/21 最先端NLP2020 4
偏ったラベル⽐が引き起こす⼆つの問題 1. 学習と評価の乖離 • 学習時は各サンプルをCross Entropy Lossで学習するため,サンプル 数の多いラベルに予測が傾く. • 評価ではF1値を⽤いるため,偏った予測に対するペナルティがある.
• →(1) F1 scoreに関係する損失(Dice loss)で学習する 2. Easy negative exampleを重点的に学習 • 特定のラベルに偏ったデータではeasy-exampleが多くなる • 偏ったラベルの中の特に簡単なサンプルを重点的に学習してしまう • →(2) ⾃信を持って正解できる事例の損失に重みをつける (Focal lossに由来) 2020/9/21 最先端NLP2020 5
(1) Dice Loss [1/3] • ⽬的:学習損失と評価に⽤いるF1 scoreのギャップを埋める • ⽅法:F1 scoreに基づいた損失を設計
• Dice Similarity Coefficient (DSC) • ※⼆値分類の場合 A: モデルが正と予測した 事例の集合 B: 実際の正例の集合 と考えると 2020/9/21 最先端NLP2020 6
(1) Dice Loss [2/3] • ⽬的:学習損失と評価に⽤いるF1 scoreのギャップを埋める • ⽅法:F1 scoreに基づいた損失を設計
• Dice Similarity Coefficient (DSC) • ※⼆値分類の場合 A: モデルが正と予測した 事例の集合 B: 実際の正例の集合 と考えると A B AとBが完全に重なるときに (, )が最⼤ →負例に偏った予測をしていると ペナルティがある 2020/9/21 最先端NLP2020 7
(1) Dice Loss [3/3] • ⽬的:学習損失と評価に⽤いるF1 scoreのギャップを埋める • ⽅法:F1 scoreに基づいた損失を設計
• Dice Loss (DL) 事例! が正例ラベル1である予測確率 事例! が正例である時に1,その他で0 ⼀つの事例! についてのDSC データ全体でのDice Loss (! )をデータ全体で計算. !" # , !" # は学習が早くなるテクニック 2020/9/21 最先端NLP2020 8
(2) Self-adjusting Dice Loss [1/2] • 問題:easy-exampleに学習が偏る • 現象: •
⼆値分類の場合,正負のラベルを予測するためにはラベルの予測確率 が0.5より少しでも⼤きいか・⼩さければ良い. • Easy-example(例えばeasy-negative)が多い場合,予測確率が0に なるようにどんどん学習されてしまう • 例えば正例確率が0.1で⼗分に分類できているにもかかわらず,0.0に確率を近 づけるような損失が働く • →0.5付近の予測が0側に引っ張られてしまい,識別が難しくなる • (hard-negative, positiveの分類が難しくなる) • Easy-exampleはラベルが⼤きく偏っている場合に発⽣する 2020/9/21 最先端NLP2020 9
(2) Self-adjusting Dice Loss [2/2] • ⽬的:easy-exampleに学習が偏ることを防ぐ • ⽅法:モデルの予測確率でロスに重みをつけ, ⾃信を持って予測できる事例の損失を下げる
• 正例に対して,最低限の !" = 0.5を予測できるようする 2020/9/21 最先端NLP2020 10 DL DSC
Experiments (POS) • 中国語のPOSタグ付データセット • 他にもNER・読解・分類タスクで性能向上を確認 2020/9/25 最先端NLP2020 11
vs. Data augmentation • Paraphrase identification dataset QQP (⼆値分類) •
データ拡張・縮⼩を⾏ったデータセットで実験 • ラベルが均等になるようなデータ拡張を⾏わなくとも, DSCだけでそこそこの性能向上が得られる 訓練事例数 363,871 458,477 458,477 269,165 458,477(?) pos/neg⽐ 37% 63% 50% 50% 21% 79% 50% 50% 50% 50% 2020/9/21 最先端NLP2020 12
まとめ • ラベルが偏ったデータを学習するためにDiceLossを提案 • 評価で使⽤されるF1 scoreと同様の⽬的関数によりギャップを無くす • Focal Lossを応⽤し,easy-exampleの影響を減らす •
POSタグ付,NERなどの多値分類タスクで性能向上 • Data Augmentationせずとも,ラベルの偏りの影響を軽減した 学習が可能 • Generationタスクに応⽤できるか? • ラベル数(語彙)が⼤きすぎて難しい? 2020/9/21 最先端NLP2020 13