Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
最先端NLP2020: Dice Loss for Data-imbalanced NLP ...
Search
tatHi
September 25, 2020
Research
0
1.9k
最先端NLP2020: Dice Loss for Data-imbalanced NLP Tasks
Japanese presentation introducing "Dice Loss for Data-imbalanced NLP Tasks".
tatHi
September 25, 2020
Tweet
Share
More Decks by tatHi
See All by tatHi
SNLP2023: From Characters to Words: Hierarchical Pre-trained Language Model for Open-vocabulary Language Understanding
tathi
0
390
最長一致法のためのサブワード正則化手法(MaxMatch-Dropout)とその周辺の話
tathi
1
630
最先端NLP2022: Rare Tokens Degenerate All Tokens: Improving Neural Text Generation via Adaptive Gradient Gating for Rare Token Embeddings
tathi
1
600
テキストベクトルの重み付けを用いたタスクに対する単語分割の最適化
tathi
1
820
要点を聞いてもらえるプレゼンを作ろう
tathi
13
6.2k
Task-Oriented Word Segmentation (Presentation for Doctoral Dissertation)
tathi
3
600
論文紹介: Fast WordPiece Tokenization
tathi
0
520
最先端NLP2021: How Good is Your Tokenizer? On the Monolingual Performance of Multilingual Language Models
tathi
0
640
文系的な興味を理系的な達成目標に変換する
tathi
7
4.6k
Other Decks in Research
See All in Research
Weekly AI Agents News! 2月号 アーカイブ
masatoto
1
110
Weekly AI Agents News! 11月号 論文のアーカイブ
masatoto
0
320
SI-D案内資料_京都文教大学
ryojitakeuchi1116
0
220
Gemini と Looker で営業DX をドライブする / Driving Sales DX with Gemini and Looker
sansan_randd
0
190
rtrec@dbem6
myui
6
630
DeepSeek-R1の論文から読み解く背景技術
personabb
3
490
[輪講] Transformer Layers as Painters
nk35jk
4
720
クラウドのテレメトリーシステム研究動向2025年
yuukit
3
780
サーブレシーブ成功率は勝敗に影響するか?
vball_panda
0
600
JSAI NeurIPS 2024 参加報告会(AI アライメント)
akifumi_wachi
5
930
Weekly AI Agents News! 11月号 プロダクト/ニュースのアーカイブ
masatoto
0
320
公立高校入試等に対する受入保留アルゴリズム(DA)導入の提言
shunyanoda
0
320
Featured
See All Featured
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
118
51k
A Modern Web Designer's Workflow
chriscoyier
693
190k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.2k
GitHub's CSS Performance
jonrohan
1030
460k
Rails Girls Zürich Keynote
gr2m
94
13k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
2.1k
Rebuilding a faster, lazier Slack
samanthasiow
80
8.9k
Building Adaptive Systems
keathley
41
2.5k
Into the Great Unknown - MozCon
thekraken
36
1.7k
Building Flexible Design Systems
yeseniaperezcruz
328
38k
Transcript
Dice Loss for Data-imbalanced NLP Tasks Xiaoya Li, Xiaofei Sun,
Yuxian Meng, Junjun Liang, Fei Wu, Jiwei Li (ACL2020) Presenter: 平岡達也(東⼯⼤岡崎研D2) 2020/9/21 最先端NLP2020 1
まとめると • 問題: • (1) NLPタスクにおけるラベルの偏りがもたらす性能低下 • (2) easy-exampleに偏った学習を⾏うことによる性能低下 •
→これらは⼀般的に使⽤されるCross Entropy Lossでは考慮できない • 解決⽅策: • (1) Dice係数に基づくロス(Dice Loss)を導⼊し, ラベルの偏りを考慮した学習を⾏う. • (2) Focal Lossを応⽤することで, easy-exampleに学習が偏らない損失関数へとDice Lossを拡張 • 結果: • 複数のタスクで性能向上に寄与 • POS, NER, Reading comprehension, Paraphrase identification 2020/9/21 最先端NLP2020 2
NLPタスクにおける偏ったラベル⽐ • POS • ほとんどがNOUN • NER • ほとんどがOタグ •
Sentiment • ほとんどがpositive 2020/9/21 最先端NLP2020 3
偏ったラベル⽐が引き起こす⼆つの問題 1. 学習と評価の乖離 • 学習時は各サンプルをCross Entropy Lossで学習するため,サンプル 数の多いラベルに予測が傾く. • 評価ではF1値を⽤いるため,偏った予測に対するペナルティがある.
2. Easy negative exampleを重点的に学習 • 特定のラベルに偏ったデータではeasy-exampleが多くなる • 偏ったラベルの中の特に簡単なサンプルを重点的に学習してしまう 2020/9/21 最先端NLP2020 4
偏ったラベル⽐が引き起こす⼆つの問題 1. 学習と評価の乖離 • 学習時は各サンプルをCross Entropy Lossで学習するため,サンプル 数の多いラベルに予測が傾く. • 評価ではF1値を⽤いるため,偏った予測に対するペナルティがある.
• →(1) F1 scoreに関係する損失(Dice loss)で学習する 2. Easy negative exampleを重点的に学習 • 特定のラベルに偏ったデータではeasy-exampleが多くなる • 偏ったラベルの中の特に簡単なサンプルを重点的に学習してしまう • →(2) ⾃信を持って正解できる事例の損失に重みをつける (Focal lossに由来) 2020/9/21 最先端NLP2020 5
(1) Dice Loss [1/3] • ⽬的:学習損失と評価に⽤いるF1 scoreのギャップを埋める • ⽅法:F1 scoreに基づいた損失を設計
• Dice Similarity Coefficient (DSC) • ※⼆値分類の場合 A: モデルが正と予測した 事例の集合 B: 実際の正例の集合 と考えると 2020/9/21 最先端NLP2020 6
(1) Dice Loss [2/3] • ⽬的:学習損失と評価に⽤いるF1 scoreのギャップを埋める • ⽅法:F1 scoreに基づいた損失を設計
• Dice Similarity Coefficient (DSC) • ※⼆値分類の場合 A: モデルが正と予測した 事例の集合 B: 実際の正例の集合 と考えると A B AとBが完全に重なるときに (, )が最⼤ →負例に偏った予測をしていると ペナルティがある 2020/9/21 最先端NLP2020 7
(1) Dice Loss [3/3] • ⽬的:学習損失と評価に⽤いるF1 scoreのギャップを埋める • ⽅法:F1 scoreに基づいた損失を設計
• Dice Loss (DL) 事例! が正例ラベル1である予測確率 事例! が正例である時に1,その他で0 ⼀つの事例! についてのDSC データ全体でのDice Loss (! )をデータ全体で計算. !" # , !" # は学習が早くなるテクニック 2020/9/21 最先端NLP2020 8
(2) Self-adjusting Dice Loss [1/2] • 問題:easy-exampleに学習が偏る • 現象: •
⼆値分類の場合,正負のラベルを予測するためにはラベルの予測確率 が0.5より少しでも⼤きいか・⼩さければ良い. • Easy-example(例えばeasy-negative)が多い場合,予測確率が0に なるようにどんどん学習されてしまう • 例えば正例確率が0.1で⼗分に分類できているにもかかわらず,0.0に確率を近 づけるような損失が働く • →0.5付近の予測が0側に引っ張られてしまい,識別が難しくなる • (hard-negative, positiveの分類が難しくなる) • Easy-exampleはラベルが⼤きく偏っている場合に発⽣する 2020/9/21 最先端NLP2020 9
(2) Self-adjusting Dice Loss [2/2] • ⽬的:easy-exampleに学習が偏ることを防ぐ • ⽅法:モデルの予測確率でロスに重みをつけ, ⾃信を持って予測できる事例の損失を下げる
• 正例に対して,最低限の !" = 0.5を予測できるようする 2020/9/21 最先端NLP2020 10 DL DSC
Experiments (POS) • 中国語のPOSタグ付データセット • 他にもNER・読解・分類タスクで性能向上を確認 2020/9/25 最先端NLP2020 11
vs. Data augmentation • Paraphrase identification dataset QQP (⼆値分類) •
データ拡張・縮⼩を⾏ったデータセットで実験 • ラベルが均等になるようなデータ拡張を⾏わなくとも, DSCだけでそこそこの性能向上が得られる 訓練事例数 363,871 458,477 458,477 269,165 458,477(?) pos/neg⽐ 37% 63% 50% 50% 21% 79% 50% 50% 50% 50% 2020/9/21 最先端NLP2020 12
まとめ • ラベルが偏ったデータを学習するためにDiceLossを提案 • 評価で使⽤されるF1 scoreと同様の⽬的関数によりギャップを無くす • Focal Lossを応⽤し,easy-exampleの影響を減らす •
POSタグ付,NERなどの多値分類タスクで性能向上 • Data Augmentationせずとも,ラベルの偏りの影響を軽減した 学習が可能 • Generationタスクに応⽤できるか? • ラベル数(語彙)が⼤きすぎて難しい? 2020/9/21 最先端NLP2020 13