Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
最先端NLP2020: Dice Loss for Data-imbalanced NLP ...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
tatHi
September 25, 2020
Research
2k
0
Share
最先端NLP2020: Dice Loss for Data-imbalanced NLP Tasks
Japanese presentation introducing "Dice Loss for Data-imbalanced NLP Tasks".
tatHi
September 25, 2020
More Decks by tatHi
See All by tatHi
SNLP2023: From Characters to Words: Hierarchical Pre-trained Language Model for Open-vocabulary Language Understanding
tathi
0
520
最長一致法のためのサブワード正則化手法(MaxMatch-Dropout)とその周辺の話
tathi
1
720
最先端NLP2022: Rare Tokens Degenerate All Tokens: Improving Neural Text Generation via Adaptive Gradient Gating for Rare Token Embeddings
tathi
1
730
テキストベクトルの重み付けを用いたタスクに対する単語分割の最適化
tathi
1
1k
要点を聞いてもらえるプレゼンを作ろう
tathi
14
7k
Task-Oriented Word Segmentation (Presentation for Doctoral Dissertation)
tathi
3
680
論文紹介: Fast WordPiece Tokenization
tathi
0
630
最先端NLP2021: How Good is Your Tokenizer? On the Monolingual Performance of Multilingual Language Models
tathi
0
730
文系的な興味を理系的な達成目標に変換する
tathi
7
4.8k
Other Decks in Research
See All in Research
AGI4OPT:自然言語から数理最適化を導くエ ージェントスキル Translating Human Intent into Mathematical Optimization
mickey_kubo
0
130
Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing
satai
3
790
都市交通マスタープランとその後への期待@熊本商工会議所・熊本経済同友会
trafficbrain
0
210
NLP colloquium: AI Safety Survey
kanekomasahiro
0
490
LINEヤフー データサイエンス Meetup「三井物産コモディティ予測チャレンジ」の舞台裏-AlpacaTechパート
gamella
1
540
Cross-Media Information Spaces and Architectures
signer
PRO
0
290
セマンティック通信勉強会 6Gに向けたデバイス間効率的な通信の技術紹介・課題・今後展望
satai
2
130
2026年3月1日(日)福島「除染土」の公共利用をかんがえる
atsukomasano2026
0
610
Ghost in the 7‑Zip: The Shadow of Residential Proxies Creeping into Your Life
nttcom
0
250
LiDAR点群の地表面分類手法の比較・検証
vegapunkhiroshi79
0
110
はじまりの クエスチョンブック —余暇と豊かさにあふれた社会とは?
culturaltransition
PRO
0
470
2026.01ウェビナー資料
elith
0
380
Featured
See All Featured
Balancing Empowerment & Direction
lara
6
1.1k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
70
39k
Test your architecture with Archunit
thirion
1
2.3k
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
290
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
1
3.6k
Information Architects: The Missing Link in Design Systems
soysaucechin
0
950
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
2k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.9k
New Earth Scene 8
popppiees
3
2.3k
Context Engineering - Making Every Token Count
addyosmani
9
930
Unsuck your backbone
ammeep
672
58k
Transcript
Dice Loss for Data-imbalanced NLP Tasks Xiaoya Li, Xiaofei Sun,
Yuxian Meng, Junjun Liang, Fei Wu, Jiwei Li (ACL2020) Presenter: 平岡達也(東⼯⼤岡崎研D2) 2020/9/21 最先端NLP2020 1
まとめると • 問題: • (1) NLPタスクにおけるラベルの偏りがもたらす性能低下 • (2) easy-exampleに偏った学習を⾏うことによる性能低下 •
→これらは⼀般的に使⽤されるCross Entropy Lossでは考慮できない • 解決⽅策: • (1) Dice係数に基づくロス(Dice Loss)を導⼊し, ラベルの偏りを考慮した学習を⾏う. • (2) Focal Lossを応⽤することで, easy-exampleに学習が偏らない損失関数へとDice Lossを拡張 • 結果: • 複数のタスクで性能向上に寄与 • POS, NER, Reading comprehension, Paraphrase identification 2020/9/21 最先端NLP2020 2
NLPタスクにおける偏ったラベル⽐ • POS • ほとんどがNOUN • NER • ほとんどがOタグ •
Sentiment • ほとんどがpositive 2020/9/21 最先端NLP2020 3
偏ったラベル⽐が引き起こす⼆つの問題 1. 学習と評価の乖離 • 学習時は各サンプルをCross Entropy Lossで学習するため,サンプル 数の多いラベルに予測が傾く. • 評価ではF1値を⽤いるため,偏った予測に対するペナルティがある.
2. Easy negative exampleを重点的に学習 • 特定のラベルに偏ったデータではeasy-exampleが多くなる • 偏ったラベルの中の特に簡単なサンプルを重点的に学習してしまう 2020/9/21 最先端NLP2020 4
偏ったラベル⽐が引き起こす⼆つの問題 1. 学習と評価の乖離 • 学習時は各サンプルをCross Entropy Lossで学習するため,サンプル 数の多いラベルに予測が傾く. • 評価ではF1値を⽤いるため,偏った予測に対するペナルティがある.
• →(1) F1 scoreに関係する損失(Dice loss)で学習する 2. Easy negative exampleを重点的に学習 • 特定のラベルに偏ったデータではeasy-exampleが多くなる • 偏ったラベルの中の特に簡単なサンプルを重点的に学習してしまう • →(2) ⾃信を持って正解できる事例の損失に重みをつける (Focal lossに由来) 2020/9/21 最先端NLP2020 5
(1) Dice Loss [1/3] • ⽬的:学習損失と評価に⽤いるF1 scoreのギャップを埋める • ⽅法:F1 scoreに基づいた損失を設計
• Dice Similarity Coefficient (DSC) • ※⼆値分類の場合 A: モデルが正と予測した 事例の集合 B: 実際の正例の集合 と考えると 2020/9/21 最先端NLP2020 6
(1) Dice Loss [2/3] • ⽬的:学習損失と評価に⽤いるF1 scoreのギャップを埋める • ⽅法:F1 scoreに基づいた損失を設計
• Dice Similarity Coefficient (DSC) • ※⼆値分類の場合 A: モデルが正と予測した 事例の集合 B: 実際の正例の集合 と考えると A B AとBが完全に重なるときに (, )が最⼤ →負例に偏った予測をしていると ペナルティがある 2020/9/21 最先端NLP2020 7
(1) Dice Loss [3/3] • ⽬的:学習損失と評価に⽤いるF1 scoreのギャップを埋める • ⽅法:F1 scoreに基づいた損失を設計
• Dice Loss (DL) 事例! が正例ラベル1である予測確率 事例! が正例である時に1,その他で0 ⼀つの事例! についてのDSC データ全体でのDice Loss (! )をデータ全体で計算. !" # , !" # は学習が早くなるテクニック 2020/9/21 最先端NLP2020 8
(2) Self-adjusting Dice Loss [1/2] • 問題:easy-exampleに学習が偏る • 現象: •
⼆値分類の場合,正負のラベルを予測するためにはラベルの予測確率 が0.5より少しでも⼤きいか・⼩さければ良い. • Easy-example(例えばeasy-negative)が多い場合,予測確率が0に なるようにどんどん学習されてしまう • 例えば正例確率が0.1で⼗分に分類できているにもかかわらず,0.0に確率を近 づけるような損失が働く • →0.5付近の予測が0側に引っ張られてしまい,識別が難しくなる • (hard-negative, positiveの分類が難しくなる) • Easy-exampleはラベルが⼤きく偏っている場合に発⽣する 2020/9/21 最先端NLP2020 9
(2) Self-adjusting Dice Loss [2/2] • ⽬的:easy-exampleに学習が偏ることを防ぐ • ⽅法:モデルの予測確率でロスに重みをつけ, ⾃信を持って予測できる事例の損失を下げる
• 正例に対して,最低限の !" = 0.5を予測できるようする 2020/9/21 最先端NLP2020 10 DL DSC
Experiments (POS) • 中国語のPOSタグ付データセット • 他にもNER・読解・分類タスクで性能向上を確認 2020/9/25 最先端NLP2020 11
vs. Data augmentation • Paraphrase identification dataset QQP (⼆値分類) •
データ拡張・縮⼩を⾏ったデータセットで実験 • ラベルが均等になるようなデータ拡張を⾏わなくとも, DSCだけでそこそこの性能向上が得られる 訓練事例数 363,871 458,477 458,477 269,165 458,477(?) pos/neg⽐ 37% 63% 50% 50% 21% 79% 50% 50% 50% 50% 2020/9/21 最先端NLP2020 12
まとめ • ラベルが偏ったデータを学習するためにDiceLossを提案 • 評価で使⽤されるF1 scoreと同様の⽬的関数によりギャップを無くす • Focal Lossを応⽤し,easy-exampleの影響を減らす •
POSタグ付,NERなどの多値分類タスクで性能向上 • Data Augmentationせずとも,ラベルの偏りの影響を軽減した 学習が可能 • Generationタスクに応⽤できるか? • ラベル数(語彙)が⼤きすぎて難しい? 2020/9/21 最先端NLP2020 13