Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20190918NERchallenge_tathi_public.pdf
Search
tatHi
September 18, 2019
1
910
20190918NERchallenge_tathi_public.pdf
tatHi
September 18, 2019
Tweet
Share
More Decks by tatHi
See All by tatHi
SNLP2023: From Characters to Words: Hierarchical Pre-trained Language Model for Open-vocabulary Language Understanding
tathi
0
360
最長一致法のためのサブワード正則化手法(MaxMatch-Dropout)とその周辺の話
tathi
1
590
最先端NLP2022: Rare Tokens Degenerate All Tokens: Improving Neural Text Generation via Adaptive Gradient Gating for Rare Token Embeddings
tathi
1
570
テキストベクトルの重み付けを用いたタスクに対する単語分割の最適化
tathi
1
770
要点を聞いてもらえるプレゼンを作ろう
tathi
13
5.8k
Task-Oriented Word Segmentation (Presentation for Doctoral Dissertation)
tathi
3
580
論文紹介: Fast WordPiece Tokenization
tathi
0
490
最先端NLP2021: How Good is Your Tokenizer? On the Monolingual Performance of Multilingual Language Models
tathi
0
600
文系的な興味を理系的な達成目標に変換する
tathi
7
4.6k
Featured
See All Featured
Keith and Marios Guide to Fast Websites
keithpitt
410
22k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.5k
No one is an island. Learnings from fostering a developers community.
thoeni
19
3k
Fontdeck: Realign not Redesign
paulrobertlloyd
82
5.3k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
95
17k
The Pragmatic Product Professional
lauravandoore
32
6.3k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5.1k
Why You Should Never Use an ORM
jnunemaker
PRO
54
9.1k
Raft: Consensus for Rubyists
vanstee
137
6.7k
Fashionably flexible responsive web design (full day workshop)
malarkey
405
66k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
48k
A Modern Web Designer's Workflow
chriscoyier
693
190k
Transcript
About me • Tatsuya Hiraoka • ~2017.3 早⼤(英語教育/理論⾔語学) • ~2019.3
NAIST(松本研) • 2019.4~ 東⼯⼤(岡崎研)、D1 • そーしゃる: • Twitter: 7a7hi • GitHub: tathi 2019/9/18 NLP/CV SoTA Survey Challenge 1
Using Similarity Measures to Select Pretraining Data for NER Xiang
Dai, Sarvnaz Karimi, Ben Hachey, Cecile Paris NAACL 2019 2019/9/18 NLP/CV SoTA Survey Challenge 8
三⽂で • NERの事前学習⽤コーパスをどう選択するか • 三つの指標で事前学習⽤コーパスと メインタスクの類似度を数値化 • 類似度とタスクパフォーマンスに相関有り 2019/9/18 NLP/CV
SoTA Survey Challenge 9
NLPにおけるPretraining ラベル付き 新聞コーパス 学習器 実際に学習したいタスク(target) • ラベル付きデータセットは規模が⼩さい 2019/9/18 NLP/CV SoTA
Survey Challenge 10
NLPにおけるPretraining ラベル付き 新聞コーパス 学習器 実際に学習したいタスク(target) • ラベル付きデータセットは規模が⼩さい • 利⽤可能なラベルなしデータで事前学習 医療コーパス
新聞コーパス ブログ コーパス 単語分散表現などを事前学習 するためのタスク(source) 2019/9/18 NLP/CV SoTA Survey Challenge 11
ラベル付き 新聞コーパス 学習器 実際に学習したいタスク(target) 医療コーパス 新聞コーパス ブログ コーパス 単語分散表現などを事前学習 するためのタスク(source)
NLPにおけるPretraining • ラベル付きデータセットは規模が⼩さい • 利⽤可能なラベルなしデータで事前学習 Q: どのコーパスで事前学習するのが⼀番効果的? 2019/9/18 NLP/CV SoTA Survey Challenge 12
ラベル付き 新聞コーパス 学習器 実際に学習したいタスク(target) 医療コーパス 新聞コーパス ブログ コーパス 単語分散表現などを事前学習 するためのタスク(source)
NLPにおけるPretraining • ラベル付きデータセットは規模が⼩さい • 利⽤可能なラベルなしデータで事前学習 Q: どのコーパスで事前学習するのが⼀番効果的? ◦ × △ A: 直感で選べ! 2019/9/18 NLP/CV SoTA Survey Challenge 13
ラベル付き 新聞コーパス 学習器 実際に学習したいタスク(target) 医療コーパス 新聞コーパス ブログ コーパス 単語分散表現などを事前学習 するためのタスク(source)
target/sourceの関係性を測るスコアが欲しい →定量的に事前学習コーパスを選択できるかも NLPにおけるPretraining • ラベル付きデータセットは規模が⼩さい • 利⽤可能なラベルなしデータで事前学習 Q: どのコーパスで事前学習するのが⼀番効果的? 2019/9/18 NLP/CV SoTA Survey Challenge 14 ◦ × △
類似度と性能に相関? • (仮説) • 事前学習がメインタスクの性能に与える影響 • 事前学習⽤のコーパスとメインタスク学習⽤の コーパスの類似度 相関があるはず 2019/9/18
NLP/CV SoTA Survey Challenge 15
類似度と性能に相関? • (仮説) • 事前学習がメインタスクの性能に与える影響 • 事前学習⽤のコーパスとメインタスク学習⽤の コーパスの類似度 ラベル付き 新聞コーパス
ラベルなし 医療コーパス 相関があるはず 学習器 2019/9/18 NLP/CV SoTA Survey Challenge 16
類似度と性能に相関? • (仮説) • 事前学習がメインタスクの性能に与える影響 • 事前学習⽤のコーパスとメインタスク学習⽤の コーパスの類似度 ラベル付き 新聞コーパス
ラベルなし 医療コーパス 相関があるはず 学習器 事前学習 2019/9/18 NLP/CV SoTA Survey Challenge 17
類似度と性能に相関? • (仮説) • 事前学習がメインタスクの性能に与える影響 • 事前学習⽤のコーパスとメインタスク学習⽤の コーパスの類似度 ラベル付き 新聞コーパス
ラベルなし 医療コーパス 相関があるはず 学習器 メインタスクの学習 事前学習 2019/9/18 NLP/CV SoTA Survey Challenge 18
類似度と性能に相関? • (仮説) • 事前学習がメインタスクの性能に与える影響 • 事前学習⽤のコーパスとメインタスク学習⽤の コーパスの類似度 ラベル付き 新聞コーパス
ラベルなし 医療コーパス 相関があるはず 類似度 学習器 メインタスクの学習 事前学習 2019/9/18 NLP/CV SoTA Survey Challenge 19
類似度と性能に相関? • (仮説) • 事前学習がメインタスクの性能に与える影響 • 事前学習⽤のコーパスとメインタスク学習⽤の コーパスの類似度 ラベル付き 新聞コーパス
ラベルなし 医療コーパス 相関があるはず 類似度 学習器 メインタスクの学習 事前学習 性能と相関? 2019/9/18 NLP/CV SoTA Survey Challenge 20
コーパス間の類似度 1. コーパス間の単語の被覆率 2. ⾔語モデルによる指標 3. 単語分散表現による指標 ラベル付き 新聞コーパス ラベルなし
医療コーパス 類似度 𝐷! 𝐷" 2019/9/18 NLP/CV SoTA Survey Challenge 21
コーパス間の類似度 1. コーパス間の単語の被覆率 • sourceの語彙𝑉#! とtargetの語彙𝑉#" から計算 • 語彙が似ているほどスコアが⾼い(⾼いほど良い) ラベル付き
新聞コーパス ラベルなし 医療コーパス 類似度 𝐷! 𝐷" 𝑇𝑉𝐶 𝐷! , 𝐷" = 𝑉#! ∩ 𝑉#" |𝑉## | 𝑉#! 𝑉#" 2019/9/18 NLP/CV SoTA Survey Challenge 22
コーパス間の類似度 2. ⾔語モデルによる指標 • 𝐷! で学習した離散⾔語モデルによる 𝐷" でのパープレキシティを利⽤ • コーパス間の語彙や⽂脈が似ているほど
スコアが下がる(低いほど良い) ラベル付き 新聞コーパス ラベルなし 医療コーパス 類似度 𝐷! 𝐷" 𝑃𝑃𝐿 𝐷! , 𝐷" = . $%& ' 𝑃 𝐷" $ |𝜃#! ( & )$ ⾔語モデル 学習 PPL計測 2019/9/18 NLP/CV SoTA Survey Challenge 23
コーパス間の類似度 3. 単語分散表現による指標 • 𝐷! で単語分散表現を学習 →𝐷" で再学習し、どのくらい動いたかを計算 • コーパス間の語彙や⽂脈が似ているほど
スコアが下がる(低いほど良い) ラベル付き 新聞コーパス ラベルなし 医療コーパス 類似度 𝐷! 𝐷" 𝑊𝑊𝑉 𝐷! , 𝐷" = 1 |𝑉! | 1 𝑑 . $ *! . + , 𝑊 ! $,+ − 𝑊" $,+ . 単語分散表現 𝑊! 単語分散表現 𝑊" 𝑊𝑊𝑉 2019/9/18 NLP/CV SoTA Survey Challenge 24
NERでの評価 • 類似度とメインタスク(NER)の性能を⽐較 • 多くのデータセットで類似度が性能と関係あり 2019/9/18 NLP/CV SoTA Survey Challenge
25
NERでの評価 • 類似度とメインタスク(NER)の性能を⽐較 • 多くのデータセットで類似度が性能と関係あり 新聞 新聞 医療 医学 レビュー
メインタスク 事前学習 コーパス 2019/9/18 NLP/CV SoTA Survey Challenge 26
NERでの評価 • 類似度とメインタスク(NER)の性能を⽐較 • 多くのデータセットで類似度が性能と関係あり 新聞 新聞 医療 医学 レビュー
メインタスク 事前学習 コーパス ⾔語モデル を事前学習 単語分散表現 を事前学習 2019/9/18 NLP/CV SoTA Survey Challenge 27
NERでの評価 • 類似度とメインタスク(NER)の性能を⽐較 • 多くのデータセットで類似度が性能と関係あり 新聞 新聞 医療 医学 レビュー
メインタスク 事前学習 コーパス ⾔語モデル を事前学習 単語分散表現 を事前学習 1. 単語の被覆率(TVC) TVcC: 名詞・動詞・形容詞 のみで計算 2019/9/18 NLP/CV SoTA Survey Challenge 28
NERでの評価 • 類似度とメインタスク(NER)の性能を⽐較 • 多くのデータセットで類似度が性能と関係あり 新聞 新聞 医療 医学 レビュー
メインタスク 事前学習 コーパス ⾔語モデル を事前学習 単語分散表現 を事前学習 1. 単語の被覆率(TVC) TVcC: 名詞・動詞・形容詞 のみで計算 2. ⾔語モデル による類似度 2019/9/18 NLP/CV SoTA Survey Challenge 29
NERでの評価 • 類似度とメインタスク(NER)の性能を⽐較 • 多くのデータセットで類似度が性能と関係あり 新聞 新聞 医療 医学 レビュー
メインタスク 事前学習 コーパス ⾔語モデル を事前学習 単語分散表現 を事前学習 1. 単語の被覆率(TVC) TVcC: 名詞・動詞・形容詞 のみで計算 2. ⾔語モデル による類似度 3. 単語分散表現 による類似度 2019/9/18 NLP/CV SoTA Survey Challenge 30
NERでの評価 • 類似度とメインタスク(NER)の性能を⽐較 • 多くのデータセットで類似度が性能と関係あり 新聞 新聞 医療 医学 レビュー
メインタスク 事前学習 コーパス ⾔語モデル を事前学習 単語分散表現 を事前学習 1. 単語の被覆率(TVC) TVcC: 名詞・動詞・形容詞 のみで計算 2. ⾔語モデル による類似度 3. 単語分散表現 による類似度 2019/9/18 NLP/CV SoTA Survey Challenge 31
NERでの評価 様々なドメインで、 類似度と性能関係あり 薬剤 新聞 ⽣物 ⽣物 ⼯学 実験 2019/9/18
NLP/CV SoTA Survey Challenge 32
NERでの評価 様々なドメインで、 類似度と性能関係あり 薬剤 新聞 ⽣物 ⽣物 ⼯学 実験 2019/9/18
NLP/CV SoTA Survey Challenge 33
NERでの評価 様々なドメインで、 類似度と性能関係あり 薬剤 新聞 ⽣物 ⽣物 ⼯学 実験 類似度・性能の相関係数
内容語(名詞・動詞・形容詞)だけで 語彙被覆率を計算したTVcCが 単語分散表現・⾔語モデルの事前学習 双⽅で性能と強めの相関 2019/9/18 NLP/CV SoTA Survey Challenge 34
まとめと気持ち • シンプルなコーパス間の類似度が、 事前学習のメインタスクへの影響と相関する • 語彙が似たコーパスでの事前学習が効果的 • それはそう • NER以外にも応⽤できそう
• 直感を定量化したのがえらい 2019/9/18 NLP/CV SoTA Survey Challenge 35