20190918NERchallenge_tathi_public.pdf

About me • Tatsuya Hiraoka • ~2017.3 早⼤（英語教育/理論⾔語学） • ~2019.3
NAIST（松本研） • 2019.4~ 東⼯⼤（岡崎研）、D1 • そーしゃる: • Twitter: 7a7hi • GitHub: tathi 2019/9/18 NLP/CV SoTA Survey Challenge 1

Using Similarity Measures to Select Pretraining Data for NER Xiang
Dai, Sarvnaz Karimi, Ben Hachey, Cecile Paris NAACL 2019 2019/9/18 NLP/CV SoTA Survey Challenge 8

三⽂で • NERの事前学習⽤コーパスをどう選択するか • 三つの指標で事前学習⽤コーパスとメインタスクの類似度を数値化 • 類似度とタスクパフォーマンスに相関有り 2019/9/18 NLP/CV
SoTA Survey Challenge 9

NLPにおけるPretraining ラベル付き新聞コーパス学習器実際に学習したいタスク(target) • ラベル付きデータセットは規模が⼩さい 2019/9/18 NLP/CV SoTA
Survey Challenge 10

NLPにおけるPretraining ラベル付き新聞コーパス学習器実際に学習したいタスク(target) • ラベル付きデータセットは規模が⼩さい • 利⽤可能なラベルなしデータで事前学習医療コーパス
新聞コーパスブログコーパス単語分散表現などを事前学習するためのタスク(source) 2019/9/18 NLP/CV SoTA Survey Challenge 11

ラベル付き新聞コーパス学習器実際に学習したいタスク(target) 医療コーパス新聞コーパスブログコーパス単語分散表現などを事前学習するためのタスク(source)
NLPにおけるPretraining • ラベル付きデータセットは規模が⼩さい • 利⽤可能なラベルなしデータで事前学習 Q: どのコーパスで事前学習するのが⼀番効果的？ 2019/9/18 NLP/CV SoTA Survey Challenge 12

NLPにおけるPretraining • ラベル付きデータセットは規模が⼩さい • 利⽤可能なラベルなしデータで事前学習 Q: どのコーパスで事前学習するのが⼀番効果的？ ◦ × △ A: 直感で選べ！ 2019/9/18 NLP/CV SoTA Survey Challenge 13

target/sourceの関係性を測るスコアが欲しい →定量的に事前学習コーパスを選択できるかも NLPにおけるPretraining • ラベル付きデータセットは規模が⼩さい • 利⽤可能なラベルなしデータで事前学習 Q: どのコーパスで事前学習するのが⼀番効果的？ 2019/9/18 NLP/CV SoTA Survey Challenge 14 ◦ × △

類似度と性能に相関？ • （仮説） • 事前学習がメインタスクの性能に与える影響 • 事前学習⽤のコーパスとメインタスク学習⽤のコーパスの類似度相関があるはず 2019/9/18
NLP/CV SoTA Survey Challenge 15

類似度と性能に相関？ • （仮説） • 事前学習がメインタスクの性能に与える影響 • 事前学習⽤のコーパスとメインタスク学習⽤のコーパスの類似度ラベル付き新聞コーパス
ラベルなし医療コーパス相関があるはず学習器 2019/9/18 NLP/CV SoTA Survey Challenge 16

ラベルなし医療コーパス相関があるはず学習器事前学習 2019/9/18 NLP/CV SoTA Survey Challenge 17

ラベルなし医療コーパス相関があるはず学習器メインタスクの学習事前学習 2019/9/18 NLP/CV SoTA Survey Challenge 18

ラベルなし医療コーパス相関があるはず類似度学習器メインタスクの学習事前学習 2019/9/18 NLP/CV SoTA Survey Challenge 19

ラベルなし医療コーパス相関があるはず類似度学習器メインタスクの学習事前学習性能と相関？ 2019/9/18 NLP/CV SoTA Survey Challenge 20

コーパス間の類似度 1. コーパス間の単語の被覆率 2. ⾔語モデルによる指標 3. 単語分散表現による指標ラベル付き新聞コーパスラベルなし
医療コーパス類似度 𝐷! 𝐷" 2019/9/18 NLP/CV SoTA Survey Challenge 21

コーパス間の類似度 1. コーパス間の単語の被覆率 • sourceの語彙𝑉#! とtargetの語彙𝑉#" から計算 • 語彙が似ているほどスコアが⾼い（⾼いほど良い）ラベル付き
新聞コーパスラベルなし医療コーパス類似度 𝐷! 𝐷" 𝑇𝑉𝐶 𝐷! , 𝐷" = 𝑉#! ∩ 𝑉#" |𝑉## | 𝑉#! 𝑉#" 2019/9/18 NLP/CV SoTA Survey Challenge 22

コーパス間の類似度 2. ⾔語モデルによる指標 • 𝐷! で学習した離散⾔語モデルによる 𝐷" でのパープレキシティを利⽤ • コーパス間の語彙や⽂脈が似ているほど
スコアが下がる（低いほど良い）ラベル付き新聞コーパスラベルなし医療コーパス類似度 𝐷! 𝐷" 𝑃𝑃𝐿 𝐷! , 𝐷" = . $%& ' 𝑃 𝐷" $ |𝜃#! ( & )$ ⾔語モデル学習 PPL計測 2019/9/18 NLP/CV SoTA Survey Challenge 23

コーパス間の類似度 3. 単語分散表現による指標 • 𝐷! で単語分散表現を学習 →𝐷" で再学習し、どのくらい動いたかを計算 • コーパス間の語彙や⽂脈が似ているほど
スコアが下がる（低いほど良い）ラベル付き新聞コーパスラベルなし医療コーパス類似度 𝐷! 𝐷" 𝑊𝑊𝑉 𝐷! , 𝐷" = 1 |𝑉! | 1 𝑑 . $ *! . + , 𝑊 ! $,+ − 𝑊" $,+ . 単語分散表現 𝑊! 単語分散表現 𝑊" 𝑊𝑊𝑉 2019/9/18 NLP/CV SoTA Survey Challenge 24

NERでの評価 • 類似度とメインタスク（NER）の性能を⽐較 • 多くのデータセットで類似度が性能と関係あり 2019/9/18 NLP/CV SoTA Survey Challenge
25

NERでの評価 • 類似度とメインタスク（NER）の性能を⽐較 • 多くのデータセットで類似度が性能と関係あり新聞新聞医療医学レビュー
メインタスク事前学習コーパス 2019/9/18 NLP/CV SoTA Survey Challenge 26

メインタスク事前学習コーパス⾔語モデルを事前学習単語分散表現を事前学習 2019/9/18 NLP/CV SoTA Survey Challenge 27

メインタスク事前学習コーパス⾔語モデルを事前学習単語分散表現を事前学習 1. 単語の被覆率(TVC) TVcC: 名詞・動詞・形容詞のみで計算 2019/9/18 NLP/CV SoTA Survey Challenge 28

メインタスク事前学習コーパス⾔語モデルを事前学習単語分散表現を事前学習 1. 単語の被覆率(TVC) TVcC: 名詞・動詞・形容詞のみで計算 2. ⾔語モデルによる類似度 2019/9/18 NLP/CV SoTA Survey Challenge 29

メインタスク事前学習コーパス⾔語モデルを事前学習単語分散表現を事前学習 1. 単語の被覆率(TVC) TVcC: 名詞・動詞・形容詞のみで計算 2. ⾔語モデルによる類似度 3. 単語分散表現による類似度 2019/9/18 NLP/CV SoTA Survey Challenge 30

メインタスク事前学習コーパス⾔語モデルを事前学習単語分散表現を事前学習 1. 単語の被覆率(TVC) TVcC: 名詞・動詞・形容詞のみで計算 2. ⾔語モデルによる類似度 3. 単語分散表現による類似度 2019/9/18 NLP/CV SoTA Survey Challenge 31

NERでの評価様々なドメインで、類似度と性能関係あり薬剤新聞⽣物⽣物⼯学実験 2019/9/18

NERでの評価様々なドメインで、類似度と性能関係あり薬剤新聞⽣物⽣物⼯学実験類似度・性能の相関係数
内容語（名詞・動詞・形容詞）だけで語彙被覆率を計算したTVcCが単語分散表現・⾔語モデルの事前学習双⽅で性能と強めの相関 2019/9/18 NLP/CV SoTA Survey Challenge 34

まとめと気持ち • シンプルなコーパス間の類似度が、事前学習のメインタスクへの影響と相関する • 語彙が似たコーパスでの事前学習が効果的 • それはそう • NER以外にも応⽤できそう
• 直感を定量化したのがえらい 2019/9/18 NLP/CV SoTA Survey Challenge 35

20190918NERchallenge_tathi_public.pdf

20190918NERchallenge_tathi_public.pdf

tatHi

More Decks by tatHi

Featured

Transcript

About me • Tatsuya Hiraoka • ~2017.3 早⼤（英語教育/理論⾔語学） • ~2019.3

Using Similarity Measures to Select Pretraining Data for NER Xiang

三⽂で • NERの事前学習⽤コーパスをどう選択するか • 三つの指標で事前学習⽤コーパスとメインタスクの類似度を数値化 • 類似度とタスクパフォーマンスに相関有り 2019/9/18 NLP/CV

NLPにおけるPretraining ラベル付き新聞コーパス学習器実際に学習したいタスク(target) • ラベル付きデータセットは規模が⼩さい 2019/9/18 NLP/CV SoTA

NLPにおけるPretraining ラベル付き新聞コーパス学習器実際に学習したいタスク(target) • ラベル付きデータセットは規模が⼩さい • 利⽤可能なラベルなしデータで事前学習医療コーパス

ラベル付き新聞コーパス学習器実際に学習したいタスク(target) 医療コーパス新聞コーパスブログコーパス単語分散表現などを事前学習するためのタスク(source)

ラベル付き新聞コーパス学習器実際に学習したいタスク(target) 医療コーパス新聞コーパスブログコーパス単語分散表現などを事前学習するためのタスク(source)

ラベル付き新聞コーパス学習器実際に学習したいタスク(target) 医療コーパス新聞コーパスブログコーパス単語分散表現などを事前学習するためのタスク(source)

類似度と性能に相関？ • （仮説） • 事前学習がメインタスクの性能に与える影響 • 事前学習⽤のコーパスとメインタスク学習⽤のコーパスの類似度相関があるはず 2019/9/18

類似度と性能に相関？ • （仮説） • 事前学習がメインタスクの性能に与える影響 • 事前学習⽤のコーパスとメインタスク学習⽤のコーパスの類似度ラベル付き新聞コーパス

類似度と性能に相関？ • （仮説） • 事前学習がメインタスクの性能に与える影響 • 事前学習⽤のコーパスとメインタスク学習⽤のコーパスの類似度ラベル付き新聞コーパス

類似度と性能に相関？ • （仮説） • 事前学習がメインタスクの性能に与える影響 • 事前学習⽤のコーパスとメインタスク学習⽤のコーパスの類似度ラベル付き新聞コーパス

類似度と性能に相関？ • （仮説） • 事前学習がメインタスクの性能に与える影響 • 事前学習⽤のコーパスとメインタスク学習⽤のコーパスの類似度ラベル付き新聞コーパス

類似度と性能に相関？ • （仮説） • 事前学習がメインタスクの性能に与える影響 • 事前学習⽤のコーパスとメインタスク学習⽤のコーパスの類似度ラベル付き新聞コーパス

コーパス間の類似度 1. コーパス間の単語の被覆率 2. ⾔語モデルによる指標 3. 単語分散表現による指標ラベル付き新聞コーパスラベルなし

コーパス間の類似度 1. コーパス間の単語の被覆率 • sourceの語彙𝑉#! とtargetの語彙𝑉#" から計算 • 語彙が似ているほどスコアが⾼い（⾼いほど良い）ラベル付き

コーパス間の類似度 2. ⾔語モデルによる指標 • 𝐷! で学習した離散⾔語モデルによる 𝐷" でのパープレキシティを利⽤ • コーパス間の語彙や⽂脈が似ているほど

コーパス間の類似度 3. 単語分散表現による指標 • 𝐷! で単語分散表現を学習 →𝐷" で再学習し、どのくらい動いたかを計算 • コーパス間の語彙や⽂脈が似ているほど

NERでの評価 • 類似度とメインタスク（NER）の性能を⽐較 • 多くのデータセットで類似度が性能と関係あり 2019/9/18 NLP/CV SoTA Survey Challenge

NERでの評価 • 類似度とメインタスク（NER）の性能を⽐較 • 多くのデータセットで類似度が性能と関係あり新聞新聞医療医学レビュー

NERでの評価 • 類似度とメインタスク（NER）の性能を⽐較 • 多くのデータセットで類似度が性能と関係あり新聞新聞医療医学レビュー

NERでの評価 • 類似度とメインタスク（NER）の性能を⽐較 • 多くのデータセットで類似度が性能と関係あり新聞新聞医療医学レビュー

NERでの評価 • 類似度とメインタスク（NER）の性能を⽐較 • 多くのデータセットで類似度が性能と関係あり新聞新聞医療医学レビュー

NERでの評価 • 類似度とメインタスク（NER）の性能を⽐較 • 多くのデータセットで類似度が性能と関係あり新聞新聞医療医学レビュー

NERでの評価 • 類似度とメインタスク（NER）の性能を⽐較 • 多くのデータセットで類似度が性能と関係あり新聞新聞医療医学レビュー

NERでの評価様々なドメインで、類似度と性能関係あり薬剤新聞⽣物⽣物⼯学実験 2019/9/18

NERでの評価様々なドメインで、類似度と性能関係あり薬剤新聞⽣物⽣物⼯学実験 2019/9/18

NERでの評価様々なドメインで、類似度と性能関係あり薬剤新聞⽣物⽣物⼯学実験類似度・性能の相関係数

まとめと気持ち • シンプルなコーパス間の類似度が、事前学習のメインタスクへの影響と相関する • 語彙が似たコーパスでの事前学習が効果的 • それはそう • NER以外にも応⽤できそう