Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SNLP2023: From Characters to Words: Hierarchic...

Avatar for tatHi tatHi
August 21, 2023

SNLP2023: From Characters to Words: Hierarchical Pre-trained Language Model for Open-vocabulary Language Understanding

Paper introduction slides for 最先端NLP 2023.

Avatar for tatHi

tatHi

August 21, 2023
Tweet

More Decks by tatHi

Other Decks in Research

Transcript

  1. From Characters to Words: Hierarchical Pre-trained Language Model for Open-vocabulary

    Language Understanding Li Sun, Florian Luisier, Kayhan Batmanghelich, Dinei Florencio, Cha Zhang (ACL2023) Presenter: 平岡 達也 @7a7hi 2023/08/28 最先端NLP(平岡) 1
  2. Word-levelな構造 2023/08/28 最先端NLP(平岡) 3 Word-level hello wrld Word-level Transformer [output]

    Character-levelに⽐べて ⼊⼒が⻑くならない 未知語やタイポに弱い Pros Cons OOV
  3. Character-levelな構造 2023/08/28 最先端NLP(平岡) 4 Word-level hello wrld h e l

    l o w r l d Character-level Word-level Transformer Char-level Transformer [output] [output] Character-levelに⽐べて ⼊⼒が⻑くならない 未知語やタイポに弱い Pros Cons 未知語やタイポに強い (open-vocab) Word-levelに⽐べて ⼊⼒系列が⻑くなる Pros Cons OOV 10 tokens
  4. Hierarchicalな構造 2023/08/28 最先端NLP(平岡) 5 Word-level hello wrld h e l

    l o w r l d Character-level Hierarchical Word-level Transformer Char-level Transformer [output] Char-level Char-level Word-level Transformer [output] h e l l o w r l d [output] Character-levelに⽐べて ⼊⼒が⻑くならない 未知語やタイポに弱い Pros Cons 未知語やタイポに強い (open-vocab) Word-levelに⽐べて ⼊⼒系列が⻑くなる Pros Cons 未知語やタイポに強い (open-vocab) & ⼊⼒も⻑くならない Pros OOV 10 tokens LSTM時代ではLing+(2015), Ballesteros+(2015), Lample+(2016)が有名
  5. Hierarchicalな構造 2023/08/28 最先端NLP(平岡) 6 Word-level hello wrld h e l

    l o w r l d Character-level Hierarchical Word-level Transformer Char-level Transformer [output] Char-level Char-level Word-level Transformer [output] h e l l o w r l d [output] Character-levelに⽐べて ⼊⼒が⻑くならない 未知語やタイポに弱い Pros Cons 未知語やタイポに強い (open-vocab) Word-levelに⽐べて ⼊⼒系列が⻑くなる Pros Cons 未知語やタイポに強い (open-vocab) & ⼊⼒も⻑くならない Pros OOV 10 tokens LSTM時代ではLing+(2015), Ballesteros+(2015), Lample+(2016)が有名 こういう構造でpre-training したら強いのでは? …という話
  6. 提案手法:構造 2023/08/28 最先端NLP(平岡) 7 Word-level Transformer [WORD_CLS] h e l

    l o [WORD_CLS] w r l d [output] Char-level Transformer Char-level Transformer 単語表現の作り⽅ Acc on MRPC 各⽂字のAve-Pooling 82.1 各⽂字のMax-Pooling 83.6 [WORD_CLS] 86.0 hello wrld 単語表現は[WORD_CLS]に 対応する出⼒を利⽤ (イマドキ…) • 単語表現を⽂字表現からcompositionalに作成する階層的構造 Poolingで単語表現を作る よくある⽅法は微妙らしい 12層 4層
  7. Word-level Transformer 提案手法:学習 • Character-level Masked Language Modelとして事前学習 • Wikipedia

    & BookCorpus 2023/08/28 最先端NLP(平岡) 8 [WORD_CLS] h e l l o [WORD_CLS] w r l d hello wrld Prediction Head (Single Transformer Layer) 12層 Char-level Transformer Char-level Transformer 4層 [WORD_CLS] h e l l o [WORD_CLS] w r l d Finetuning・推論では ここだけ使う
  8. 実験:GLUE Tasks 2023/08/28 最先端NLP(平岡) 9 subword-level byte-level char-level word&char (CNN)

    word&char (GRU) word&char (Transformer) • Subword-levelなモデルよりも性能が良さげ • Character/byte-levelなモデルと⽐較すると安定して性能が良い • 既存のCharacter/word双⽅の情報を⽤いる⼿法と⽐べても性能が良い • CharacterBERTはCNNで⽂字情報から単語表現を作るHierarchicalな⼿法 • CharBERTはGRUで読み込んだ⽂字情報を追加で使うParallelな⼿法
  9. 実験:GLUE Tasks 2023/08/28 最先端NLP(平岡) 10 subword-level byte-level char-level word&char (CNN)

    word&char (GRU) word&char (Transformer) • Subword-levelなモデルよりも性能が良さげ • Character/byte-levelなモデルと⽐較すると安定して性能が良い • 既存のCharacter/word双⽅の情報を⽤いる⼿法と⽐べても性能が良い • CharacterBERTはCNNで⽂字情報から単語表現を作るHierarchicalな⼿法 • CharBERTはGRUで読み込んだ⽂字情報を追加で使うParallelな⼿法
  10. 実験:GLUE Tasks 2023/08/28 最先端NLP(平岡) 11 subword-level byte-level char-level word&char (CNN)

    word&char (GRU) word&char (Transformer) • Subword-levelなモデルよりも性能が良さげ • Character/byte-levelなモデルと⽐較すると安定して性能が良い • 既存のCharacter/word双⽅の情報を⽤いる⼿法と⽐べても性能が良い • CharacterBERTはCNNで⽂字情報から単語表現を作るHierarchicalな⼿法 • CharBERTはGRUで読み込んだ⽂字情報を追加で使うParallelな⼿法
  11. 実験:GLUE Tasks 2023/08/28 最先端NLP(平岡) 12 subword-level byte-level char-level word&char (CNN)

    word&char (GRU) word&char (Transformer) • Subword-levelなモデルよりも性能が良さげ • Character/byte-levelなモデルと⽐較すると安定して性能が良い • 既存のCharacter/word双⽅の情報を⽤いる⼿法と⽐べても性能が良い • CharacterBERTはCNNで⽂字情報から単語表現を作るHierarchicalな⼿法 • CharBERTはGRUで読み込んだ⽂字情報を追加で使うParallelな⼿法
  12. 実験:人工ノイズに対して頑健 2023/08/28 最先端NLP(平岡) 15 ランダムに10%の ⽂字を削除 Finetuning/evaluationデータに対する ランダムに選択した 20%の⽂字を 1〜3回リピート

    各⽂字をランダムに ⼩/⼤⽂字に変換 Subword-levelはノイズにとても弱い Character-levelを使う⼿法ははノイズに頑健 提案⼿法は安定して良い
  13. 実験:人工ノイズに対して頑健 2023/08/28 最先端NLP(平岡) 16 ランダムに10%の ⽂字を削除 Finetuning/evaluationデータに対する ランダムに選択した 20%の⽂字を 1〜3回リピート

    各⽂字をランダムに ⼩/⼤⽂字に変換 Subword-levelはノイズにとても弱い Character-levelを使う⼿法ははノイズに頑健 提案⼿法は安定して良い • Subword-level (BERT) はノイズにとても弱い • Character-levelな情報を 使う⼿法はノイズによる 性能の下がり幅が⼩さい • 提案⼿法とCANINEは ノイズに特に頑健だが、 提案⼿法のほうが 全体的に性能が良い 性能が良い 性能が悪い ノイズが強い ノイズが弱い
  14. 実験:ドメインシフトにも強い 2023/08/28 最先端NLP(平岡) 19 事前学習データはWikipedia & BookCorpus Biomedical NER Social

    Media NER BERTよりは良い Character-levelの 他の⼿法が弱すぎる (なぜ?) Subword-levelなモデルは サブワード分割が壊れると 失敗しがち →提案⼿法は⽂字を⾒てるので頑健
  15. まとめ • 偉い点 • ⽂字情報から単語表現を作る⽅法についてちゃんと検討している • Character-levelな⼿法と⽐較している • ⼀部の実験はCharacter-levelの性能が異常に低く評価が怪しいような…? •

    ⼈⼯ノイズやドメインシフト、NERなど、 この⼿の⼿法で気になる評価をしっかり取り扱っている • 使い道 • 汚いデータでの利⽤を想定したLLMを作るなら役に⽴つかも • Character-levelな⼿法よりは速いらしいです(ほんとに?) • 感想 • これのTransformerバージョン、まだやられてなかったんだ… 2023/08/28 最先端NLP(平岡) 20 ⽂字情報と単語情報を階層的に扱えるTransformer構造を提案 ⽂字情報を扱えるため、Typoや未知語に強い 事前学習済みモデルを作成可能