l o w r l d Character-level Word-level Transformer Char-level Transformer [output] [output] Character-levelに⽐べて ⼊⼒が⻑くならない 未知語やタイポに弱い Pros Cons 未知語やタイポに強い (open-vocab) Word-levelに⽐べて ⼊⼒系列が⻑くなる Pros Cons OOV 10 tokens
l o w r l d Character-level Hierarchical Word-level Transformer Char-level Transformer [output] Char-level Char-level Word-level Transformer [output] h e l l o w r l d [output] Character-levelに⽐べて ⼊⼒が⻑くならない 未知語やタイポに弱い Pros Cons 未知語やタイポに強い (open-vocab) Word-levelに⽐べて ⼊⼒系列が⻑くなる Pros Cons 未知語やタイポに強い (open-vocab) & ⼊⼒も⻑くならない Pros OOV 10 tokens LSTM時代ではLing+(2015), Ballesteros+(2015), Lample+(2016)が有名
l o w r l d Character-level Hierarchical Word-level Transformer Char-level Transformer [output] Char-level Char-level Word-level Transformer [output] h e l l o w r l d [output] Character-levelに⽐べて ⼊⼒が⻑くならない 未知語やタイポに弱い Pros Cons 未知語やタイポに強い (open-vocab) Word-levelに⽐べて ⼊⼒系列が⻑くなる Pros Cons 未知語やタイポに強い (open-vocab) & ⼊⼒も⻑くならない Pros OOV 10 tokens LSTM時代ではLing+(2015), Ballesteros+(2015), Lample+(2016)が有名 こういう構造でpre-training したら強いのでは? …という話
l o [WORD_CLS] w r l d [output] Char-level Transformer Char-level Transformer 単語表現の作り⽅ Acc on MRPC 各⽂字のAve-Pooling 82.1 各⽂字のMax-Pooling 83.6 [WORD_CLS] 86.0 hello wrld 単語表現は[WORD_CLS]に 対応する出⼒を利⽤ (イマドキ…) • 単語表現を⽂字表現からcompositionalに作成する階層的構造 Poolingで単語表現を作る よくある⽅法は微妙らしい 12層 4層
& BookCorpus 2023/08/28 最先端NLP(平岡) 8 [WORD_CLS] h e l l o [WORD_CLS] w r l d hello wrld Prediction Head (Single Transformer Layer) 12層 Char-level Transformer Char-level Transformer 4層 [WORD_CLS] h e l l o [WORD_CLS] w r l d Finetuning・推論では ここだけ使う