Upgrade to Pro — share decks privately, control downloads, hide ads and more …

人工言語を使った事前訓練:言語間転移が可能なエンコーダの持っている知識とは何か?

Ryokan RI
September 14, 2022

 人工言語を使った事前訓練:言語間転移が可能なエンコーダの持っている知識とは何か?

ニューラルネットワークを用いた自然言語処理において標準的に用いられるモジュールに、入力系列から有用な情報を抽出するエンコーダがある。このエンコーダについて、我々人間からすると直感に反するような興味深い観察が報告されている。単一の言語で訓練されたエンコーダが、文法が異なる別の言語の入力にも転用できる、ということである。また、非言語データ(楽譜、プログラミングコードなど)で訓練したとしても、自然言語タスクにある程度役に立つエンコーダが得られることが知られている。人間の目には全く異なるように見える言語(系列データ)の間で転移されている知識とは何か?本研究では、抽象的な構造を持つ人工的に生成した系列データ("人工言語")を用いてエンコーダを訓練する。そのエンコーダを自然言語タスクへと転用し、性能を評価することによって、自然言語タスクに有用かつ転移可能な構造を明らかにする。

Ryokan RI

September 14, 2022
Tweet

More Decks by Ryokan RI

Other Decks in Research

Transcript

  1. ੈքதͷݴޠͱσʔλྔ The State and Fate of Linguistic Diversity and Inclusion

    in the NLP World (Joshi, et al., 2020) 7 ݴޠʢ೔ຊޠɺӳޠͳͲʣ 2191 ݴޠ 222 ݴޠ
  2. ͓ͲΖ͖ͷઌߦݚڀͨͪ On the Cross-lingual Transferability of Monolingual Representations (Artetxe et

    al., 2020) Encoder L1 Embeddings L1 Pretraining 🇬🇧 L2 Embeddings Encoder ❄ L2 Pretraining 🇪🇸 Encoder L2 Embeddings L2 Evaluation 🇪🇸 Encoder L1 Embeddings L1 Fine-tuning 🇬🇧 ❄ ΤϯίʔμͷॏΈ͸ӳޠͰ͔͠Ξοϓσʔτ͞Ε͍ͯͳ͍͕ɺεϖΠϯޠͷλεΫ͕ղ͚Δɻ
  3. ͓ͲΖ͖ͷઌߦݚڀͨͪ Using Transfer to Study Linguistic Structure in Language Models

    (Papadimitriou and Jurafsky, 2020) Encoder L1 Embeddings L1 Pretraining ♪ L2 Embeddings Encoder ❄ L2 Training 🇪🇸 Encoder L2 Embeddings L2 Evaluation 🇪🇸 ָේσʔλͰ܇࿅͞ΕͨΤϯίʔμ͕ɺεϖΠϯޠͷϞσϦϯάʹ͋Δఔ౓࢖͑Δɻ
  4. ࣮ݧख๏ ਓ޻ݴޠ͔ΒͷసҠֶश Encoder L1 Embeddings L1 Pretraining L2 Embeddings Encoder

    ❄ L2 Training 🇬🇧 Encoder L2 Embeddings L2 Evaluation 🇬🇧 Կ͔͠Βͷߏ଄Λ࣋ͬͨਓ޻ݴޠΛσβΠϯ͢Δɻ
  5. ਓ޻ݴޠ '1539', '3283', '2412', '6587', '5401', '26', '9138', '3192', '904',

    '7458' w ୯ޠͷ୅ΘΓʹ਺ࣈͱه߸ͷཏྻ͔ΒͳΔɻ w Կ͔͠ΒͷTFNBOUJDTʹάϥ΢ϯσΟϯά͞Ε͍ͯΔΘ͚ Ͱ͸ͳ͘ɺͨͩߏ଄Λ΋ͭɻ w ਓ޻ݴޠͷจ͸αϯϓϦϯά͞Εͯੜ੒͞ΕΔɻ
  6. Log-Linear Language ୯ޠ͸จຖʹҟͳΔ෼෍͔ΒαϯϓϦϯά͞ΕΔɻ p(w|s) ∝ exp( ⃗ c s ⋅

    ⃗ v w ) ⃗ c s ⃗ v w Discourse vector: ͜Ε͸ͦΕͧΕͷจʹରͯ͠ɺਖ਼ن෼෍ ͔ΒϥϯμϜʹαϯϓϧ͞ΕΔɻ Word vectors: ͦΕͧΕͷ୯ޠ͕ϕΫτϧΛ࣋ͭɻ͜ͷϕΫ τϧ͸ਖ਼ن෼෍͔ΒϥϯμϜʹαϯϓϦϯά͞ΕΔɻ
  7. Nesting Dependency Language <0 <248 <23 23> <567 567> 248>

    0> • จ಺ʹ୯ޠ͸ඞͣಛఆͷϖΞͱҰॹʹݱΕΔɻ • ϖΞͷґଘؔ܎͸ೖΕࢠʹͳ͍ͬͯΔɻ
  8. Flat Dependency Language <0 <248 <23 23> <567 567> 0>

    • ϖΞͷґଘؔ܎͸ೖΕࢠʹͳ͍ͬͯͳͯ͘ྑ͍ɻ 248> • จ಺ʹ୯ޠ͸ඞͣಛఆͷϖΞͱҰॹʹݱΕΔɻ
  9. ͔֬Ί͍ͨ͜ͱ Encoder L1 Embeddings L1 Pretraining L2 Embeddings Encoder ❄

    L2 Training 🇬🇧 Encoder L2 Embeddings L2 Evaluation 🇬🇧 ͜͜ͷਓ޻ݴޠ͕ͲͷΑ͏ͳߏ଄Λ͍࣋ͬͯΕ͹ ӳޠͷλεΫΛղ͘ͷʹ໾ʹཱͭΤϯίʔμ͕Ͱ͖Δͷ͔ʁ
  10. ϕʔεϥΠϯͳͲ L2 Embeddings Encoder ❄ Random Weights 🇬🇧 Encoder From

    Scratch L2 Embeddings 🇬🇧 Encoder L1 Embeddings Pretrained Encoders L2 Embeddings Encoder ❄ 🇬🇧
  11. Ϟσϧ • Transformer (300 dim, 3 layers) ࣄલֶशͷσʔλ 12.8M จΛ֤ݴޠʹ͍ͭͯαϯϓϦϯάɻ

    • Artificial languages • Natural languages (Wikipedia dumps of en, es, ja) ධՁλεΫͷσʔλ (Fine-tuning and test) • the Penn Treebank Corpus ࣮ݧઃఆ (LSTM ΋ࢼͯ͠େମಉ͡܏޲)