Upgrade to Pro — share decks privately, control downloads, hide ads and more …

最先端NLP勉強会2024

Avatar for Miyu Oba Miyu Oba
August 19, 2024
850

 最先端NLP勉強会2024

最先端NLP勉強会2024にて発表した論文"Sudden Drops in the Loss: Syntax Acquisition, Phase Transitions, and Simplicity Bias in MLMs" (Chen et al., ICLR2024 spotlight) の発表資料

Avatar for Miyu Oba

Miyu Oba

August 19, 2024
Tweet

Transcript

  1. Sudden Drops in the Loss: Syntax Acquisition, Phase Transitions, and

    Simplicity Bias in MLMs Angelica Chen, Ravid Shwartz-Ziv, Kyunghyun Cho, Matthew L. Leavitt, Naomi Saphra ICLR 2024 spotlight 2024-08-25 最先端NLP勉強会2024 発表者:大羽未悠 (NAIST) 1 *スライド中の図や表は断りのない限り本文からの引用
  2. 概要 • 言語モデルの学習時の知識の発現などによる非連続な過程を調査 • モデルの内部的な文法構造の形成と外部的な文法能力の発現 • 事前学習にて、 唐突に内部的な文法構造を形成し、損失が急激に減少するタイミングがあり、 その後外部的な文法能力を促すと解釈可能 •

    内部的な文法構造を形成する機構は言語能力の獲得に影響を与えていることを観察 • 学習時のごく初期だけに内部的な文法構造を形成する機構を抑制することで モデルの性質が向上する 2
  3. 知識の発現における非連続的な過程の調査 • 知識の発現はスケーリング則に従わず唐突な変化を見せることもある • このような非連続的な過程:相転移(phase transition)(他にブレイクスルー, 創発, ブレイクetc. ) •

    物理学的な本来の意味でのphase transitionのような厳密な使い方はされていない • Wei et al 2022らの創発の定義とも異なる (An ability is emergent if it is not present in smaller models but is present in larger models.) • 本研究:モデルサイズは一貫しておりステップ数を動かしている • 相転移がどのように発現するか、特にその学習過程における分析は限られている • 学習済みモデルの挙動を分析するのではなく、 学習時の解釈可能な性質の役割を操作して分析する必要あり • 今回注目する解釈可能な性質:Syntactic Attention Structure 背景 3
  4. Syntactic Attention Structure (SAS) とは • モデルが特定の構文的な依存関係に注目したアテンションヘッドを形成する傾向 • e.g. nestsを予測するときはbuilds,

    uglyに強く依存する • あるヘッドはuglyに依存しあるヘッドはbuildsに注目するかも • MLMの学習時に明示的な帰納バイアスなしに自然に発生することが知られている • 研究方針:SASの発現を制御→MLMの内部構造の特性と外的な能力の関係を観察 SAS 4
  5. SASの定量化 | unlabeled attatchment score (UAS) • 言語モデルが構文解析の結果と同じように単語にアテンションを当てられているか • モデルが各事例の各単語の親を予測

    • ある単語とattentionの重みが最大の単語 • 構文解析の結果と比較して予測が成功した割合を計算 • Silver label: • Wall Street Journal portion of the Penn Treebankから1kドキュメント • Stanford Dependenciesで構文解析した結果 SAS bird builds root nests builds 親 nests My bird builds … ugly 5
  6. 統語獲得の段階 • 問い:MLMの内部の文法構造の特性と外的な文法能力の関係はどう解釈可能か • MLM: bert-base (本研究では一貫して同じサイズ) • 内部構造:UAS (SASの定量化)

    • 外的能力:BLiMPでの性能 • 文法的に正しい文:The cats annoy Tim. • 文法的に正しくない文:The cat annoy Tim. • 上記の文のpseudo likelihoodを計算し、 モデルが正しい文を選択できた割合 • ステップ数と損失の関係 • 損失が20K-30Kステップあたりで急速に下がる • これを2つの異なる相転移の組み合わせとして解釈可能 モデルの内的文法構造・外的文法能力の解釈可能性 7
  7. 統語獲得の段階 | 2つの異なる相転移 • 構造の発現 (△) • :SASが形成される段階 • UASが損失やGLUEスコアの向上と連動

    モデルの内的文法構造・外的文法能力の解釈可能性 * 図は異なる3つのシードでの結果 BERTだけでなくMultiBERTでも同じような軌跡になる 8
  8. 統語獲得の段階 | 2つの異なる相転移 • 能力の発現 (◦) • :モデルの外的な文法能力 (BLiMP Acc.)

    の急激な向上フェーズ • UASは平になり、損失はゆるやかになる モデルの内的文法構造・外的文法能力の解釈可能性 9
  9. 統語獲得の段階 | 2つの異なる相転移 • 構造の発現 (△) • :SASが形成される段階 • UASが損失やGLUEスコアの向上と連動

    • 能力の発現 (◦) • :モデルの外的な文法能力 (BLiMP Acc.) の急激な向上フェーズ • UASは平になり、損失はゆるやかになる • 内部の文法的な表現 (SAS) が 外的な文法的な振る舞い (BLiMP) を促進することを観察 モデルの内的文法構造・外的文法能力の解釈可能性 11
  10. 複雑性の相転移 • 問い:各発現の前後にて複雑性は変異するのか? • 表現学習にて重みの複雑性の減少が重要かも (Achille et al., 2018) •

    複雑性の評価:固有次元推定アルゴリズム(TwoNN) • 固有次元:表現に必要な最小限の変数 • 構造の発現の前:複雑性の急激な減少 • 単純化バイアス: 学習初期段階でSASのような単純な関数を好む傾向 (Arpit et al., 2017) • 構造の発現と能力の発現の間:複雑性の急増 • 記憶段階:急速に情報を獲得する段階と解釈できそう • 構造の発現と能力の発現は複雑性の相転移としても解釈可能 複雑性と圧縮 12
  11. SASの制御 • 問い:SASは言語現象を操作するのに重要か? • 方法:SASを制御して損失とUASとBLiMPを観察 • SASの制御方法: • アテンションの分布の構造を統語スコアで操作 •

    依存関係のある単語間のアテンションの重みを促進・抑制する正則化項を追加 SASの制御 統語スコア: ある単語に対する依存関係のうち アテンションスコアが最大の単語 (統語的なつながりがあると思われる) 13 SASを促進する:負 SASを抑制する:正
  12. SASの制御による影響 • BERTSAS+ SASを促進 • BLiMP性能:早く向上 • (長期的には悪影響だが) • BERTSAS-

    : SASを抑制 • BLiMP性能: 早期の向上はなく後段にも悪影響 • SASを抑制して内部の文法構造の獲得段階 (構造の発現)を妨害することで それに続く外部の文法能力(能力の発現)も妨げる • SASは文法能力の増減に影響するがSASを促進しても抑制しても長期的には悪影響 SASの制御 14
  13. SASの抑制の持続 • 問い:SASの抑制は具体的にいつぐらいまで持続するといいのか? • 方法: • SASの抑制をやめるステップ数ごとに 相転移が発生するステップ数・その際のUASのスパイクの強さをプロット • 結果:

    • SASを短時間 (0.5*10^4ぐらい?) 抑制することで構造の発現が加速される • 長く抑制しすぎると今までのモデルで見られたUASの急激なスパイクが打たれなくなる • 単純化バイアスは強すぎると悪影響という知見と構文的なな文脈からも一致(Shah et al., 2020) SASの制御 17
  14. カリキュラムラーニングがうまくいかない原因? • 本研究はカリキュラムラーニングと似ていそう • カリキュラムラーニング :どんなデータを与えるか (特に大規模なモデルでうまくいかないことが多いらしい) • 本研究:データの何を見るか •

    著者の考察: • 単純なデータは、単純な戦略を促進する可能性が高い • 初期のデータ分布を均一化するようなカリキュラムは 初期の性能を向上させる一方で、後の性能を損なう可能性があるのでは ディスカッション 18
  15. まとめ • 言語モデルの学習時の知識の発現などによる非連続な過程を調査 • モデルの内部的な文法構造の形成と外部的な文法能力の発現 • 知見: • 事前学習にて、唐突に内部的な文法構造を形成し、損失が急激に減少するタイミングが あり、その後外部的な文法能力(BLiMP)を促すと解釈可能

    • SASは言語能力の獲得に影響を与えていることを観察 • 学習時のごく初期だけにSASを形成する機構を抑制することでモデルの性質が向上 • おまけ: • Naomi Saphra (本研究の最終著者でモデルの学習過程の解明に取り組んでいる研究者) の ブログ https://nsaphra.net/post/prinia /: 本研究の紹介をしつつ、 なぜ言語モデルの学習過程を調査する必要があるかについて哲学的な文脈から記述されている 19