Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介: Language-Specific Neurons: The Key to Mul...

inaba
August 29, 2024

論文紹介: Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models

ACL2024 の論文 "Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models" の紹介です

Tianyi Tang, Wenyang Luo, Haoyang Huang, Dongdong Zhang, Xiaolei Wang, Xin Zhao, Furu Wei, Ji-Rong Wen.

inaba

August 29, 2024
Tweet

More Decks by inaba

Other Decks in Research

Transcript

  1. 論⽂解説: Language-Specific Neurons: The Key to Multilingual Capabilities in Large

    Language Models 1 発表者: 稲葉 達郎 M2, Audio and Speech Processing Lab, Kyoto University 2024/8/25 第16回最先端 NLP 勉強会 Tianyi Tang, Wenyang Luo, Haoyang Huang, Dongdong Zhang, Xiaolei Wang, Xin Zhao, Furu Wei, Ji-Rong Wen ACL2024 Long, arXiv link ※特に言及がない場合は本スライド中の図表は元論文からの引用です
  2. 3 § ⼤規模⾔語モデルは⾼い多⾔語能⼒を持つが,内部的にどのように多⾔語を処理してい るかはほとんど分かっていない § ⼈間の脳ではブローカ野やウェルニッケ野等の多数の領域が⾔語処理に関わっており, 各領域が特定の⾔語機能に関与する,即ち役割分担が⾏われていると⾔われている § ⾔語モデルにおいても内部で役割分担が⾏われているのではないか •

    Language-agnostic 領域: 普遍的な世界知識や誤用論に関連する領域 • Language-specific 領域: 言語特有の語彙や文法,構文に関連する領域 モチベーション 大規模言語モデルの多言語能力に直結する Language-specific な 領域は存在するのか,存在するならどんな役割を果たすのか
  3. 5 § 本論⽂では⾔語モデル内の領域として FFN 内の中間層をニューロンとみなし分析 ニューロンとは (1/2) 一般的な言語モデルのFFN 𝑖 層目の

    FFN の入力を " ℎ! ∈ ℝ" とするとその出力 ℎ! ∈ ℝ"は, ℎ! = act_fn " ℎ!𝑊# ! . 𝑊$ ! と定義される.ただし,𝑊# !, ∈ ℝ"×&", 𝑊$ ! ∈ ℝ&"×"は学習可能パラメータであり, act_fn は RELU や GELU 等の活性化関数.
  4. 6 § 本論⽂では⾔語モデル内の領域として FFN 内の中間層をニューロンとみなし分析 ニューロンとは (1/2) § 各 FFN

    ごとに 4𝑑 個のニューロンがあり,𝑗 番⽬のニューロン act_fn " ℎ!𝑊# ! ' が 0 より ⼤きければ活性しているという 一般的な言語モデルのFFN 𝑖 層目の FFN の入力を " ℎ! ∈ ℝ" とするとその出力 ℎ! ∈ ℝ"は, ℎ! = act_fn " ℎ!𝑊# ! . 𝑊$ ! と定義される.ただし,𝑊# !, ∈ ℝ"×&", 𝑊$ ! ∈ ℝ&"×"は学習可能パラメータであり, act_fn は RELU や GELU 等の活性化関数.
  5. 7 ニューロンとは (2/2) 𝑊! " ∈ ℝ#×%# 𝑊& " ∈

    ℝ%#×# ! 𝑥 ! 𝑦 ̃ 𝑧 𝑥 𝑦 𝑧 RELU (act_fn) … 0.1 -0.2 0.3 -0.4 0.5 -0.6 … 0.1 0.0 0.3 0.0 0.5 0.0 ℎ" ∈ ℝ# % ℎ" ∈ ℝ# : 活性化ニューロン : 非活性化ニューロン
  6. 8 Language Activation Probability Entropy (LAPE): ⾔語別の活性化確率のエントロピー § 𝑖 層⽬

    𝑗 番⽬のニューロンが⾔語 𝑘 が⼊⼒された時に活性化する確率を 𝑝!,' ) とする § この確率を 𝑙 個の⾔語全てで計算 𝒑!,' = 𝑝!,' # , … , 𝑝!,' ) , … , 𝑝!,' * § L1 normalizationをした後に 𝒑′!,' = 1 ∑)+# * 𝑝!,' ) 𝒑!,' § エントロピーを計算する LAPE!,' = − @ )+# * 𝑝!,' ,) log 𝑝!,' ,) Language-Specific ニューロンをどう探すのか (1/2)
  7. 9 Language Activation Probability Entropy (LAPE) 続き § LAPE が⼩さく,⾔語

    𝑘 に対する活性化確率が閾値を超えている場合そのニューロンを⾔語 𝑘 の Specific ニューロンとする • エントロピーが小さい → 1つか2つ程度の言語の活性化確率が比較的大きい → その言語が入力された時にのみ活性化する LAPE 以外の特定⼿法 Language Activation Probability (LAP): ⾔語 𝑘 に対する活性化確率が 95 % を超えている Language Activation Value Entropy (LAVE): LAPE の活性化確率を活性化関数の出⼒値に置き換 え Parameter Variation (PV): ⾔語 𝑘 での Instruction tuning 前後では変化せず,他の⾔語での Instruction tuning 前後で⼤きく変化するパラメータを LAPE と同様に Entropy を⽤いて特定 Language-Specific ニューロンをどう探すのか (2/2)
  8. 10 Language Activation Probability Entropy (LAPE) 続き § LAPE が⼩さく,⾔語

    𝑘 に対する活性化確率が閾値を超えている場合そのニューロンを⾔語 𝑘 の Specific ニューロンとする • エントロピーが小さい → 1つか2つ程度の言語の活性化確率が比較的大きい → その言語が入力された時にのみ活性化する LAPE 以外の特定⼿法 § Language Activation Probability (LAP): ⾔語 𝑘 に対する活性化確率が 95 % を超えている § Language Activation Value Entropy (LAVE): LAPE の活性化確率を活性化関数の出⼒値に置き 換え § Parameter Variation (PV): ⾔語 𝑘 での Instruction tuning 前後では変化せず,他の⾔語での Instruction tuning 前後で⼤きく変化するパラメータを LAPE と同様に Entropy を⽤いて特定 Language-Specific ニューロンをどう探すのか (2/2)
  9. 11 § Language-Specigic ニューロンを⾮活性化させ た時にどれだけPPLが上昇するか • 横軸が非活性化する言語,縦軸が性能を評価す る言語 § LAPE

    は対⾓成分において性能が悪化 • “言語特有”のニューロンを特定できている § LAVEでは対⾓成分以外でもPPLが上昇 • 他の言語への影響が大きい,”言語特有”ではな い ※この実験では全体のニューロンの1%のみを⾮活性 化している Language-specific ニューロンを非活性化すると…
  10. 18 § 各⾔語へ翻訳されたVicunaデータをモデルに⼊⼒し,層ごとに異なる⾔語間の潜在表 現のsentence embedding similarity(SES) を計算すると,Uの上下反転の形 • 異なる⾔語のテキストでも内容が同じならモデルの中層では同じような表現として扱って いる

    § 浅い層: 異なる⾔語の⼊⼒⽂を共通の潜在空間に mapping § 深い層: 共通の潜在空間から各⾔語の語彙空間へ mapping なぜ Language-specific ニューロンは U 字に分布するのか
  11. 19 § Off-target issue (モデルが⼊⼒と異なる⾔語で回答を⽣成してしまう問題) を⼊⼒⾔ 語の language-specific ニューロンを活性化させることで軽減 •

    生成される回答の質も向上 Case Study: 入力と同じ言語で回答生成 入力言語と同じ言語で 回答を生成する確率 生成された回答の質 (GPT-4により評価)
  12. 20 § ⼊⼒⾔語の Language-specific ニューロ ンを⾮活性化させ,別⾔語のLanguage- specific ニューロンを活性化 § 右図の例ではスペイン語の質問を与え,

    スペイン語ニューロンを⾮活性化&中国 語ニューロンを活性化 § 流暢な中国語で回答を⽣成できている Case Study: 入力と異なる言語で回答生成
  13. 21 § Language-specific ニューロンは存在する • 全体のニューロン数に比べ少量な Language-specific ニューロンを非活性化させるとその言語 の性能のみが著しく低下 §

    Language-Specific ニューロンはモデルの浅い層と深い層に多く存在 • 浅い層: 異なる入力の言語を共通の潜在空間へ射影 • 深い層: 共通の潜在空間から出力の言語の空間へ射影 § Language-specific ニューロンの活性化の有無を変化させることで出⼒⾔語を意図的 に操作することが可能 • Off-target issue の軽減に成功 まとめ