Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Transformer言語モデルを内部挙動から理解する (第52回 NLPコロキウム, 小林悟...

Kogoro
February 06, 2024
1.5k

Transformer言語モデルを内部挙動から理解する (第52回 NLPコロキウム, 小林悟郎, 2024/02/07)

2024/02/07, 第52回 NLPコロキウム
https://nlp-colloquium-jp.github.io/schedule/2024-02-07_goro-kobayashi/

以下3論文から主要な知見をまとめてご紹介しました。
- Attention is Not Only a Weight: Analyzing Transformers with Vector Norms (EMNLP'20) https://aclanthology.org/2020.emnlp-main.574/
- Incorporating Residual and Normalization Layers into Analysis of Masked Language Models (EMNLP'21) https://aclanthology.org/2021.emnlp-main.373/
- Analyzing Feed-Forward Blocks in Transformers through the Lens of Attention Map (ICLR'24 Spotlight) https://openreview.net/forum?id=mYWsyTuiRp

Kogoro

February 06, 2024
Tweet

Transcript

  1. ⼩林 悟郎 (Goro Kobayashi) 2024/02/06 第52回 NLPコロキウム  • 東北⼤学

    坂⼝・乾・徳久研究室 博⼠2年 • 研究: Transformer/⾔語モデルの成功を理解したい ×5年 • 学部4年: 注意機構 (Attention) の挙動を分析 (EMNLPʼ20) • 修⼠1年: 注意機構とその周囲モジュールをまとめて分析 (EMNLPʼ21) • 修⼠2年: さらにフィードフォワードネットも加えて分析 (ICLRʼ24) • 博⼠1年: ⾔語モデルの予測ヘッドを分析 (ACLʼ23 Findings) • 博⼠2年: LoRA パラメータを解釈したい (Ongoing) • 趣味: ゲームが好きです︕筋トレが好きですでした︕ • 3⽉の⾔語処理学会 (NLP2024) に参加します︕お話しましょう︕ • 来年4⽉〜の就職先を探して企業ブースを徘徊するつもりです︕︕︕︕︕︕︕ • YANS 運営委員として YANS懇 に参加します @goro_koba 本⽇はこれらを かいつまんでご紹介
  2. 注意機構 フィードフォワードネット 層正規化 層正規化 予測ヘッド 第 1 層 ೔ຊͷट౎͸ ೔ຊͷट౎͸౦ژ

    … 注意機構 フィードフォワードネット 層正規化 層正規化 第 # 層 近年の⾃然⾔語処理の中⼼: Transformer⾔語モデル 2024/02/06 第52回 NLPコロキウム  • Transformerネットワーク [Vaswani+ʼ17] • 周囲の情報 (⽂脈) を参照する構造として 畳み込みや再帰構造の代わりに 注意機構 (Attention) を導⼊ 周囲の表現を混ぜることで単語表現を更新 例: “⾸都” が “⽇本” を参照して “⽇本の⾸都” っぽい表現に更新 単語表現を個別に変換 フィードフォワードネット: 2層 MLP 層正規化: 平均0・標準偏差1に正規化 & アフィン変換
  3. 近年の⾃然⾔語処理の中⼼: Transformer⾔語モデル 2024/02/06  • 単語⽳埋めを⼤量に解かせて学習 → BERT [Devlin+ʼ19], RoBERTa

    [Liu+ʼ19] , … • ⽂章の続きを⼤量に予測させて学習 → GPT-2,3,4, … ೔ຊͷट౎͸ʊʊͰ͢ɻ ೔ຊͷट౎͸౦ژͰ͢ɻ ೔ຊͷट౎͸ ೔ຊͷट౎͸౦ژͰ͢ɻ BERT GPTモデル [Radford+ʼ18;Brown+ʼ20;OpenAIʼ23] MNLI QNLI QQP RTE SST MRPC CoLA STS WNLI Avg Single-task single models on dev BERTLARGE 86.6/- 92.3 91.3 70.4 93.2 88.0 60.6 90.0 - - XLNetLARGE 89.8/- 93.9 91.8 83.8 95.6 89.2 63.6 91.8 - - RoBERTa 90.2/90.2 94.7 92.2 86.6 96.4 90.9 68.0 92.4 91.3 - Ensembles on test (from leaderboard as of July 25, 2019) ALICE 88.2/87.9 95.7 90.7 83.5 95.2 92.6 68.6 91.1 80.8 86.3 MT-DNN 87.9/87.4 96.0 89.9 86.3 96.5 92.7 68.4 91.1 89.0 87.6 XLNet 90.2/89.8 98.6 90.3 86.3 96.8 93.0 67.8 91.6 90.4 88.4 MNLI QNLI QQP RTE SST MRPC CoLA STS WNLI Avg Single-task single models on dev BERTLARGE 86.6/- 92.3 91.3 70.4 93.2 88.0 60.6 90.0 - - XLNetLARGE 89.8/- 93.9 91.8 83.8 95.6 89.2 63.6 91.8 - - RoBERTa 90.2/90.2 94.7 92.2 86.6 96.4 90.9 68.0 92.4 91.3 - Ensembles on test (from leaderboard as of July 25, 2019) ALICE 88.2/87.9 95.7 90.7 83.5 95.2 92.6 68.6 91.1 80.8 86.3 MT-DNN 87.9/87.4 96.0 89.9 86.3 96.5 92.7 68.4 91.1 89.0 87.6 XLNet 90.2/89.8 98.6 90.3 86.3 96.8 93.0 67.8 91.6 90.4 88.4 RoBERTa 90.8/90.2 98.9 90.2 88.2 96.7 92.3 67.8 92.2 89.0 88.5 Table 5: Results on GLUE. All results are based on a 24-layer architecture. BERTLARGE and XLNetLARGE results are from Devlin et al. (2019) and Yang et al. (2019), respectively. RoBERTa results on the development set are a median over five runs. RoBERTa results on the test set are ensembles of single-task models. For RTE, STS and MRPC we finetune starting from the MNLI model instead of the baseline pretrained model. Averages are obtained from the GLUE leaderboard. MNLI QNLI QQP RTE SST MRPC CoLA STS WNLI Avg Single-task single models on dev BERTLARGE 86.6/- 92.3 91.3 70.4 93.2 88.0 60.6 90.0 - - XLNetLARGE 89.8/- 93.9 91.8 83.8 95.6 89.2 63.6 91.8 - - RoBERTa 90.2/90.2 94.7 92.2 86.6 96.4 90.9 68.0 92.4 91.3 - Ensembles on test (from leaderboard as of July 25, 2019) ALICE 88.2/87.9 95.7 90.7 83.5 95.2 92.6 68.6 91.1 80.8 86.3 MT-DNN 87.9/87.4 96.0 89.9 86.3 96.5 92.7 68.4 91.1 89.0 87.6 XLNet 90.2/89.8 98.6 90.3 86.3 96.8 93.0 67.8 91.6 90.4 88.4 RoBERTa 90.8/90.2 98.9 90.2 88.2 96.7 92.3 67.8 92.2 89.0 88.5 [Liu+’19] Model Diversity ↑ Quality D1 D2 D MAUVE ↑ PPL ↓ small 1 19.4 0. 0 65.9 med. 1 14.6 0. 0 21.3 large 1 12.7 0. 0 13.6 xl 1 11.4 0. 0 12.1 Table 4: Evaluation results for generation and prediction from GPT-2 (top-p sampling) while controlling the bias bLN with . MMLU GSM-8K HellaSwag AI2 WinoGrande HumanEval DROP (F1) GPT-3.5 70.0 85.5 85.2 81.6 48.1 64.1 57.1 GPT-4 86.4 95.3 96.3 87.5 67.0 89.9 92.0 [OpenAI+’23] [OpenAI+’23] [Liu+’19] 幅広いタスクに 応⽤可能 & ⾼性能
  4. アテンション重み︓モデルのごく⼀部分のみに注⽬した分析 • Transformerの核は注意機構 • 単語表現を混ぜ合わせることで更新する • 混ぜ合わせはアテンション重み 𝛼!,# で重み付ける 2024/02/06

     第52回 NLPコロキウム 注意機構 フィードフォワードネット 層正規化 層正規化 予測ヘッド 第 1 層 ೔ຊͷट౎͸ ೔ຊͷट౎͸౦ژ … 注意機構 フィードフォワードネット 層正規化 層正規化 第 # 層 Head 1 Head 2 Head # … %! %" %# %$ %% %′! %′" %′# %′$ %′%
  5. アテンション重み︓モデルのごく⼀部分のみに注⽬した分析 • Transformerの核は注意機構 • 単語表現を混ぜ合わせることで更新する • 混ぜ合わせはアテンション重み 𝛼!,# で重み付ける 2024/02/06

     第52回 NLPコロキウム 注意機構 フィードフォワードネット 層正規化 層正規化 予測ヘッド 第 1 層 ೔ຊͷट౎͸ ೔ຊͷट౎͸౦ژ … 注意機構 フィードフォワードネット 層正規化 層正規化 第 # 層 Head 1 Head 2 Head # … %! %" %# %$ %% %′! %′" %′# %′$ %′% 𝒙′! = % #$% & 𝛼!,# × 𝒗# 𝑾' 𝛼!,# = softmax 𝒒! 𝒌# ( 𝑑 Value ม׵ͨ͠पғͷ୯ޠදݱ 𝒗! Λ 𝛼!,# ͰॏΈ෇͚ͳ͕Β૯࿨
  6. アテンション重み︓モデルのごく⼀部分のみに注⽬した分析 • Transformerの核は注意機構 • 単語表現を混ぜ合わせることで更新する • 混ぜ合わせはアテンション重み 𝛼!,# で重み付ける 2024/02/06

     第52回 NLPコロキウム 注意機構 フィードフォワードネット 層正規化 層正規化 予測ヘッド 第 1 層 ೔ຊͷट౎͸ ೔ຊͷट౎͸౦ژ … 注意機構 フィードフォワードネット 層正規化 層正規化 第 # 層 𝒙′! = % #$% & 𝛼!,# × 𝒗# 𝑾' 𝛼!,# = softmax 𝒒! 𝒌# ( 𝑑 Value ม׵ͨ͠पғͷ୯ޠදݱ 𝒗! Λ 𝛼!,# ͰॏΈ෇͚ͳ͕Β૯࿨ Head 1 Head 2 Head # … %! %" %# %$ %% %′! %′" %′# %′$ %′% 💡「ある単語はどの 単語に注⽬したか」 を観察できそう 😕 それ以外の部分は 分析対象外
  7. アテンション重みの観察1︓依存関係 (=⾔語構造) と⼀致する • ⼀部の注意機構はアテンション重みが特定の依存関係とよく⼀致 2024/02/06  第52回 NLPコロキウム [Clark+’19]

    Relation Head Accuracy Baseline All 7-6 34.5 26.3 (1) prep 7-4 66.7 61.8 (-1) pobj 9-6 76.3 34.6 (-2) det 8-11 94.3 51.7 (1) nn 4-10 70.4 70.2 (1) nsubj 8-2 58.5 45.5 (1) amod 4-10 75.6 68.3 (1) dobj 8-10 86.8 40.0 (-2) advmod 7-6 48.8 40.2 (1) aux 4-10 81.1 71.5 (1) poss 7-6 80.5 47.7 (1) auxpass 4-10 82.5 40.5 (1) ccomp 8-1 48.8 12.4 (-2) mark 8-2 50.7 14.5 (2) prt 6-7 99.1 91.4 (-1) Table 1: The best performing attentions heads of BERT on WSJ dependency parsing by dependency type. Numbers after baseline accuracies show the best offset found (e.g., (1) means the word to the right is predicted as the head). We show the 10 most common 4.3 Cor Having s tain aspe tention h task of co are usuall state-of-th worse at c Setup. W erence re (Pradhan anteceden time does most atte anteceden for select • Pick • Pick same • A si (GPT-2 でも依存関係との⼀致がベースライン超え [Vig&Belinkovʼ19]) BERT
  8. アテンション重みの観察2︓共参照 (=意味的関係) と⼀致する • ⼀部の注意機構はアテンション重みが共参照とよく⼀致 2024/02/06  第52回 NLPコロキウム [Clark+’19]

    Model All Pronoun Proper Nominal Nearest 27 29 29 19 Head-word match 52 47 67 40 Rule-based 69 70 77 60 Neural coref 83* – – – Head 5-4 65 64 73 58 *Only roughly comparable because on non-truncated docu- ments and with different mention detection. Table 2: Accuracies (%) for different mention types of systems selecting a correct antecedent given a corefer- ent mention in the CoNLL-2012 data. One of BERT’s ity of word i be p(i|j) / Where v deno notes concaten held fixed in tr trices W and Wk,:(vi vj) p the particular a BERT
  9. 1. アテンション重みを注意機構全体まで拡張 2024/02/06  注意機構 フィードフォワードネット 層正規化 層正規化 予測ヘッド 第

    1 層 ೔ຊͷट౎͸ʊʊͰ͢ɻ ೔ຊͷट౎͸౦ژͰ͢ɻ … 注意機構 フィードフォワードネット 層正規化 層正規化 第 # 層 注意機構 フィードフォワードネット 層正規化 層正規化 予測ヘッド 第 1 層 ೔ຊͷट౎͸ʊʊͰ͢ɻ ೔ຊͷट౎͸౦ژͰ͢ɻ … 注意機構 フィードフォワードネット 層正規化 層正規化 第 # 層 ෼ੳείʔϓ ֦େ
  10. 1. アテンション重みを注意機構全体まで拡張 2024/02/06  1. 注意機構の処理を式変形する (分配則) 2. ノルムで「どれほど混ぜたか」を測る •

    アイデア: ベクトルの⾜し算では⻑いベクトルほど結果に寄与する • 分析⽅法: アテンション重み 𝛼!,# の代わりにノルム 𝛼!,# × 𝒗# 𝑾$ で測る 𝒙′! = % #$% & 𝛼!,# × 𝒗# 𝑾' 𝒙′! = % #$% & 𝛼!,# × 𝒗# 𝑾' Valueベクトル ⾏列積 ひとまとめにできた︕ ϕΫτϧͷॏΈ෇͚࿨ !! = # $(&" ) !(#! ) !(#( ) !(#! )
  11. 結果︓不⾃然な観察が消える 2024/02/06  注意機構 フィードフォワードネット 層正規化 層正規化 予測ヘッド 第 1

    層 ೔ຊͷट౎͸ʊʊͰ͢ɻ ೔ຊͷट౎͸౦ژͰ͢ɻ … 注意機構 フィードフォワードネット 層正規化 層正規化 第 # 層 • ⽂頭または⽂末の特殊トークンにばかり 注⽬する謎の傾向が消えた 層 層 平均的な注⽬度合い ΞςϯγϣϯॏΈ 𝛼",! ϊϧϜ 𝛼",! × 𝒗! 𝑾$ 特殊トークンや句読点に 過剰に注目する謎の傾向 特殊トークンや句読点に 特に強く注目していない モデルが不⾃然な挙動をしているように ⾒えていたのは分析⼿法が限定的だったため
  12. 結果︓注意機構の「ゴミ箱機能」 2024/02/06  注意機構 フィードフォワードネット 層正規化 層正規化 予測ヘッド 第 1

    層 ೔ຊͷट౎͸ʊʊͰ͢ɻ ೔ຊͷट౎͸౦ژͰ͢ɻ … 注意機構 フィードフォワードネット 層正規化 層正規化 第 # 層 • ゴミ箱機能 • 注意機構は特殊トークンに⼤きな重み 𝛼!,# を割り振る • しかし、それらの 𝒗#𝑾' は極めて⼩さくしておく • 注意機構の制約との関係 • ソフトマックスは必ず重みを合計1で割り振る • 特定のペア (e.g., 共参照ペア) が来たら重み付けしたいが、 それ以外が来たら「何もしない」を実現したい 「何もしない (no-operation)」を実現 (欲しい情報がない場合に重みを捨てる) 必ず出現する特殊トークンを重みのゴミ箱にする
  13. 2. 分析スコープを層全体まで拡⼤ 2024/02/06  注意機構 フィードフォワードネット 層正規化 層正規化 予測ヘッド 第

    1 層 ೔ຊͷट౎͸ʊʊͰ͢ɻ ೔ຊͷट౎͸౦ژͰ͢ɻ … 注意機構 フィードフォワードネット 層正規化 層正規化 第 # 層 注意機構 フィードフォワードネット 層正規化 層正規化 予測ヘッド 第 1 層 ೔ຊͷट౎͸ʊʊͰ͢ɻ ೔ຊͷट౎͸౦ژͰ͢ɻ … 注意機構 フィードフォワードネット 層正規化 層正規化 第 # 層 ෼ੳείʔϓ ֦େ
  14. 注意機構 フィードフォワードネット 層正規化 層正規化 予測ヘッド 第 1 層 ೔ຊͷट౎͸ ೔ຊͷट౎͸౦ژ

    … 注意機構 フィードフォワードネット 層正規化 層正規化 第 # 層 モチベーション︓ 注意機構以外のモジュールも混ぜ合わせを変えられる︖ 2024/02/06 第52回 NLPコロキウム  • 表現同⼠の混ぜ合わせは注意機構が担当 • それ以外のモジュールは混ぜ合わせを変えない...︖ • フィードフォワードネットは「パラメータに記憶した知識を 単語表現に追加している」という考え⽅が広まりつつある 周囲の情報 (⽂脈) を参照して単語表現を更新 例: “⾸都” が “⽇本” を参照して “⽇本の⾸都” っぽい表現に更新 単語表現を変換 フィードフォワードネット: 2層 MLP 層正規化: 平均0・標準偏差1に正規化 & アフィン変換 पΓͱࠞͥΔ ݸผʹม׵
  15. 注意機構 フィードフォワードネット 層正規化 層正規化 予測ヘッド 第 1 層 ೔ຊͷट౎͸ ೔ຊͷट౎͸౦ژ

    … 注意機構 フィードフォワードネット 層正規化 層正規化 第 # 層 モチベーション︓ 注意機構以外のモジュールも混ぜ合わせを変えられる 2024/02/06 第52回 NLPコロキウム  • 表現同⼠の混ぜ合わせは注意機構が担当 • それ以外のモジュールも混ぜ合わせを変えうる...︕ • 例えば注意機構の後に線形変換があるとすると Attn(𝑋)! 𝑾′ = % #$% & 𝛼!,# × 𝒗# 𝑾' 𝑾′ = % #$% & 𝛼!,# × 𝒗#𝑾'𝑾′ ෼഑ଇ 各混ぜ合わせの強弱を 注意機構の後から上書きできる (先ほどの分析拡張と同じ議論)
  16. 2. 分析スコープを層全体まで拡⼤ 2024/02/06  1. Transformer層の処理をひたすら式変形する 2. ノルムで「どれほど混ぜたか」を測る • アイデア:

    ベクトルの⾜し算では⻑いベクトルほど結果に寄与する • 分析⽅法: アテンション重み 𝛼!,# の代わりにノルム 𝐹(𝒙# ) で測る 𝒚! = + #() * 𝐹(𝒙# ) なんとかベクトルの和にできた...︕ 分配則、勾配に基づく式変形 (式変形の詳細は論⽂ Appendix にて約4ページ) !! = # $(&" ) !(#! ) !(#( ) !(#! ) 𝒚! = LN2 RES2 FF LN1 RES1 ATTN 𝑿
  17. 結果︓ フィードフォワードネットは特定ペア間の混ぜ合わせを強調 2024/02/06  • フィードフォワードネット前後での混ぜ合わせの変化を調査 • 混ぜ合わせが特に増幅されたペア Top 50

    を⽬視で7カテゴリに分類 第52回 NLPコロキウム stud → ies among → others aaaa route → _route など week → ##night soap → operaaaa teacher → she など
  18. 結果︓ フィードフォワードネットは特定ペア間の混ぜ合わせを強調 2024/02/06  • フィードフォワードネット前後での混ぜ合わせの変化を調査 • 混ぜ合わせが特に増幅されたペア Top 50

    を⽬視で7カテゴリに分類 第52回 NLPコロキウム 序盤層: サブワード分割ペアや複合名詞を構成するペア 中盤〜終盤層: 意味的に関連のあるペアが増える 表層的な処理から複雑な処理 へと順に処理しているという 知⾒ [Tenney+ʼ19] と⼀致 (?)
  19. 結果︓ フィードフォワードネットは特定ペア間の混ぜ合わせを強調 2024/02/06  • フィードフォワードネット前後での混ぜ合わせの変化を調査 • 混ぜ合わせが特に増幅されたペア Top 50

    を⽬視で7カテゴリに分類 第52回 NLPコロキウム フィードフォワードネットを「知識を記憶し、表現に追加する機構」ではなく、 「関連深いペア間の混ぜ合わせを強める機構」と解釈する新たな⾒⽅を提供 (両者は⽭盾するのか・共存するのか・同⼀とみなせるのかを調査することは今後の課題)
  20. 結果︓ フィードフォワードネットと層正規化の打ち消しの仕組み 2024/02/06  1. フィードフォワードネットは数次元に外れ値を作る • 混ぜ合わせへの作⽤はこの⼀部の次元に強く依存 2. 層正規化は変換でこれらの次元を

    ピンポイントに打ち消す 注意機構 フィードフォワードネット 層正規化 層正規化 予測ヘッド 第 1 層 ೔ຊͷट౎͸ ೔ຊͷट౎͸౦ژ … 注意機構 フィードフォワードネット 層正規化 層正規化 第 # 層
  21. 余談︓ 2つの層正規化も外れ値を通して打ち消し合う [Modarressi+ʼ22] 2024/02/06  • 層内にある2つの層正規化同⼠も外れ値で打ち消し合う • 対極となる重みを持つ 注意機構

    フィードフォワードネット 層正規化 層正規化 予測ヘッド 第 1 層 ೔ຊͷट౎͸ ೔ຊͷट౎͸౦ژ … 注意機構 フィードフォワードネット 層正規化 層正規化 第 # 層
  22. 2024/02/06 • Transformer⾔語モデルの内部挙動を分析 • アテンション重みから分析スコープを拡⼤ • 主要な知⾒ • 注意機構における「ゴミ箱機能」の仕組みを解明 •

    フィードフォワードネットも混ぜ合わせを変える •関係深いペアの混ぜ合わせを強める • フィードフォワードネットと残差結合・層正規化 は強く打ち消し合う → 冗⻑性を⽰唆  まとめ 第52回 NLPコロキウム 注意機構 フィードフォワードネット 層正規化 層正規化 予測ヘッド 第 1 層 ೔ຊͷट౎͸ ೔ຊͷट౎͸౦ژ … 注意機構 フィードフォワードネット 層正規化 層正規化 第 # 層
  23. 本⽇ご紹介した論⽂ • [Kobayashi+’20] Attention is Not Only a Weight: Analyzing

    Transformers with Vector Norms. In Proceedings of EMNLP, pp.7057-7075, 2020. https://aclanthology.org/2020.emnlp-main.574/ • [Kobayashi+’21] Incorporating Residual and Normalization Layers into Analysis of Masked Language Models. In Proceedings of EMNLP, pp.4547-4568, 2021. https://aclanthology.org/2021.emnlp-main.373/ • [Kobayashi+’24] Analyzing Feed-Forward Blocks in Transformers through the Lens of Attention Map. ICLR2024 Spotlight, 2024. https://openreview.net/forum?id=mYWsyTuiRp 2023/10/22 PhD colloquium @Tohoku NLP 
  24. 参考⽂献 1 (Transformer⾔語モデルの導⼊) • [Vaswani+’17] Attention is All you Need.

    In Proceedings of NeurIPS, pp.5998-6008, 2017. http://papers.nips.cc/paper/7181-attention-is-all-you-need • [Devlin+’19] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of NAACL, pp.4171-4186, 2019. https://www.aclweb.org/anthology/N19-1423/ • [Liu+’19] RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv preprint, arXiv:1907.11692, 2019. http://arxiv.org/abs/1907.11692 • [Brown+’20] Language Models are Few-Shot Learners. In Proceedings of NeurIPS, pp.1877-1901, 2020. https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html • [OpenAI+’23] GPT-4 Technical Report. arXiv preprint, arXiv:2303.08774, 2023. https://arxiv.org/abs/2303.08774 2023/10/22 PhD colloquium @Tohoku NLP 
  25. 参考⽂献 2 (Transformer⾔語モデルの分析) • [Clark+’19] What Does BERT Look at?

    An Analysis of BERT’s Attention. In Proceedings of BlackboxNLP, pp.276-286, 2019. https://aclanthology.org/W19-4828/ • [Vig&Belinkov’19] Analyzing the Structure of Attention in a Transformer Language Model. In Proceedings of BlackboxNLP, pp.63-76, 2019. https://aclanthology.org/W19-4808/ • [Xiao+’23] Efficient Streaming Language Models with Attention Sinks. arXiv preprint, arXiv:2309.17453, 2023. https://arxiv.org/abs/2309.17453 • [Miller+’23] Attention Is Off By One. Blog post, 2023. https://www.evanmiller.org/attention-is-off-by-one.html • [Tenney+’19] BERT Rediscovers the Classical NLP Pipeline. In Proceedings of ACL, pp.4593-4601, 2019. https://www.aclweb.org/anthology/P19-1452/ • [Modarressi+’22] GlobEnc: Quantifying Global Token Attribution by Incorporating the Whole Encoder Layer in Transformers. In Proceedings of NAACL, pp. 258-271, 2022. https://aclanthology.org/2022.naacl-main.19/ 2023/10/22 PhD colloquium @Tohoku NLP