Do Transformer Modifications Transfer Across Implementations and Applications?

第六回全日本コンピュータビジョン勉強会 Transformer論文読み会 Do Transformer Modifications Transfer Across Implementations and
Applications? 牛久祥孝 losnuevetoros

自己紹介 2013.6～2013.8 Microsoft Research Intern 2014.3 博士(情報理工学)、東京大学 2014.4～2016.3 NTT CS研
研究員 2016.4～2018.9 東京大学講師 (原田牛久研究室) 2016.9～産業技術総合研究所協力研究員 2016.12～2018.9 国立国語研究所共同研究員 2018.10～オムロンサイニックエックス株式会社 Principal Investigator 2019.1～株式会社 Ridge-i 取締役 Chief Research Officer 2020.4～津田塾大学非常勤講師所属学会 ACM、IEEE、電子情報通信学会、情報処理学会、日本ロボット学会、人工知能学会、応用物理学会、建築情報学会 [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成動画の特定区間とキャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A yellow train on the tracks near a train station.

関東CV（全日本CV）における牛久前フリが冗長

スムーズな導入を心がけた軌跡 • 2015年ヒントンに負けた話 →深層学習御三家 →Curriculum Learning • 2016年 connpassで登壇者登録忘れがちな話
→作業中の物忘れを指摘してくれる手法の紹介 • 2016年授業で学生のリアクションが薄い話 →面白い画像を生成できる手法の紹介 • 2016年学生に服装がチャラいと言われた話 →チャラくないVision&Languageの表現学習の話 • 2017年就活する学生の行動が似たり寄ったりな話 →似たり寄ったりにならないキャプション生成の紹介 • 2017年自分自身の結婚式の画像当てクイズの話 →会話しながら画像を当てられるエージェントの紹介

…が無駄に続けられている近年 • 2018年自分の修論から数年、Vision&Languageやる人増えた話 →最近、強化学習気にする人増えた →強化学習による文生成の紹介（強化学習読み会） • 2018年次回勉強会の会場へのアクセス方法の話 →言語指示でゴールまでたどり着けるエージェントの紹介
• 2018年弊社の男女バランスが崩壊している話 →男女バイアスに囚われず公平な画像認識の紹介 • 2019年今後のキャリアパスが不安な話 →言語指示で移動するロボットの不安を解消する手法の紹介 • 2020年遠隔講義の準備のほとんどが無駄になった話 →今までのCNNの研究がほとんど無駄になるかもしれない Transformerによる物体検出の紹介

Transformerの基本性能向上を心がけた軌跡 • ELU [Clevert+, ICLR 2016] • GeLU [Hendrycks+Gimpel, 2016]
• Swish [Ramachandran+, ICLR WS 2018] • SELU [Klambauer+, NIPS 2017] • GLU [Dauphin+, ICML 2017] • RMS [Zhang+Sennrich, NeurIPS 2019] • ReZero [Bachlechner+, 2020] • Fixup [Zhang+, ICLR 2019] • Adaptive Softmax [Joulin+, ICML 2017] • Mixture of Softmaxes [Yang+, ICLR 2018]

…が無駄に続けられている近年？！ • Transparent Attention [Bapna+, EMNLP 2018] • Evolved Transformer
[So+, ICML 2019] • Synthesizer variants [Tay+, 2020] • Funnel Transformer [Dai+, NeurIPS 2020] • Lightweight and Dynamic convolution [Wu+, ICLR 2019] • Mixture of Experts Transformer [Shazeer+, NeurIPS 2018][Lepikhin+, ICLR 2021] • Switch Transformer [Fedus+, 2021] • Product Key Memory [Lample+, NeurIPS 2019] • Universal Transformer [Dehghani+, ICLR 2019]

今日読む論文 • Google Researchの中の人16人で • 30を超えるTransformerの改善手法を • 50を超えるバリエーションと • 9の観点で評価した結果
大半の手法が元のTransformerと大差なかったよと言う話

そもそもTransformerって？ ECCV 2020読み会の時に用意した資料です https://speakerdeck.com/yushiku/end-to-end-object-detection-with-transformers • Self-containedとするために載せておきます • ECCV 2020の資料ではこのセクション以外に –
物体検出にTransformerを用いたDETRの紹介 – TransformerがNLP以外でも使われている例の紹介（30件超）もあるのでお時間あればぜひご覧下さい！

Transformer系論文でよく見る図

Transformer系論文でよく見る図綺麗な図だし分かりやすく見えるけど分かりにくい ※個人の感想です

Transformerとは任意の個数のベクトルを任意の個数のベクトルに変換するネットワーク一旦無視

Transformerとは任意の個数のベクトルを任意の個数のベクトルに変換するネットワーク一旦無視入力：任意の個数のベクトル出力：任意の個数のベクトル Positional Encoding?

Positional Encoder 入力ベクトルの位置と出力ベクトルの位置を表すベクトル • 単語の分散表現なら「文中の何単語目？」 • 画像の特徴量なら「画像内のどこの座標？」 • 時系列の特徴量なら「何秒時点の情報？」 RNNやCNNは各特徴量の位置情報を知っている
• 「RNNもCNNも各要素の相対位置を知っている」 [Shaw+, NAACL-HLT’18][Dai+, ACL’19] • 「CNNは各要素の絶対位置を学習している」[Islam+, ICLR’20] 画像の顕著性推定で、画像全体を入力 vs. 一部の画像を入力→それぞれ”画像の中央”は顕著性が大きい [Vaswani+, NIPS’17]では単語の位置をサイン・コサインでベクトル化 →波のマークはサイン・コサインの意味

Autoregressive vs. Non-autoregressive 出力のベクトルを… • Autoregressive= 1個ずつ推定する – 入力のベクトル群と出力済みのベクトル群を用いて新たなベクトルを出力
– 「終わり」を意味する単語が出るまで繰り返す – 元のTransformer [Vaswani+, NIPS’17] はAutoregressive – 精度は良いが遅い • Non-autoregressive=全部一気に推定する – 何らかの方法で複数個の出力ベクトル用の「タネ」となるベクトルを入力[Gu+, ICLR’18][Guo+, AAAI’19] • 並列で1回で計算できるので速いが、精度が低下 – 一気に推定するのを繰り返して単語数を調整 [Ghazvininejad+, EMNLP’19][Gu+, NeurIPS’19] 一旦無視 𝒌𝒌個の出力済みベクトル 𝒌𝒌 + 𝟏𝟏個目の出力ベクトル一旦無視 𝑲𝑲個の「タネ」ベクトル 𝑲𝑲個の出力ベクトル

きっとここまではok 一旦無視

次は無視していた部分の中身という図はここの Multi-Head Attentionを説明するための図ここは • Residual接続 • 各ベクトルにMLPを適用
＝1x1 conv と等価

次は無視していた部分の中身という図はここの Multi-Head Attentionを説明するための図という図はここの Scaled Dot-Product Attention を説明するための図
ここは • Residual接続 • 各ベクトルにMLPを適用＝1x1 conv と等価

Multi-head Attention おさらい：扱うのは任意の個数のベクトル • 自然言語処理であれば単語の分散表現の系列＋位置情報 • 画像認識であればタテ×ヨコにチャネル数分の次元のベクトル（局所特徴量）が並んだ数列＋タテ・ヨコの位置情報
𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 Ougai , 鷗外さん♂ you look like the cat that ate the canary .

Multi-head Attention おさらい：扱うのは任意の個数のベクトル • 自然言語処理であれば単語の分散表現の系列＋位置情報 • 画像認識であればタテ×ヨコにチャネル数分の次元のベクトル（局所特徴量）が並んだ数列＋タテ・ヨコの位置情報
𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 Ougai , 鷗外さん♂ you look like the cat that ate the canary .

このベクトルに注目して考える 1. 他のベクトルを「検索」するためのクエリ𝒒𝒒 = 𝑊𝑊𝑄𝑄𝒙𝒙を計算 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙
𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 = 𝑊𝑊𝑄𝑄𝒙𝒙 𝒒𝒒

このベクトルに注目して考える 2. 「類似検索」対象としての各ベクトルのキー𝒌𝒌 = 𝑊𝑊𝐾𝐾𝒙𝒙を計算 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙
𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒒𝒒 𝒌𝒌 𝒌𝒌 𝒌𝒌 𝒌𝒌 𝒌𝒌 𝒌𝒌 𝒌𝒌 𝒌𝒌 𝒌𝒌 𝒌𝒌 𝒌𝒌 𝒌𝒌

このベクトルに注目して考える 3. クエリとキーの内積を次元数𝑑𝑑とsoftmaxで正規化した「類似度」 𝑎𝑎 = softmax 𝒒𝒒⊤𝒗𝒗/ 𝑑𝑑 を計算
𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒒𝒒 𝒌𝒌 𝒌𝒌 𝒌𝒌 𝒌𝒌 𝒌𝒌 𝒌𝒌 𝒌𝒌 𝒌𝒌 𝒌𝒌 𝒌𝒌 𝒌𝒌 𝒌𝒌 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 = = = = = = = = = = = =

このベクトルに注目して考える 4. 各ベクトルの代表値𝒗𝒗 = 𝑊𝑊𝑉𝑉𝒙𝒙を計算 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙
𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝒗𝒗 𝒗𝒗 𝒗𝒗 𝒗𝒗 𝒗𝒗 𝒗𝒗 𝒗𝒗 𝒗𝒗 𝒗𝒗 𝒗𝒗 𝒗𝒗 𝒗𝒗

このベクトルに注目して考える 5. 類似度𝑎𝑎で重みづけした和∑𝑎𝑎𝒗𝒗を計算→ベクトルに加算（residual接続有） 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙
𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝑎𝑎 𝒗𝒗 𝒗𝒗 𝒗𝒗 𝒗𝒗 𝒗𝒗 𝒗𝒗 𝒗𝒗 𝒗𝒗 𝒗𝒗 𝒗𝒗 𝒗𝒗 𝒗𝒗 𝒙𝒙 ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ 𝒙𝒙 更新後のベクトル

Scaled Dot-Product Attention 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙
𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 手順1~5をすべてのベクトルに対して実行するという図に該当

Multi-head Attentionでは 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙
𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 行列𝑊𝑊𝑄𝑄, 𝑊𝑊𝐾𝐾, 𝑊𝑊𝑉𝑉をℎ個用意し、それぞれを用いながら手順1~5をすべてのベクトルに対して実行するという図に該当

Transformer まとめ任意の個数のベクトルを形式で変形する技術 Encoder-Decoder N回繰り返す例えばGPT-3では • 96回繰り返す •
各回96-headsの Attention（128次元）

（Attentionの無い）CNNやRNNとの違い 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙
𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 𝒙𝒙 CNN Transformerは… 全𝒏𝒏個のベクトルから全𝒏𝒏個のベクトルへのアテンションを計算 𝑂𝑂(𝑛𝑛2)だが一番広域に情報がロス無く伝達可能 CNNは… 3つなど、全体からすれば少数のベクトルだけの畳込み計算を走査 𝑂𝑂 𝑛𝑛 だが情報が伝わるのは近隣だけ RNNは… ベクトルを一つずつ走査しながら内部のセルに変数（記憶）を保存 𝑂𝑂 𝑛𝑛 だが長い系列は不得手 RNN

Transformerの改善の歴史と本論文の指摘

改善方法の分類 1. 活性化関数 2. 正規化 3. 深さ 4. 埋め込み 5.
パラメータ共有 6. Softmaxの改良 7. 全体のアーキテクチャ ※ 必ずしもTransformerの改善を意図して発表された手法だけでは無いので注意

1. 活性化関数の改善の歴史 • ELU [Clevert+, ICLR 2016] – 負の部分だけ指数関数で-1に漸近し、基本的に滑らかな形をとる。 –
被引用数3000超！ • GeLU [Hendrycks+Gimpel, 2016] – ReLUに似た形だけど導関数が滑らか。 – BERTにもGPT-3にも使われているけどICLRからはリジェクトされている。頑張れ。 • Swish [Ramachandran+, ICLR WS 2018] – ReLUに似た形だけど導関数が滑らか。あれ言っていることがGeLUと変わらない。 • SELU [Klambauer+, NIPS 2017] – Self-Normalizing Neural Networksを提案する論文の一部。ELUを正の部分でも負の部分でも定数倍したもの。 – SELU自体の評価は行われていない。査読者もツッコんでいるのに何故通った。 • GLU [Dauphin+, ICML 2017] – LSTMのGate部分を持ってきた活性化関数。 – 線形変換＋活性化関数（シグモイド）を通した0~1の値をもつGateと、別途計算した線形変換の要素積。

被引用数3000超！ • GeLU [Hendrycks+Gimpel, 2016] – ReLUに似た形だけど導関数が滑らか。 – BERTにもGPT-3にも使われているけどICLRからはリジェクトされている。頑張れ。 • Swish [Ramachandran+, ICLR WS 2018] – ReLUに似た形だけど導関数が滑らか。あれ言っていることがGeLUと変わらない。 • SELU [Klambauer+, NIPS 2017] – Self-Normalizing Neural Networksを提案する論文の一部。ELUを正の部分でも負の部分でも定数倍したもの。 – SELU自体の評価は行われていない。査読者もツッコんでいるのに何故通った。 • GLU [Dauphin+, ICML 2017] – LSTMのGate部分を持ってきた活性化関数。 – 線形変換＋活性化関数（シグモイド）を通した0~1の値をもつGateと、別途計算した線形変換の要素積。要するに… ReLU ELU/SELU GeLU/Swish 負の部分が下がる大体ReLUで滑らか

被引用数3000超！ • GeLU [Hendrycks+Gimpel, 2016] – ReLUに似た形だけど導関数が滑らか。 – BERTにもGPT-3にも使われているけどICLRからはリジェクトされている。頑張れ。 • Swish [Ramachandran+, ICLR WS 2018] – ReLUに似た形だけど導関数が滑らか。あれ言っていることがGeLUと変わらない。 • SELU [Klambauer+, NIPS 2017] – Self-Normalizing Neural Networksを提案する論文の一部。ELUを正の部分でも負の部分でも定数倍したもの。 – SELU自体の評価は行われていない。査読者もツッコんでいるのに何故通った。 • GLU [Dauphin+, ICML 2017] – LSTMのGate部分を持ってきた活性化関数。 – 線形変換＋活性化関数（シグモイド）を通した0~1の値をもつGateと、別途計算した線形変換の要素積。そしてぶっちゃけ… 精度大して上がりません

ここで先に：実験概要 • 転移学習課題：Text-to-Text Transfer Transformer (T5) – テキストを入れてテキストを出す複数の課題のための事前学習 – 6.1TBのテキストをフィルタリングして約750GBにしたColossal
Clean Crawled Corpus (C4)を利用 – 本論文は次の3つの課題を採用 • QAや推論などの複合タスク SuperGLUE [Wang+, NeurIPS 2019] • 文の要約 XSum [Narayan+, EMNLP 2018] • 質問応答 WebQuestions [Berant+, EMNLP 2013] • 機械翻訳課題：WMT’14の英独翻訳タスク

ここで先に：実験概要おことわり本論文の実験はNLP課題です

活性化関数にまつわる実験結果 • パラメータ数と計算量が揃う様に調整 – Final loss = 文法モデル性能、ここだけ lower is
better – SGLUE = 複合課題 – XSum = 要約課題 – WebQ = 質問応答 – WMT EnDe = 機械翻訳 • 結果：共通して性能が向上した手法が無い – 性能向上＝太字と言っているけどしばしば間違っているので注意

精度が良くなった活性化関数もある • GLUの発展形 [Shazeer, 2020] – GLUは線形変換＋活性化関数によるゲートと線形変換の要素積 – GLU自体は活性化関数をシグモイドとしていた •
以下のバリエーションを試してみた – GeGLU：活性化関数がGeLU（ReLUみたいな形の滑らかなやつ） – ReGLU：活性化関数がReLU – SwiGLU：活性化関数がSwish（ReLUみたいな形の滑らかな奴） – LiGLU：活性化関数なし（双線形形式） – あれ、ELUやSELUとも組合せてみないの…？

GLUのバリエーションの評価 • 評価方法は前述通り – Final loss = 文法モデル性能、ここだけ lower is
better – SGLUE = 複合課題 – XSum = 要約課題 – WebQ = 質問応答 – WMT EnDe = 機械翻訳 • GLUとLiGLUは少し下がる結果もあるが… 他のバリエーションは一貫して効果アリ

2. 正規化の改善の歴史 • Vanilla Transformer：LayerNorm [NIPS DLS 2016] – ベクトルの要素ごとの平均と分散で正規化。
• RMS [Zhang+Sennrich, NeurIPS 2019] – LayerNormが遅いので平均抜きで正規化。 • ReZero [Bachlechner+, 2020] – タイトルの出だしがReZero is All You Need… 出たよ◦◦ is All You Need系論文。 – 元のTransformer（左側）の変換部分に学習可能パラメータα（初期値ゼロ）を掛ける（右側）。 • Fixup [Zhang+, ICLR 2019] – 正規化を一切せずに、Residualブロックの初期値を0とか1にするだけでもBatchNormやLayerNormと近い精度を達成。

正規化にまつわる実験結果 • 出場選手 – RMS Norm「LayerNormの計算早くするぜ」 – ReZero「Residualブロックの変換部分をα（初期値0）倍するぜ」 – Fixup「初期値ちゃんと考えると正規化不要だぜ」
効果のあった手法はどれでしょうか？

正規化にまつわる実験結果 • 出場選手 – RMS Norm「LayerNormの計算早くするぜ」 – ReZero「Residualブロックの変換部分をα（初期値0）倍するぜ」 – Fixup「初期値ちゃんと考えると正規化不要だぜ」
結果発表 • RMS Normのみ効果アリ – というかReZeroが大変な状況

3. 深さについての検証 • 右図のFeed Forward部分 – 線形変換その１→ReLU→線形変換その２ – パラメータ数のトレードオフを調べたい •
全体の層数（右図におけるN） • 真ん中の部分の次元数𝑑𝑑ff • Multi-Head Attentionのヘッド数𝐻𝐻 • 調べた結果 – Vanillaは 12 layers, 𝑑𝑑ff = 3072, 𝐻𝐻 = 12 – 層数が深い方が精度良さげだが、1秒当たりのステップ計算が遅い。

4. 埋め込み方法についての検証 • InputとOutputは語彙×埋め込み次元のパラメータ – NLPだとパラメータ数に影響が大きい • 行列分解（ALBERT [Lan+, ICLR
2020] より） – 語彙×埋め込み次元 → 語彙×内部次元と内部次元×埋め込み次元 • エンコーダの入出力での埋め込み [Chung+, ICLR 2021] – 共有（Tied）か非共有（Untied）か • 頻度による埋め込み次元の調整 [Baevski+Auli, ICLR 2019] – 低頻度な単語は低次元のベクトルに埋め込む • 実験結果：デコーダの入出力を共有（エンコーダとは非共有）すると〇

5. パラメータ共有方法についての検証 • ALBERT [Lan+, ICLR 2020] より – 各層のパラメータを全部共有する
– 先ほどの埋め込みの分解と共有も試す – エンコーダだけ/デコーダだけで共有 • 実験結果：大体ダメ – ただしALBERTでは文の順番を当てる損失も入れているが、この論文では対象としていないのでALBERT自体との比較ではない

6. Softmax • Adaptive Softmax [Joulin+, ICML 2017] – 単語の頻度に応じて語彙をクラスタリング→階層的識別で高速化
– 低頻度語はさらに射影して軽量化＋高速化 • Mixture of Softmaxes [Yang+, ICLR 2018] – Softmaxを𝐾𝐾通り計算して重みづけ和による事後確率計算 • 実験結果： – Mixture of Softmaxesは、性能が良くなったタスクもあるけど計算速度が40%低下

7. 全体のアーキテクチャの改善の歴史 • Transparent Attention [Bapna+, EMNLP 2018] • Evolved
Transformer [So+, ICML 2019] • Synthesizer variants [Tay+, 2020] • Funnel Transformer [Dai+, NeurIPS 2020] • Lightweight and Dynamic convolution [Wu+, ICLR 2019] • Mixture of Experts Transformer [Shazeer+, NeurIPS 2018][Lepikhin+, ICLR 2021] • Switch Transformer [Fedus+, 2021] • Product Key Memory [Lample+, NeurIPS 2019] • Universal Transformer [Dehghani+, ICLR 2019]

実験結果いよいよ多くて訳が分からん

7. 全体のアーキテクチャの改善の歴史 • Transparent Attention [Bapna+, EMNLP 2018] • Evolved
Transformer [So+, ICML 2019] • Synthesizer variants [Tay+, 2020] • Funnel Transformer [Dai+, NeurIPS 2020] • Lightweight and Dynamic convolution [Wu+, ICLR 2019] • Mixture of Experts Transformer [Shazeer+, NeurIPS 2018][Lepikhin+, ICLR 2021] • Switch Transformer [Fedus+, 2021] • Product Key Memory [Lample+, NeurIPS 2019] • Universal Transformer [Dehghani+, ICLR 2019]

精度が良くなったもの/悪くなったもの • Transparent Attention [Bapna+, EMNLP 2018] • Evolved Transformer
[So+, ICML 2019] • Synthesizer variants [Tay+, 2020] • Funnel Transformer [Dai+, NeurIPS 2020] • Lightweight and Dynamic convolution [Wu+, ICLR 2019] • Mixture of Experts Transformer [Shazeer+, NeurIPS 2018][Lepikhin+, ICLR 2021] • Switch Transformer [Fedus+, 2021] • Product Key Memory [Lample+, NeurIPS 2019] • Universal Transformer [Dehghani+, ICLR 2019]

Product Key MemoryとSynthesizer variants • Synthesizer [Tay+, 2020] – アテンション行列を𝑄𝑄𝐾𝐾⊤から
• 入力Xの線形変換+ReLU+線形変換に（Dense） • もう乱数でいいや（Random） – なおTay氏は今日読んでいる論文の第3著者 • Product Key Memory [Dehghani+, ICLR 2019] – 大量のkeyを別途学習しながら multi-head attentionぽいことをやるPKMの提案 – 一部の層のFFNをPKMに変えると、より小規模なネットワークで精度・速度up! – 前頁では本論文と[Wu+, ICLR 2019]だけがFacebookの論文（他は全てGoogle系）

Switch TransformerとMixture of Experts Transformer • Switch Transformer：1.6兆個のパラメータ – と聞くと大変そうだが、FFNが複数ある（Mixture
of Experts） – Switch Transformerでは選択的にこのFFNのうち一つを選ぶ – ので、全パラメータを毎回の学習や推論に使うわけではない • 余談 – これらの一連の論文は Googleによるもの – 特にNorm Shazeerは • Transformer原著の第2著者 • これらの論文にも著者として入っている [Shazeer+, NeurIPS 2018][Lepikhin+, ICLR 2021][Fedus+, 2021]

それでも：効果が確認された手法 • 実は…Vanilla Transformerでも入っている工夫がある – LayerNormが後 → LayerNormが先 [Baevski+Auli 2019][Xiong+,
2020] – 絶対値による位置埋め込み → 相対的な位置埋め込み [Raffel+, 2019] • 活性化関数：GLUとGeLU/Swishの組合せ • 正規化：RMS Norm • デコーダにおける入出力の分散表現の共有 • アーキテクチャの工夫 – Mixture of Experts Transformer – Switch Transformer – Product key memory – Synthesizer variants

まとめ • 近年のTransformerの改善手法の大半が元のTransformerと比べて大差ない – 複数課題での汎用性が無い、ソースコードもほとんど変わらない – ありがたい格言：新たな改善手法を考えた時は「複数実装をベースに使え」「CVも含む複数の課題で評価せよ」「ハイパーパラメータを揃えよ」「最良値じゃなく平均+分散」
One possible explanation for this is that the originally- proposed Transformer architecture was near-perfect, and there wasn't much that could be done to improve it. （これは、当初提案されたTransformerのアーキテクチャが完璧に近く、改良の余地があまりなかったことが理由として考えられます。）著者ら

所感 • 膨大な研究を膨大なリソースで評価したよいプレプリント – 弊社の実装ほとんど完璧でしたって自分で言っちゃうのすごい（ほめている） • ほとんどの手法では汎用性が出ないという結果 –
とは言いながら、Vanillaでも使っている改良や良好な結果が得られた手法もあるし、対象に入っていない手法もある – あとできればNLPだけじゃなくてCVでも評価してください – プレプリントなので誤字脱字や参考文献の誤りはご愛敬 – 僕の過去の前フリでも汎用性のある前フリがあるのかも…？活性化関数正規化構造埋め込み

Do Transformer Modifications Transfer Across Im...

Do Transformer Modifications Transfer Across Implementations and Applications?

More Decks by Yoshitaka Ushiku

Other Decks in Technology

Featured

Transcript