Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文紹介:What Learning Algorithm is In-Context Lear...
Search
Kosuke Nishida
August 21, 2023
Research
0
890
論文紹介:What Learning Algorithm is In-Context Learning? Investigation with Linear Models
第14回最先端NLP勉強会の論文(
https://openreview.net/forum?id=0g0X4H8yN4I
)紹介スライドです.
Kosuke Nishida
August 21, 2023
Tweet
Share
More Decks by Kosuke Nishida
See All by Kosuke Nishida
⼤規模⾔語モデルとVision-and-Language
kosuken
6
2.1k
論文紹介: Memorisation versus Generalisation in Pre-trained Language Models
kosuken
2
1.1k
Other Decks in Research
See All in Research
ニュースメディアにおける事前学習済みモデルの可能性と課題 / IBIS2024
upura
3
750
Weekly AI Agents News!
masatoto
30
45k
第 2 部 11 章「大規模言語モデルの研究開発から実運用に向けて」に向けて / MLOps Book Chapter 11
upura
0
460
ベイズ的方法に基づく統計的因果推論の基礎
holyshun
0
710
打率7割を実現する、プロダクトディスカバリーの7つの極意(pmconf2024)
geshi0820
0
190
最近のVisual Odometryと Depth Estimation
sgk
1
340
QGISハンズオン事に質問のあったProjectのGeoPackageへの保存方法についての、補足の資料です。
wata909
0
110
Weekly AI Agents News! 11月号 プロダクト/ニュースのアーカイブ
masatoto
0
260
Tietovuoto Social Design Agency (SDA) -trollitehtaasta
hponka
0
3.3k
marukotenant01/tenant-20240916
marketing2024
0
650
Weekly AI Agents News! 9月号 論文のアーカイブ
masatoto
1
170
データサイエンティストをめぐる環境の違い 2024年版〈一般ビジネスパーソン調査の国際比較〉
datascientistsociety
PRO
0
940
Featured
See All Featured
Why You Should Never Use an ORM
jnunemaker
PRO
54
9.1k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
49
2.2k
Building a Scalable Design System with Sketch
lauravandoore
460
33k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
27
1.5k
We Have a Design System, Now What?
morganepeng
51
7.3k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
7
570
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
26
1.9k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
BBQ
matthewcrist
85
9.4k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
28
2.2k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5.1k
Done Done
chrislema
182
16k
Transcript
What Learning Algorithm is In-Context Learning? Investigation with Linear Models
紹介者︓ NTT⼈間研/東京⼤学 ⻄⽥光甫 Ekin Akyurek, Dale Schuurmans, Jacob Andreas, Tengyu Ma, Denny Zhou ICLR2023
• In-Context Learningはパラメータを更新せずに新しい関数を 学習することができる – 既存研究はどんな関数を学習できるかに焦点 – どのように関数を学習しているのかを知りたい • 理論的貢献︓
– 線形回帰モデルの学習アルゴリズムをTransformerが再現できる ことを⽰した • 実験的貢献︓ – Transformerが学習した関数が線形回帰モデルに近いことを⽰した 2 本研究の概要と貢献
3 この論⽂の主張のイメージ In-context Examples 𝑋, 𝑦 Test Example Transformer Decoder
𝑦! = 𝑤∗#𝑥! Transformerに 教師・評価データの 系列を与えると 理論&実験的に︓ 最適な線形回帰モデル による予測値を出⼒︕
• 準備 • 理論的貢献 – 線形回帰モデルの学習アルゴリズムをTransformerが再現できる • 実験的貢献 – Transformerが学習した関数が線形回帰モデルに近い
4 ⽬次
• ⼊⼒𝑥,パラメタ𝑤を𝑑次元ベクトルとし,出⼒𝑦を 𝑦 = 𝑤!𝑥とモデリング • 𝑥" , 𝑦" "#$,…,'()
から以下の損失で学習し,パラメタの 推定値' 𝑤 = 𝑤∗を得る 5 線形回帰モデルの定義 解の閉形式が存在 リッジ回帰. 𝜆 = 0で最⼩⼆乗法(OLS) ⼆乗誤差
• 補題1: ⼊⼒𝐻に対して以下の変換を実現する1層 Transformer Decoderが存在する – mov: ⾏列𝐻のある部分を別の箇所に移す – mul:
⾏列𝐻のある部分とある部分の積を別の箇所に出⼒ – div: ⾏列𝐻のある部分をある要素で割る – aff: ⾏列𝐻のある部分を,ある𝑊, 𝑏によってaffine変換して 別の箇所に出⼒ ※詳細は省略.変換のイメージのみ記載 ※Transformerのパラメタ𝜃は𝑊, 𝑏に依存 6 Transformerは以下の演算が可能 𝐻 movの例 Transformer Layer 𝑖: 𝑗⾏𝑡列を 𝑖!: 𝑗!⾏𝑠列で上書き
7 これから⽰すこと In-context Examples 𝑋, 𝑦 Test Example Transformer Decoder
𝑦! = 𝑤∗#𝑥! Transformerに 教師・評価データの 系列を与えると 最適な線形回帰モデル による 予測値を得られる︕ Transformer内部で mov, mul, div, aff演算を 適切に繰り返すことで
• 準備 • 理論的貢献 – 線形回帰モデルの学習アルゴリズムをTransformerが再現できる • 実験的貢献 – Transformerが学習した関数が線形回帰モデルに近い
8 ⽬次
• 線形回帰モデルを勾配法で学習するとき,以下の式を 反復して𝑤を更新する 9 線形回帰モデルを勾配法で学習する場合 𝛼︓学習率
• 層数𝑂(1),次元数𝑂(𝑑)のあるTransformerに • H($)を⼊⼒すると • 最終状態H(-)の𝑥' に相当する列は𝑤./𝑥' を要素に持つ • つまり,確率的勾配法の学習の1stepを再現
10 勾配法の1 step=Transformer変換 定理1︓確率的勾配法の学習の1stepを 計算するTransformerが存在する In-context Example 1つ Test Example
以下の⼿順で計算するだけ 11 定理1の証明
• 解の閉形式は逆⾏列の変換を含むため,計算したくない • データ数が1ならSherman-Morrison公式で回避できる • 𝑋!𝑋 = ∑ 𝑥" 𝑥"
!より,反復することで 𝑋!𝑋 + 𝜆𝐼 () が得られる 𝐴 = 𝜆𝐼, 𝐴"# = # $ 𝐼 𝑢 = 𝑣 = 𝑥% 12 線形回帰モデルを閉形式で解く場合 𝑑×𝑑の逆⾏列 𝐴 = 𝜆𝐼 + 9 %&' 𝑥% 𝑥% ( 𝑢 = 𝑣 = 𝑥')#
• 層数𝑂(1),次元数𝑂(𝑑!)のあるTransformerに • H(#)を⼊⼒すると • 最終状態H(%)の𝑥& に相当する列は𝑤'(𝑥& を要素に持つ • つまり,1データについての閉形式を再現
13 1データについての閉形式=Transformer変換 定理2︓Sherman-Morrison公式による 1データについての閉形式を計算する Transformerが存在する
• 類似の既存研究はあるが,浅い層数で実現可能なことを⽰した ことが経験的結果の説明として重要 • 定理は1step・1データに関する計算を⽰しているが, 層を重ねることで複数step・データに拡張可能 – 𝑛データから学習するときは定理1・2ともに層数𝑂(𝑛) • メタ学習からの解釈
– Inner-LoopをTransformerが内包していると考えられる – Transformerの事前学習がOuter-Loopに相当 • 線形回帰モデルの学習を再現できるって嬉しいの︖(私⾒) – ⽂埋め込みモデルを固定して,線形変換層だけを下流タスクで学習 することはNLPでよく⾏われる – Transformerの下側で⽂埋め込みの獲得,上側で「⽂埋め込みに基づく 線形回帰モデルの学習」をしているとも解釈できる – ここまで解釈を進めるとNLP的にも嬉しい(気がする) 14 議論・補⾜
• 準備 • 理論的貢献 – 線形回帰モデルの学習アルゴリズムをTransformerが再現できる • 実験的貢献 – Transformerが学習した関数が線形回帰モデルに近い
15 ⽬次
• Transformer変換が,勾配法・閉形式による線形回帰学習に, 学習アルゴリズムとして近いことを⽰したい • アルゴリズムの近さに関する評価指標が必要 16 評価したいこと
• 学習アルゴリズム𝒜によって得られた関数𝑓の予測の近さを 評価 17 指標1: Squared prediction difference In-Context exampleとtest
exampleに関する 期待値 予測値の差の2乗 𝑓はアルゴリズム𝒜で In-Context Example 𝐷から 学習した関数
• 学習アルゴリズム𝒜が学習したモデルを近似する線形モデル のパラメタ𝑤の近さを評価 ※ 𝒜が学習するモデルは線形変換に限らない 18 指標2: Implicit linear weight
difference In-Context exampleとtest exampleに関する 期待値 パラメタの差の ノルム 学習モデルを 最も再現する線形モデル 𝒜が学習したモデル による予測値
• ⽐較対象の学習アルゴリズム – k近傍法 – リッジ回帰の確率的勾配法(batch size=1, #step=#data) – リッジ回帰の最急降下法(batch
size=#data, #step=1) – リッジ回帰の閉形式(厳密解) • タスク – ⼊⼒𝑥・真のパラメタ𝑤* を4,8,16次元⽩⾊ノイズとする – {𝑥% , 𝑦% = 𝑤* +𝑥% }と𝑥, から𝑦, を予測 • Transformer – 𝐻(*)を⼊⼒し,𝑥, に相当する列の0⾏⽬の値を予測値とする – 16層512次元4ヘッド.⼊⼒での次元の違いはpaddingで対処 – Transformer⾃体を上記タスク・⼆乗誤差で50万step学習した 19 実験設定
• 実験では,TransformerがIn-Context Learningに関する 学習を⾏った 20 TransformerのIn-Context Learning学習 データ分布に関する 期待値 再現したい関数𝑓
= 𝑤* に関する期待値 Transformerに i-1個の⼊出⼒・ 1個の⼊⼒を 与えて数値を得る 正解𝑦% = 𝑤* +𝑥%
• Squared prediction difference(予測の近さ)で測ったとき, 最⼩⼆乗解(𝜆 = 0のときの閉形式)との距離が⼩さい – 8次元の問題なので,事例が8未満のときは不定解 –
閉形式はありうる解のうちノルムが最も⼩さい解を選ぶ – Transformerが閉形式と近いということは,Transformerもノルムが ⼩さい解を選んでいる • パラメタが⽩⾊ノイズなので,0(パラメタ事前分布平均)に近い解を 選んでいることをベイズの観点から語れるのでは︖ 21 Transformer変換は最⼩⼆乗解を再現する
• Implicit linear weight difference(パラメタの近さ)で測った ときも同様に最⼩⼆乗解に近い 22 Transformer変換は最⼩⼆乗解を再現する
• データのノイズの分散を𝜎0,パラメタ𝑤の事前分布の分散を 𝜏0としたとき,ベイズ解は𝜆 = 𝜎0/𝜏0としたリッジ解 • ノイズのあるデータで実験すると, Transformer出⼒は𝜆 = 𝜎0/𝜏0としたリッジ回帰との間でSPDが⼩さい
– Transformer変換はベイズリスク最⼩化と学習アルゴリズムとして 近い – ノイズがないときは𝜎/ = 0で最⼩⼆乗解に相当 23 Transformer変換はベイズリスクの⼩さい解を再現する
• モーメント・パラメタを系列⽅向の重み付き和+Linear/MLP で復元するprobingを⾏い,MSEで評価 • まずモーメント,次にパラメタを復元 – 低層では復元できない.多層変換の重要性も確認 24 Probingによる検証 学習可能パラメタ
モーメント パラメタ
• 理論的貢献︓ Transformer変換は線形回帰の学習アルゴリズムを再現できる • 実験的貢献︓ – In-Context LearningしたTransformerはベイズリスク最⼩な 線形回帰モデルの予測値と近い予測を出⼒ •
私⾒︓ – 線形性を仮定しない学習をしたTransformerがベイズリスク最⼩な 線形回帰モデルと近いモデルを得るのは⾯⽩い – ⽐較⼿法の中で⼀番いいモデルがリッジ回帰の厳密解だった可能性も – 次単語予測で学習したTransformerが線形回帰の学習を再現するかは 不明 – 「なんでパラメタも更新しないでタスクに適応できるの︖」の 疑問への⼀つの答え 25 本研究のまとめ
• 層が少ないときは1stepの勾配法と近く,層が増えると リッジ回帰と近い • リッジ回帰と近づくには次元数が必要だが,𝑂(𝑑0)は不要 26 ⼩さいTransformerではどうなる︖