A Theory of Emergent In-Context Learning as Implicit Structure Induction

A Theory of Emergent In-Context Learning as Implicit Structure Induction
Michael Hahn and Navin Goyal arXiv 2023-03 https://arxiv.org/abs/2303.07971 読む⼈︓横井祥（東北⼤学） 2023-08-17, 第15回最先端NLP勉強会 ※ とくに注釈がない限り図表は紹介論⽂からの引⽤です

背景︓⽂脈内学習すごい 4

⾔語モデル 5 📄 Neubig, CMU CS 11-711, Fall 2022, Advanced
NLP, Intro 3 - Language Modeling and NN Basics hDp://www.phontron.com/class/anlp2022/assets/slides/anlp-03-lm.pdf

⽂脈内学習（in-context learning︔ICT） 6 📄 Brown+, Language Models are Few-Shot Learners
(NeurIPS 2020) ⾒本の (x,y) 数個 + test x をプロンプトに⼊れるだけ

⽂脈内学習の機械学習視点での異様さ 7 • 教師あり学習 − タスク⽤の学習データ︓103〜108 • 事前学習 → 微調整
− タスク⽤の学習データ︓102〜103 • ⾔語モデルの学習 → ⽂脈内学習 − タスク⽤の学習データ︓0〜10 − ＋パラメータ更新不要 ?! ?!

この研究︓「コーパス内の反復構造が⽂脈内学習の成功の鍵なのでは…︖」 8

お気持ち 9 • ⾃然⾔語⽂には反復（並列構造）が⼭ほどある 📄 Hahn&Goyal, A Theory of Emergent
In-Context Learning as Implicit Structure InducVon (arXiv 2023)

お気持ち 10 • コーパス中に当該の関係が反復して書かれていると • ⽂脈内学習（in-cotext learning）がうまくいく Japan -> Tokyo,
Ghana -> [ ? ] ... ... ... ... the population of Tokyo (Japan) is ..., the popupation of Paris (France) is .... D.C. is the U.S.ʼs capital ..., Tokyo is the Japanʼs capital ...

お気持ち 11 • コーパス中に当該の関係が反復して書かれていると • ⽂脈内学習（in-cotext learning）がうまくいく Japan -> Tokyo,
Ghana -> [ ? ] ... ... ... ... the population of Tokyo (Japan) is ..., the popupation of Paris (France) is .... D.C. is the U.S.ʼs capital ..., Tokyo is the Japanʼs capital ... Relation 132 Tokyo D.C. Paris Brasília Nairobi … Japan U.S. France Brazil Kenya … ↔ ↔ ↔ ↔ ↔ (OK... relation 132) Accra …

理論 12

理論パートのアウトライン 13 • コーパス中に当該の関係が反復して書かれていると • ⽂脈内学習（in-cotext learning）がうまくいく 1. これの記述の仕⽅ 3.
これの⽰し⽅ 2. これらの繋ぎ⽅

理論パートのアウトライン 14 • コーパス中に繰り返し構造がたくさんあると • ⽂脈内学習（in-cotext learning）がうまくいく 1. これの記述の仕⽅ 3.
これの⽰し⽅ 2. これらの繋ぎ⽅

1. 反復構造をうまく表現できる⽂法を考える 15 • ⾃然⾔語に⼭のように出てくる並列構造を形式化したい • Compositional Attribute Grammars (CAG)
− 形式⽂法 − 著者の提案 − 「⾃然⾔語⽂はこういう複雑さと特徴をもって構成されていると思えそうだよね，思いましょう」 − PCFG + α • 理論の仮定 📄 Hahn&Goyal, A Theory of Emergent In-Context Learning as Implicit Structure InducVon (arXiv 2023)

1. 反復構造をうまく表現できる⽂法を考える 16 CAG = PCFG＋α の α（＝反復構造の源）その1︓部分⽊をまたぐ条件付き⽣成（関数︔関係）広義「関係知識」を
記述するための関数

1. 反復構造をうまく表現できる⽂法を考える 17 CAG = PCFG＋α の α（＝反復構造の源）その2︓ループ共通の「関係知識」のインスタンスが反復して記述されるという
⾃然⾔語の特性を表すための，特殊な⾮終端記号

2. 反復しやすさを記述するための量を⽤意 18 • 導出⽊ τ の記述⻑ 𝐷 τ …
τ のノード数提案する⽂法を使うと，反復構造を持つ⽂の導出⽊を⼩さく書ける

2. 反復しやすさを記述するための量を⽤意 19 • 関数𝜃の反復複雑性 𝑅! … 𝜃を𝑛回反復する時の記述⻑の増分 − Q.
同じ⽣成規則がどれくらい反復して利⽤される︖ − 𝑅! : 「内側で 𝜃 を 𝑛 回使う」構⽂⽊ 𝜏 の⼤きさは，𝜃 単体の⼤きさに対する増分は，最⼩でどれくらい︖

2. 反復しやすさを記述するための量を⽤意 20 • 関数𝜃の反復複雑性 𝑅! … 𝜃を𝑛回反復する時の記述⻑の増分 − Q.
同じ⽣成規則がどれくらい反復して利⽤される︖ − 𝑅! : 「内側で 𝜃 を 𝑛 回使う」構⽂⽊ 𝜏 の⼤きさは，𝜃 単体の⼤きさに対する増分は，最⼩でどれくらい︖ − 𝑅! ≈ 1 で済む例（loop） τ: 内側で θ を 𝑛 回利⽤ θ 「θ から⽂字列を⽣成」を 𝑛 回繰り返し

3. 定理 ̶ コーパス中に反復が多ければ⽂脈内学習は成功しやすい 21 • 定理1︓予測の 0-1 損失の平均は
𝒪(𝑅! + 𝐷 τ" ) で押さえられる論⽂で正確なステートメントを確認したいかた向けの設定メモ︓ • 気になっている「関係データ」 − 合計 𝑛 種の「関係データ」 𝑥! , 𝜑 𝑥! ! − 例︓{(country, capital of it)} = {(France, Paris), ...} • LM への⼊⼒ … ⽂脈内学習のプロンプト︔0 〜 𝑛 − 1 ショット − 𝑃" ≔ − 例︓ • LM からの出⼒ − . − 例︓ ICTの不正解率は当該関係を表す部分⽊が⼩さいときに，⼩さくなる反復の複雑性が低く＝コーパスで当該関係の繰り返しが起きやすく，

理論パートのまとめ 22 • コーパス中に当該の関係が反復して書かれていると • ⽂脈内学習（in-cotext learning）がうまくいく CAG という反復構造を表しやすい⽂法を定義
⽂脈内学習の不正解率は反復を⼩さな構⽂⽊で書けるときに下がる（＝当該の関係知識が反復構造を使って⾔語にデコードされるときに下がる）「反復されやすさ」を「反復を含む構⽂⽊がどれくらい⼩さくなるか」で定義

実験 23

⼈⼯データによる確認︓ 実際に反復構造は⽂脈内学習に効く︖ 24 • 確かめたいこと − 関係知識の反復が起きやすい⽂法（CAG）で知識を⾔語化しておくと，そのコーパスから学習した⾔語モデルは，⽂脈内学習を成功させやすい • 準備1︓関係知識
− ⼈⼯的な何か − オブジェクトは⽂字 − 関係も関数名 − 知識グラフ的な何か − もっと複雑な対象 ̶常識，直観物理，対話̶ のネットワークだと思っても良い

⼈⼯データによる確認︓ 本当に反復構造が⽂脈内学習に効いてる︖ 25 • 準備2︓関係知識をデコードしたコーパス − ベースラインのひとつ︓HMM dataset – 従来理論で使われていた⽂法
…を使ってコーパスを⾃動⽣成 − compositional dataset – CAG の簡略版 …を使ってコーパスを⾃動⽣成

⼈⼯データによる確認︓ 本当に反復構造が⽂脈内学習に効いてる︖ 26 • 準備3︓ニューラルモデル − GPT-2 (Transformer) − small
(14M), medium (21M), 42M (large), 85M (XL) − 今⽇⽇の “LLM” ではない − が，語彙サイズもコーパスサイズも⼈⼯的な⼩さなもの − 実際これでも ICT や CoT の機能が⽣まれる様⼦がよく⽰せる（結果）

⼈⼯データによる確認︓ 本当に反復構造が⽂脈内学習に効いてる︖ 27 • 準備4︓解かせるタスク − ⽂脈内学習，より複雑な⽂脈内学習

結果︓CAG で知識を⾔語化すると⽂脈内学習が成功する 28 タスクコーパス＝知識を⾔語化する⽂法学習ステップ
正解率知識に含まれる関数（＝関係）の種類数 CAG の簡易版（今⽇の主役） ✔ ✔ ✔ ✔ ✔ ✔ ✔

まとめ 29

まとめ 30 • 背景︓⽂脈内学習（ICT）が意味不明にすごい − パラメータ更新なし，超少数のラベルつきデータ • 関係がテキスト中で反復されやすい → ICTが成功しやすい
1. 反復を表現しやすい⽂法（CAG）を⽤意 – 関数（＝関係＝部分⽊を越える依存関係） – ループ（＝繰り返し） 2. 反復されやすさを表す量を⽤意 – 同じ関係知識を反復して出⼒する際に導出⽊はどれくらい⼤きくなる︖ 3. ICT の 0-1損失（不正解率）は，当該の関係がテキスト中で反復されやすいときに（そういう⽣成モデルが背後にあるときに）下がる • ⼈⼯データによる実験での検証 − CAG に従って知識を⾔語化（コーパス化）すると，これを学習した⾔語モデルで確かに ICT が成功しやすい

今⽇⾶ばした話 31 • とてもたくさん − CoT への拡張 − prompt ⻑との関係
− べき分布の場合での⽰唆 − 各量や定理の具体例を⽤いた説明 − （attention pattern による検証） − etc. • かなり⾯⽩い論⽂でした．ご興味あるかたは本⽂もぜひ．

この研究が何につながりそうか，この研究はどういう視点で魅⼒的か（私⾒） 32 • メタ共起 as ⼤規模⾔語モデルの記述⼦…︖ − 数理がすごくよくわかっている世界︓静的埋め込み –
共起（インスタンスとインスタンスの共起︔PMI） ↔ 埋込表現 − 数理がまだ全然わからない世界︓⼤規模⾔語モデル – メタ共起（インスタンスとインスタンスの共起からなるテーブル） ↔ ︖ • 共起 → メタ共起 → グラフ…︖ − 今回の研究︓2者の関係のクラスの学習可能性 − 我々がよくやる「理解」︓グラフのマッチング • ご興味あるかた共同研究しましょう

この研究が何につながりそうか，この研究はどういう視点で魅⼒的か（私⾒） 33 • メタ共起 as ⼤規模⾔語モデルの記述⼦…︖ − 数理がすごくよくわかっている世界︓静的埋め込み –
共起（インスタンスとインスタンスの共起︔PMI） ↔ 埋込表現 − 数理がまだ全然わからない世界︓⼤規模⾔語モデル – メタ共起（インスタンスとインスタンスの共起からなるテーブル） ↔ ︖ • 共起 → メタ共起 → グラフ…︖ − 今回の研究︓2者の関係のクラスの学習可能性 − 我々がよくやる「理解」︓グラフのマッチング • ご興味あるかた共同研究しましょう電気回路抵抗電池電流電圧導線電⼦⽔路⽔⾞ポンプ⽔量⾼さホース⽔

A Theory of Emergent In-Context Learning as Imp...

A Theory of Emergent In-Context Learning as Implicit Structure Induction

Sho Yokoi PRO

More Decks by Sho Yokoi

Other Decks in Research

Featured

Transcript