Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Embers of Autoregression: Understanding Large L...

Sho Yokoi
August 24, 2024

Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve

第16回最先端NLP勉強会
https://sites.google.com/view/snlp-jp/home/2024

Sho Yokoi

August 24, 2024
Tweet

More Decks by Sho Yokoi

Other Decks in Research

Transcript

  1. Embers of Autoregression: Understanding Large Language Models Through the Problem

    They are Trained to Solve R. Thomas McCoy, Shunyu Yao, Dan Friedman, Matthew Hardy, Thomas L. Griffiths https://arxiv.org/abs/2309.13638 読む人:横井 祥(東北大学) 2024-08-25, 第16回最先端NLP勉強会 とくに注釈がない限り図表は紹介論文からの引用です 画像:Wikimedia Commons https://commons.wikimedia.org/wiki/File:Embers_01.JPG ember a 残り火 b (感情・思い出などの)くすぶり, なごり. 研究社 新英和大辞典 第6版 「次単語予測の残り火」
  2. 簡易まとめ 5 タスクの例:シーザー暗号 1. 言語モデルは見慣れた問題設定なら上手に解ける − インターネットで頻出の 𝑛 = 13

    (rot-13) ならすらすら復号化できる − インターネットでほとんど出てこない 𝑛 = 8 だと復号化できない コーパス(学習データ) にそこそこ含まれるのは 𝑛 = 1, 3, 13 の場合 C4 から当該事例の候補をさらって(↓)、その後手動チェック(?!) — Appendix E.1 https://github.com/tommccoy1/embers-of-autoregression/blob/main/corpus_analysis
  3. 簡易まとめ 6 タスクの例:シーザー暗号 1. 言語モデルは見慣れた問題設定なら上手に解ける − インターネットで頻出の 𝑛 = 13

    (rot-13) ならすらすら復号化できる − インターネットでほとんど出てこない 𝑛 = 8 だと復号化できない 言語モデルが そこそこ解けるのも 𝑛 = 1, 3, 13 の場合 コーパス(学習データ) にそこそこ含まれるのは 𝑛 = 1, 3, 13 の場合
  4. 背景・やりたいこと 10 LMs にはヒト向けではなく LMs 向けの評価を行うべきでは? • ヒトの(言語的・知的)能力やバイアスを評価するためのテスト は、LMs の能力やバイアスを見逃す可能性

    − ヒトには簡単だが(問うことすらしないが)LMs にとって難しい問題も たくさんある ← こういう問題が論文でたくさん登場します • 他の問題:擬人化バイアス、データ汚染、……
  5. 背景・やりたいこと 11 LMs を目的論的 (teleological) に理解しよう、という提案 • 進化生物学者が動物を理解しようとするように • 認知科学者が計算レベルで対象を理解しようとするように

    • 事前訓練時に LMs が受けている負荷は(=どんなふうに “環境への適応” を強いられているかといえば)次単語予測 − 「ここに帰着させて LMs の能力やバイアスを理解しましょう」 岡田, 1.総説:David Marrの三つのレベルとデータ駆動科学 (2014) 「LLM が何に影響を受けるか」 についてのサーヴェイは §10 ヒトに対する目的論的 アプローチについては §9.4
  6. 私見:コーパスと次単語予測への帰着は正しそう 12 私見:LMs の機能を、事前学習データ(コーパス)や 目的関数(次単語予測)に帰着させることは、 おそらくいま最も重要な研究の方向性のひとつ • 事前学習の設定が LMs の能力に直結する

    − 事前学習のスケーリングによる LMs の機能全体の改善 − 事前学習データの改善による LMs の機能全体の改善 • 事後学習は、事前学習で得た信号を取り出しているだけ? − SFT/RLHF/DPO/...:小データ − PEFT/LoRA/Han+ACL’24/...:低次元 − “know what is knows” [Gekhman+ arXiv 2024-05] • → LMs の異様な力の源泉はコーパスが持つ統計情報のみ? − ……だとすると、意味の使用説、機能主義言語学、構文文法、用法基盤 モデル、etc. について、超大規模データ・LMs を用いた再検討が可能に なったのでは……?(経験主義者による私見です) このペーパーを選んだ理由のひとつ
  7. 仮説: タスク・出力・入力の頻度が正解率に影響? 13 • 次単語予測で訓練しているのだから…… • タスク頻度 (task probability) への鋭敏性

    − 見慣れた問題設定(見たことがある問題文の系列)の場合はうまく動 くし、見慣れない問題設定の場合にはうまく動かないのでは? − → yes • 出力頻度 (output probability) への鋭敏性 − 見慣れた出力ならうまく出せるし、見慣れない出力はうまく出せない のでは? − → yes • 入力頻度 (input probability) への鋭敏性 − 見慣れた入力ならうまく処理できるし、見慣れない出力はうまく処理 できないのでは? − → no っぽい?
  8. 設定抜粋 15 • モデル:GPT-3.5, GPT-4 • タスク:いわゆる文脈内学習設定 (Appendix B) −

    指示文の設計方針については §9.4 Input 問題の説明 訓練事例数個 {(x,y)} テスト事例 xtest Brown+, Language Models are Few-Shot Learners (NeurIPS 2020) (GPT-3 論文) Input
  9. 例:シーザー暗号 16 シーザー暗号 • 元文に含まれるすべての文字 [a-z] を、 アルファベット表上で 𝑛 個手前の別の文字に置き換える

    • 𝑛 = 3 の場合 Caesar cipher, Wikipedia (en), https://en.wikipedia.org/wiki/Caesar_cipher [accessed 2023-10-26]
  10. 例:シーザー暗号 17 LMs のシーザー暗号の復号化能力はタスク頻度に鋭敏 − インターネットで頻出の 𝑛 = 13 (Rot-13)

    ならすらすら復号化できる − インターネットでほとんど出てこない 𝑛 = 2 (Rot-2) だとダメ − 問題の難しさは同じはずなのに! 正 解 率
  11. 飛ばした(大量の)コンテンツ 23 • 分厚いペーパー − 50 pages + 11 page

    of references + 23 pages of appendices • 潤沢なタスク群 − 11種、Table 2 参照 • 潤沢な関連研究 − §9.3, §10.1.1: ヒトと LMs を比較することについて − §10.1: モデルの能力をコーパスに帰着する際に気を付けるべきこと • わかりやすい膨大な可視化 • 再現性の担保 − Appendix に手順を丁寧に記載 − コードベースを公開
  12. まとめ 24 Embers of Autoregression • LMs の得意不得意を、事前訓練に(ウェブコーパス上での 次単語予測に、目的論的に)帰着させて理解したい •

    タスクの成功率が以下、とくに1, 2に大きく影響を受けるこ とを確認 1. タスク頻度:当該の設定がどの程度の割合でコーパスに登場するか 2. 出力頻度:出力テキストがどの程度の割合でコーパスに登場するか 3. 入力頻度:入力テキストがどの程度の割合でコーパスに登場するか • 問題の形式的な複雑さが同じでも頻度で正解率が変わる − ※ これがヒトとの違いかは謎。我々も似たようなものでは……? − ※ 著者は、決定論的なタスクなのに頻度に影響を受けて回答が揺れ る部分を強調している。が、ここはまだ共感できていない。 ember a 残り火 b (感情・思い出などの)くすぶり, なごり. 研究社 新英和大辞典 第6版 「次単語予測の残り火」
  13. 感想 25 • Super well-written paper − 個人的にはこの1年で少なくともトップ2に入る面白い論文 − もうひとつは、Mahowald+,

    Dissociating language and thought in large language models (Trends in Cognitive Sciences 2024) • 批判:スコープの広さが不明 − この分析方法にフィットしかつ決定論的な問題を集めた、とも言えそう − 決定論的な問題のすべてが頻度バイアスを持つかは不明 − こうしたバイアスがかかる確率的な問題も自然に色々ありそう • 個人的な興味に直撃 − 「意味はテキスト(分布)に現れ、分布(統計的な情報)として現れる 意味のみを LLM が扱い得る」派としては、「いいね!」になる − ヒトのおこなう一見すると高次な知的活動の中にも「見たことがある」 で解ける種類のものも山程ありそう。ここの定式化に足掛かりにしたい
  14. 補遺 26 • Q. LMs は見たことがあることしかできない、ということ? A. No, そうは言っていないです −

    ほかにもたくさんできることがあります – 見たことがある情報の逐次的な利用 – 見たことがある情報の抽象化・汎化 – タスクのクラス自体の汎化(ある種のメタ学習) − それとは別に、事前学習のデータや目的関数が効いている、という話 • Q. LMs は決定的/記号的な推論は無理、ということ? A. No, そうは言っていないです − 少なくともここで例に挙がっていた問題群に関して、現状のデータと 目的関数の下で、あるレベルでの汎化に失敗している、というだけ − 教師なし(自己教師あり)での抽象化(離散化)がある程度成功して いる以上、「確率的マシンで決定的/記号的推論はできない」も飛躍 に見える