Upgrade to Pro — share decks privately, control downloads, hide ads and more …

JSAI2023 Tutorial 「基盤モデルの技術と展望」

JSAI2023 Tutorial 「基盤モデルの技術と展望」

■ URL
https://www.ai-gakkai.or.jp/jsai2023/tutorial

■ 概要
2021年頃に登場した基盤モデル (Foundation Model) は,従来のように個別のタスクに仕立てたモデルを作るのではなく,単一のモデルを多様な後続タスクに適用可能となっている深層学習のパラダイムを表した言葉である.この傾向が特に顕著なのは言語(GPT-3,PaLMなど)であるが,マルチモーダル領域におけるImagenやCLIP,強化学習領域におけるGato,RT-1など多様な領域で同様のアプローチを取った研究が行われている.基盤モデルは一般にデータ・モデル両面のスケールと同時に説明されることも多く,モデルサイズ・計算量・データサイズと性能の関係に関する経験則(Scaling Law)や,モデル規模が拡大した際にのみ発現する能力 (Emergent Law) の存在などが報告されている.本講演ではこれらの技術的な動向について概観し,今後の展望について述べる.

Yusuke Iwasawa

June 08, 2023
Tweet

Other Decks in Technology

Transcript

  1. ⾃⼰紹介 2 • 現職︓東⼤松尾研講師 • DL輪読会の運営 (@DL_Hacks),深層学習の書籍の翻訳 • 最近主なテーマ︓⼤規模モデルからの知識の転移 (Test-Time

    Adaptation) • “Test-Time Classifier Adjustment Module for Model Agnostic Domain Generalization”, NeurIPS2021 • “Large Language Models are Zero-Shot Reasoners”, NeurIPS2022 など • 本講演の経緯 ⇨ • 昨年11⽉開催 • 20分を90分に
  2. Foundation Model(基盤モデル)とは “On the Opportunities and Risks of Foundation Models”,

    2021 4 • 2021/8/16初出のホワイト ペーパーで登場した⾔葉 • Stanfordの研究機関の名称にも なっている(⻘枠) (Abstractより抜粋) “AI is undergoing a paradigm shift with the rise of models (e.g., BERT, DALL-E, GPT- 3) that are trained on broad data at scale and are adaptable to a wide range of downstream tasks. We call these models foundation models to underscore their critically central yet incomplete character”
  3. 基盤モデルの例︓GPT3を初めとした⼤規模⾔語モデル Example of Foundation Models 5 Causal Language Model LLMs

    (Transformer) Input: Language models determine [mask] Output: word probability by analyzing text data Original: Language models determine word probability by analyzing text data Translation (Few-Shot) Translation (Zero-Shot) Summarization (Zero-Shot) • Starting with “TL;DR” drastically improves the performance Many other examples 図は” Language Models are Few-Shot Learners”より抜粋
  4. Igaku-QA | GPT-4の専⾨的知識の検証 “Evaluating gpt-4 and ChatGPTt on Japanese medical

    licensing examinations”2023 8 • ⾔語モデル (GPT-4 and ChatGPT)を新たに作成した⽇本の医療ライセンス試験に関するデー タセット(Igaku-QA)でベンチマーク • (1) ⼈間の平均的な受験者よりは悪い,(2) 禁忌技を選択する傾向にある,といった問題はあ るものの試験ボーダーは突破
  5. Voyager | ⾔語モデルを使った⽅策の獲得 “Voyager: An Open-Ended Embodied Agent with Large

    Language Models”, arXiv2023 9 • LLMを使ってMinecraftをプレイする (右が動画) • 逐次的な⾏動獲得が必要,スパース報酬 • RLが苦⼿ (cf. Dreamre v3が初めてスクラッチで採掘に成功 • スキルをコードとして書く+LLMでプランニング
  6. マルチモーダルデータを扱う⼤規模モデルの例 | Flamingo “Flamingo : a Visual Language Model for

    Few-Shot Learning”, 2022, DeepMind 12 • 学習済Vision Model(NF-Net) とLanguage Model (Chinchilla, 70B) を統合.計80B. • ペアデータで接続部分 (Perceiver ResamplerとGated Xattn) . • フラミンゴの写真を⾒て「フラミンゴ。カリブ諸島や南アメリカで⾒られます」などと返すなど画像・ ⾔語で様々な補完ができる. https://www.deepmind.com/blog/tackling-multiple-tasks-with-a-single-visual-language-model
  7. Robot Transformer (RT-1) “RT-1: Robotics Transformer for Real-World Control at

    Scale”, 2022 14 モデル • Efficient NetとTransformer の組み合わせ • インストラクションに従い 動作⽣成 データ • EDR13台,17ヶ⽉,744タ スク,13万デモ • 訓練︓97%で動作 • 汎化︓種々の意味で⼤幅向上 (未知タスク,未知ソース等 • Long Horizonなタスクも可 ※ 類似研究にGato,BC-Zなど
  8. Segment Anything Model “Segment Anything”, 2023 15 構築した⼤規模データセットSA-1B (1B Masks,

    11M images)を使ったセグメンテーションモデル. さまざまなプロンプト(点,矩形,テキストなど)を受け取る柔軟にマスクを⽣成することができる
  9. Track Anything: SAMの応⽤例 “Track Anything: Segment Anything Meets Videos”, 2023

    16 Github: https://github.com/gaomingqi/Track-Anything Demo: https://huggingface.co/spaces/VIPLab/Track-Anything
  10. 基盤モデルの特徴は︖ 17 “On the Opportunities and Risks of Foundation Models”より抜粋

    1. ⾮常に幅広いタスク を(追加学習なしに) 単⼀のモデルで解ける 2. モデル・計算量・ データのスケーリング により実現されること 3. ⾔語に限らない (のではという期待
  11. 対象は⾔語に限らない(のではという期待) 基盤モデルの特徴3 20 ⼤規模モデル(Transformer) 例︓Gato, RT-1, X-Former 例︓Dreamer v3 +

    ⼤規模なデータ 例: SAMでの1Bのマスクデータ 例︓Gato, RT-1 + ⼤規模計算 例︓スケール則は別ドメインでも成⽴ 1. ⽅法論の共通化 (別ドメインでの基盤モデル構築) 2. ドメインを超えたモデル共有 マルチモーダル化 ”One model to Learn Them All”, 2017 的な世界観(上図) 例︓ GPT4 ⾔語モデルの活⽤ 例︓Say-Can, Voyager, など
  12. ここまでのまとめ 基盤モデルについて 21 • 基盤モデルとは,⼤量・多様なデータで学習された,幅広いタスク に適応できるモデルのこと • 特徴1︓単⼀のモデルがさまざまなタスクを解けること • これまで︓微調整

    => 現在︓学習なしでPrompting • 特徴2︓モデルサイズが巨⼤になることで性能が改善すること • Scaling Law, Emergent Ability, Grokking • 特徴3︓上記が⾔語以外でも進展していること
  13. ⽬次 22 • 基盤モデルとはなにか • 基盤モデルの例,基盤モデルの特徴 • 基盤モデルを作る技術︓スケール則(Scale Law) •

    Emergent Ability, Grokking, Compute-Optimal Scaling • 基盤モデルを使う技術︓⽂脈内学習(In Context Learning) • 他ドメインへの適⽤・今後の展望
  14. “More is Different” in DL | Emergent Ability “Emergent Abilities

    of Large Language Models”, TMLR2022 23 モデルサイズを巨⼤にすると性能が”突如”⼤幅に上がるタスクがある
  15. “More is Different” in DL | Grokking “Grokking: Generalization Beyond

    Overfitting on Small Algorithmic Datasets” 24 “Progress measures for grokking via mechanistic interpretability”, ICLR2023 “Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets”, 2022 学習を継続すると突然検証データでの正解率が⾼まる現象 (下記はa◦b = c(例︓x+y=?)というタスクにおける性能調査)
  16. ▪補⾜ | Grokking中には何がおこっているのか︖ “Towards Understanding Grokking: An Effective Theory of

    Representation Learning”, NeurIPS2022 25 類似研究︓”Progress measures for grokking via mechanistic interpretability”, ICLR2023 A. 記憶を汎化させている(上は学習過程の可視化). 過学習中(中央)は覚えているだけだが,汎化後(右)には数字が綺麗に整列.
  17. ▪補⾜ | 本当にPhase Transitionなのか? “Are Emergent Abilities of Large Language

    Models a Mirage?”, 2023 26 • 本当に「創発」「相転移」して いるのかには反論もある – 性能の測り⽅による(左図) ※ これは本論⽂でも⾔われている – 横軸が対数なのは変では – そもそも何を持って創発︖ • 巨⼤モデル|巨⼤計算で思った よりできるようになるのは事実
  18. スケール則(Scale Law) “Scaling Laws for Neural Language Models”, 2021 28

    DLにおけるスケール則とは︖ 1. 計算資源(C) 2. データセットサイズ(D) 3. パラメータ数(N) と誤差(L)に関する次の経験則. ※ 他2つの変数が⼗分⼤きい場合. 𝐿 𝑋 = $ 𝑋! 𝑋 " log 𝐿(𝑋) = 𝛼 log 𝑋! − 𝛼 𝑙𝑜𝑔 𝑋
  19. スケール則(Scale Law) – C, D, NとLの関係 - “Scaling Laws for

    Neural Language Models”, 2021 29 • 各図のデータ点は実測値 • いずれの変数もTest Lossとの間に両対数グラフで線形の関係が⾒られる ※ C: Compute, D: Dataset Size, N: #Parameters, L: Test Loss
  20. ▪補⾜ | より初期のスケール則 (Baidu, 2017) “Deep Learning Scaling is Predictable,

    Empirically”, 2017 30 同じ点 データに関するスケール則 を検証(モデルも少し) 左はMTの例. 相違点 1. 対象モデルが異なる (Transformer以前) 2. 規模が異なる (特にモデル)
  21. 転移性能とスケールの関係 | 転移性能における元Modelの重要さ “Scaling Laws for Neural Language Models”, 2021

    31 • WebText2︓通常のテストデータ,それ以外︓学習外のデータ • WebText2以外で性能の劣化は⾒られるもの,オフセットの違い程度で 傾向は同じ(傾きもほぼ同じ)
  22. べき乗則の意義 34 “GPT-4 Technical Report”, 2023 より抜粋 X軸︓GPT4を1.0とした計算量 Y軸︓性能 Þ1/1000程度のモデルまでで性

    能を正確に予測できる. ※ GPT-4のパラメタ数は公開されていないが どんなに⼩さくても1010 (10B)より⼤. 左の図の最⼩が103だとしたら1013 (1T) “Scaling laws de-risk investments in large models” ↓ Anthoropicの“Predictability and Surprise in Large Generative Models”, 2023より抜粋 Q. あるモデルを1Tまで巨⼤化するべきか︖
  23. より精緻なモデル選択 べき乗則の意義 35 モデル構造の探索 ハイパラ探索 スケールしてもおそらく Transoformer > LSTM パラメータ⼩=>

    層が⼩さいほうが良い パラメータ⼤=> スケールすると逆転 Q. 1T ParameterでモデルAとモデルBはどちらが性能がよい︖ ↓ Anthoropicの“Predictability and Surprise in Large Generative Models”, 2023より抜粋
  24. ▪補⾜ | スケーリングに関するその他の知⾒ “Scaling Laws for Neural Language Models”, 2021

    36 パラメータ数が多いほど サンプル効率は良い あるロスを達成するのに計算 を継続するのは⾮効率
  25. モデルの⼤規模化に関する研究 38 • Gopher (DeepMind), 280B, 2021/12/8 • 下図は280B vs.

    7.1B以下のBestの⽐較) • MT-NLG (Microsoft, Nvidia), 530B • PaLM (Google) , 540B, 2022/04/04 • SwithTransformer (Google), 1.6T, 2021/1/1 • ※ MoEを利⽤しているので実効パラメータは少ない
  26. 計算量が所与のときに最適なモデルサイズ・データセットサイズは︖ “Training Compute-Optimal Large Language Models”, NeurIPS2022 39 求め⽅の例 IsoFLOP

    Curve: さまざまなモデルサイズに対して,FLOPSが⼀定にな るようにデータ数を調整し,各FLOPSでの最適パラメータ数・データ数を求める (左)各FLOPS毎の学習結果,(中)FLOPS毎の最適N,(右)FLOPS毎の最適D パラメータ数Nとデータ数Dは⼤体1対1で⼤きくすると良いという結果. ※ Compute Optimalとも呼ばれる
  27. Chinchilla︓最適計算配分に基づきNとDを決めたモデル “Training Compute-Optimal Large Language Models”, NeurIPS2022 40 データサイズD トークンを1.4Tまで増加

    (同じデータの別サブセット) ※ Gopherの約4.6倍 モデルサイズN 70Bに設定 ※ Gopherの約1/4倍 結果 多くのケースでGopherに勝利 (発⾒した関係式の妥当性を⽰唆)
  28. RefineWeb: Webのみの5T Tokenのデータセット “The RefinedWeb Dataset for Falcon LLM”, 2022

    43 Webデータのみでの5T Tokenのデータセット.600GがPublic. フィルタリングの⼯夫などにより以前より⼤規模なデータを構築.
  29. Falcon-40B︓RefineWeb等で訓練されたオープンソースモデル “The RefinedWeb Dataset for Falcon LLM”, 2022 44 Open

    LLM Leaderboardより抜粋 他データとの⽐較(論⽂より抜粋) Flacon-40Bの他モデルとの⽐較 ※ 実際にはFalcon-40BにはCodeのデータ等も混ぜている. 学習時間は384GPUで2ヶ⽉
  30. データの枯渇問題 | データはどこまで増やせるのか︖ Will we run out of data? An

    analysis of the limits of scaling datasets in Machine Learning”, 2022 45 過去のWebデータの増え⽅,学習データの増え⽅からの予測 良質な⾔語データは2024頃に枯渇することが予測されている.
  31. ▪補⾜ | 基盤モデルの性能をどう測るのか “Beyond the Imitation Game: Quantifying and extrapolating

    the capabilities of language models”, 2022 47 SuperGLUEの性能の変遷 Big Benchの評価例 • 問題1︓性能上限に達す流までの速さ | 評価の⼤規模化 (≒かかる⾦額が莫⼤に) – BigBench: 444名のコントリビューターによる204 tasksを収集し,既存モデルを⼤規模に評価 • 問題2︓性能以外の評価 (Fairness, Bias, Toxicity …) – ”Holistic Evaluation of Language Models”, 2022, arXiv) • 問題3︓Contamination問題の回避はかなり難しい(API,Web経由でデータ取得)
  32. データの質とべき乗則の関係 “Beyond neural scaling laws: beating power law scaling via

    data pruning”, NeurIPS2022 Outstanding Paper 50 良質な(難しい)データを選ぶこと で誤差を急激に⼩さくできる (α-1がRandom Pruningに対応) 最適なデータの作り⽅は 元々存在する事例の量に依存する Data pruning rateごとの損失 難しい例を残した場合の性能
  33. ここまでのまとめ – Scale Lawについて – 51 基盤モデルの特徴の1つであるスケールの拡⼤について説明 • Emergent Ability,

    Grokking︓More is Different in DL • 現象の観察研究が主流.理由や,本当に創発なのかは不透明. • 計算量,パラメタ数,データ数に関してスケール則が成⽴ • ⾔語モデルだけでない | 転移でも同様の傾向 • 効果が⾒積もりやすくなり,⼤規模モデルの開発を促進 • Commute Optimalなスケール則を求める研究もある • 例︓Chinchilla, PaLM2(データとモデルを約1:1で増やす)
  34. ⽬次 52 • 基盤モデルとはなにか • 基盤モデルの例,基盤モデルの特徴 • 基盤モデルを作る技術︓スケール則(Scale Law) •

    基盤モデルを使う技術︓⽂脈内学習(In Context Learning) • ⽂脈内学習を利⽤したZero/Few-Shot学習 (論理推論能⼒) • Instruction Tuning, RLHFなどの⽂脈内学習を強化する⽅法 • ⾔語以外での基盤モデル・今後の展望
  35. プロンプティング(Prompting)とは︖ 53 Demonstration (Few-Shot) Instruction (Zero-Shot) 加えるとある機能が強化される⽂字列 例︓tl;drをつけると要約性能が上がる [1] 例︓According

    toをつけると知識を参照してく れるようになる [2] 中間指⽰(例 必要な変数を保持してください プロンプトエンジニアリング 特定の機能の発⽣を促進 (prompt)するような⾔語モデルに⼊⼒するコンテキスト⽂ 与える事例を変えれば異なる ことができる (例︓ポジネガ判定)
  36. ⽂脈内学習(In-Context Learning)によるFew-Shot学習 “Language Models are Few-Shot Learners”, NeurIPS2020 54 特にモデルが⼤規模な場合Few-Shotのデモンストレーションの追加で

    性能が⼤幅に上がることが多い. ⽂脈から学習するため,⽂脈内学習 (In-Context Learning)と呼ぶ. Demonstration (Few-Shot) ⽂脈(Context)
  37. “Pre-train, Prompt, Predict”へのパラダイムシフト 55 タスクごとにモデルを学習 (NN以外) タスクごとにモデルを学習 (NN) モデルを共有して学習 (Fine-Tuning)

    モデルを固定して指⽰を変更 (Prompting) 従来 現代 “Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing”より抜粋 基盤モデルの特徴1
  38. GPT3の課題 | 論理推論能⼒ 57 “Chain of Thought Prompting Elicits Reasoning

    in Large Language Models”, NeurIPS2022より抜粋 Emergence!! 😩
  39. Chain-of-Though (CoT) Prompting “Chain of Thought Prompting Elicits Reasoning in

    Large Language Models”, NeurIPS2022 58 • Few-Shotの事例の際に思考過程を⼊れる(Chain of thought prompting)と, 新しい質問についても思考過程を明⽰してくれる. • 算数の⽂章題など,従来難しいとされていた推論タスクでも⼤幅に性能が向上. ※ GSM8kは9-12歳の正解率が60%.
  40. CoTの推論能⼒の改善︓Self Consistency “Self-Consistency Improves Chain of Thought Reasoning in Language

    Models”, ICLR2023 60 LMに複数の推論を⾏わせて(上は3つの例),多数決で答えを決定. ※ ⽂的にもっともらしいものが正しい推論とは限らないことを⽰唆.
  41. ▪補⾜ | Minerva (PaLM+CoT+FT+Self Consistency) “Solving Quantitative Reasoning Problems with

    Language Models”, arXiv (2022), 61 • MATH, OCW, GSM8k, MMLU-STEMでの結果. • それぞれ中⾼等数学,MITの学部レベルの問題,中学レベルの数学問題,STEM問題 • 既存SOTAを⼤きく上回る.
  42. Zero-Shot CoTの推論能⼒ ”Large Language Models are Zero-Shot Reasoners”, NeurIPS2022 63

    シングルステップの推論で解けるタスク (CoTがいらない) 常識推論(考えすぎて失敗するケースが多い) ※ 特にありえる解を複数選択してしまう 多段階推論が必要なタスク 2022年論⽂で作られたタスク (利⽤したモデルは2021までのデータで学習)
  43. Q: Is Mickey Mouse hypothetically unlikely to make a purchase

    at Zazzle? (ご参考)⻘字が⼊⼒.オレンジは意訳.⿊がGPTの出⼒.※ 論⽂外の結果. 64 A: Let’s think step by step. First, we need to consider Mickey Mouse’s budget. Based on his income as a famous cartoon character, it’s safe to say that he has a pretty large budget. (意訳︓ミッキーは有名だから莫⼤な予算を持つはず) Next, we need to think about what Mickey Mouse would want to purchase at Zazzle. We can safely assume that he would be interested in purchasing items that are related to his image, such as t- shirts, coffee mugs, and mouse pads. (意訳︓ミッキーは⾃分のイメージに合うアイテムなら興味を持つかもしれない) Finally, we need to consider the prices of the items at Zazzle. Based on the prices of similar items at other stores, it’s likely that the prices at Zazzle are within Mickey Mouse’s budget. (意訳︓Zazzleで売っているものの値段はミッキーの予算内であるはずだ) Therefore, we can conclude that it is not hypothetically unlikely for Mickey Mouse to make a purchase at Zazzle. (意訳︓ミッキーはZazzleで買い物しそうにないとは⾔えないと結論づける) ※正しい推論をするこもともある.例︓「ミッキーは架空のキャラクターなので靴は買わない」
  44. ▪補⾜ | ⼊⼒するプロンプトによる性能の変化 ”Large Language Models are Zero-Shot Reasoners”, NeurIPS2022

    65 • Instructiveなプロンプトは性能を改善 • MisleadingとIrrelevantは性能を改善しないか悪化. マニュアルで設定
  45. Zero-Shot-Cotの改善 | LLMを使った⾃動プロンプト探索 “Large Language Models Are Human-Level Prompt Engineers”,

    ICLR2023 66 ⼿法 初期候補から新しい候補を作ってもらう. 結果 マニュアル︓“Letʼs think step by step” vs. ⽣成︓“Letʼs work this out in a step by step way to be sure we have the right answer.” MultiArith: 78.7 -> 82.0 MSM8K: 40.7 -> 43.0
  46. LLMの推論能⼒を⾼める研究︓Tree of Thoughts “Tree of Thoughts: Deliberate Problem Solving with

    Large Language Models”, 2023 68 • Game of 24での例と結果 – 与えられた4つの数字を変換して24を作る • 複数の思考列を出⼒して評価するSCとは違い, ToTは途中で分岐させる(⽊探索する) – ノードの評価もLMで⾏う • 戦略的思考が必要なタスクで性能が⼤幅改善
  47. ▪ 補⾜ | コードでの学習と論理推論能⼒ “A Survey of Large Language Models”,

    2023 70 ▪ 主要なモデルの学習データの構成 • 最近のモデルは多くのケースでコードでの学習を⾏っている.GPT-3はなし. • Codeで学習したモデル(例︓code-davinci-002)はGPT-3より推論性能が良い. • Chat-GPTもcode-davinci-002をベースに学習されているとされる.
  48. ここまでのまとめ – ⽂脈内学習 /Prompting – 71 • 基盤モデルの特徴の1つである広い適応能⼒について説明 • 与えられた⽂脈から効率的に学習(⽂脈内学習)することで

    Zero/Few-Shotで新しいタスクを解ける • CoT Promptingなどにより,LLMの推論能⼒が⼤幅に向上 • 従来苦⼿だった推論タスクの性能が⼤幅に向上(2022~) • プロンプトの⼊れ⽅や使い⽅による性能改善 • Self-Consistency, Tree-of-Thoughts, Plan-and-Solve
  49. ⽬次 72 • 基盤モデルとはなにか • 基盤モデルの例,基盤モデルの特徴 • 基盤モデルを作る技術︓スケール則(Scale Law) •

    基盤モデルを使う技術︓⽂脈内学習(In Context Learning) • ⽂脈内学習を利⽤したZero/Few-Shot学習 (論理推論能⼒) • Instruction Tuning, RLHFなどの⽂脈内学習を強化する⽅法 • ⾔語以外での基盤モデル・今後の展望
  50. ⽂脈内学習に重要なのはモデルサイズだけか︖ ”Large Language Models are Zero-Shot Reasoners”, NeurIPS2022 73 •

    GPT3もInstruct GPT3もモデルが⼤きい際に最も効果が⼤きい点では共通 – ※ モデルサイズは正確には公開されていないので推測.名称から⼤きくは変わらないと推察. • ただし,上がり幅は⼤きく異なる. – Original GPT3 (davinci) 3.3% -> 44.3% – Instruct GPT3 (text-davinci-002) 17.7% -> 93.0% • InstructGPTで使われている,(1) Instruction Tuning,(2) RLHFが重要
  51. Chain-of-Though Hub: 推論能⼒の継続的ベンチマーク “Chain-of-Thought Hub: A Continuous Effort to Measure

    Large Language Models' Reasoning Performance”, 2023 74 Github : https://github.com/FranxYao/chain-of-thought-hub (1) 同じ学習であればモデルサイズが⼤きい⽅が性能が良い傾向 (2) Instruction Tuning,RLHFがあるモデルの性能が良い傾向 ※ GSM8kやMMLU等の有名データは学習に⼊っている可能性があることに注意
  52. Instruction Tuning (Supervised Fine Tuning) “Finetuned Language Models Are Zero-Shot

    Learners”, ICLR2022 75 ⽅法(上図) 与えられたインストラクションに 従うするようにFine-Tuneする 結果(下図) ゼロショット性能が⼤幅に改善 (GPT3 Few-Shotより良い) 類似研究 多数.Instruct GPT, Alpaca,FLAN-T5, LIMAな どの多くのモデルで使われている
  53. In Context Tuning “Meta-learning via Language Model In Context Tuning”,

    ACL2022 76 ⽅法 事前学習モデルを⽂脈内学習 するようにFine-Tuneする 結果 ⽂脈内学習の性能が改善 類似研究 “MetaICL: Learning to Learn In Context”
  54. ▪補⾜ | FLAN-T5, FLAN-PaLM “Scaling Instruction-Finetuned Language Models”, 77 •

    学習させるタスクを1800まで増加.CoTデータでも学習. • Instruction Tuning/In Context Tuning. • タスクを増やすごとにゼロショット性能が改善
  55. Instruction Tuning データの作り⽅ 78 1 既存データを集める 2 強いモデルから⽣成 “Self-Instruct: Aligning

    LM with Self Generated Instructions”, ACL2023 “Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks”, EMNLP2022 例︓Stanford Alpaca - 少数のタスクデモを与えて,LLMを使って拡張 “Alpaca: A Strong, Replicable Instruction-Following Model”, 2023
  56. ▪補⾜ | Open Source ModelとInstruction Tuning “The False Promise of

    Imitating Proprietary LLMs”, 2023 80 モデル例︓Alpaca データを増やした際の性能 1. ChatGPTよりInstruction データを拡張 (175 -> 52k) 2. LLaMA 7Bを上記データで訓練 LIMAなど • データ増=>性能が上がらない (むしろ下がることも) • モデル増 => 性能改善 ※反証もある(Orca-13B) “Smaller LLMs Can Imitate Reasoning of Larger LLMs”, 2023
  57. ▪補⾜ | PEFT: Parameter Efficient Fine Tuning Fine-Tuningに関するその他の話題 81 モチベーション

    • タスクごとにモデルをすべて更新するとモデルの Footprintが膨⼤に(左) • すべてを更新せずに良い性能を達成できないか︖ => PEFT 代表的な⼿法(いずれも本体を固定し⼀部を学習) • Adapter︓ FF層の後に層を追加. • LoRA︓低ランクに分解した別のパスを追加. • Prompt Tuning︓⼊⼒に学習可能トークンを追加 (P-Tuning, Prompt Tuningも類似) ※ これらの⼿法を扱うライブラリも存在する. 参考︓EMNLP2022 Tutorial 合計パラメータ︓ (タスク数+1)×N 😂
  58. Reinforcement Learning from Human Feedback (RLFH) “Training language models to

    follow instructions with human feedback”, 2022 87 (1) Train Reward Model (2) Fine-Tune with RL • Instruct GPT, ChatGPTなどで利⽤されている. • LLMで同じ問題に対して複数の答えを出⼒させ,⼈間がPreferenceをつける. • Preferenceを予測するように報酬モデルを学習し,強化学習する(PPO). ※ KL正則化
  59. Why RLHF? “Training language models to follow instructions with human

    feedback”, 2022 88 Vanilla vs. SFT vs. PPO (RLHF) 1. 難易度︓⽣成 << ランク付け (正解を与えるよりランキングが簡単) 2. Negativeからも学習できる (学習信号が多い) 3. 報酬予測をしたい訳ではない (報酬予測で⾔語モデルを学習したくない) 結論︓不明(諸説あり) RLHFをすると性能が上がる (指⽰に従う,制約を遵守するなど)
  60. RLFHに関する議論 89 Q. Pre-trainの学習を忘却しないのか︖ A. する.のでKL正則化や,Replayがしばしば利⽤される(必ずではない). ※ OpenAIのブログではKL正則だけでは限界がありReplayを使うことが推奨されている. ※ ただし,⼤規模モデルはそもそも忘却しにくいという研究もある.

    “Effect of scale on catastrophic forgetting in neural networks”, ICLR2022 => ViT, ResNetどちらも巨⼤なときに忘却が著しく起こりにくくなっている Q. Reward Modelの訓練は必須か︖ A. 必須ではない.Direct Preference Optimization※など ※ “Direct Preference Optimization: Your Language Model is Secretly a Reward Model”, 2023 (ざっくりいうとPreferenceが⾼い⽂が⾼い尤度で,低い⽂が低い尤度で⽣成されるように学習)
  61. ⽂脈内学習における謎︓何をどう学習しているのか︖ “Why Can GPT Learn In-Context? Language Models Implicitly Perform

    Gradient Descent as Meta-Optimizers”, ACL2023 94 Fine-Tuning(左図上側) データとパラメータを元に勾配を計算 することでモデルを動かす In-Context Learning(左図下側) Demonstrationを⼊れなかったときとの 差分をメタ勾配と⾒做せる (メタ勾配を使って暗黙的にFT) ※ ICLは⼩データではFTより性能が良い ことが多い 上記論⽂のA. メタ勾配を計算して暗黙的にパラメータを更新しているのでは︖
  62. ▪補⾜ | ⽂脈内学習のようなやり⽅⾃体は昔からある “Optimization as a Model for Few-Shot Learning”,

    ICLR2017 95 違い1 構造がRNNからTransformerに ※ ⻑期系列を⾒れる分 バッチ学習に近い︖ 違い2 元のモデルの性能が桁違い
  63. ⽂脈内学習における謎︓何をどう学習しているのか︖ “Rethinking the Role of Demonstrations: What Makes In-Context Learning

    Work?” 96 実験⽅法 ラベルをランダムに変更 結果 ラベルをランダムにしてもICLの 性能劣化は微⼩ 考察 ⼊出⼒関係以外の要素を学 習しているのでは︖ (フォーマット,⼊⼒分布, ラベル空間,etc. )
  64. ⽂脈内学習における謎︓何をどう学習しているのか︖ “Impact of Pretraining Term Frequencies on Few-Shot Reasoning ”

    97 実験⽅法 事前学習データでの単語の 頻度と正解率の相関を検証 結果 出現頻度と正解率には強い 相関が⾒られる 考察 新しい知識を学んでいるのかは 疑問がある結果 Additionの例だが 他でも同様の傾向
  65. ⽂脈内学習における謎︓何をどう学習しているのか︖ “Larger language models do in-context learning differently”, 2023 98

    実験⽅法 (1)ラベルをFlip (2)ラベルを意味がない単語に ※ 先ほどはランダムなのでやや異なる 結果 ⼤規模モデルのみ与えられた元の ⼊出⼒関係の予測が⼤きく劣化 考察 ⼤規模モデルは⼊出⼒関係も学 習している傍証 (異なる形でICLを実装︖)
  66. ⼊出⼒関係を⽂脈内学習させる⽅法 | Symbol Tuning “Symbol Tuning Improves In-Context Learning in

    Language Models” 99 ⽅法 ラベルを適当に置換(Foo, Bar, etc. )して学習 -> ⼊出⼒関係の学習を強制 結果 Few-Shot性能が改善 (⼊出⼒関係をちゃんと学べる)
  67. ここまでのまとめ - ⽂脈内学習 - 100 • 成功しているLLMの多くはInstruction Tuningを採⽤ • 指⽰に明⽰的に従うようにすることでZero/Few-Shotが⼤幅改善

    • 成功しているオープンソースLLMの多くも採⽤ • 効率的にモデルを微調整するPEFTについても研究が進展 • Instruct GPT以降では⼈間のPreferenceに基づき学習 (RLHF) • ⼈間のPreferenceを反映した出⼒をするようにチューニング • 「なぜ」「どのように」「何を」学習しているのかは研究段階 • RLFHの必要性,メタ勾配仮説,⼊出⼒を学んでいるのか︖など
  68. 基盤モデルの特徴は︖ 101 “On the Opportunities and Risks of Foundation Models”より抜粋

    1. ⾮常に幅広いタスク を(追加学習なしに) 単⼀のモデルで解ける 2. モデル・計算量・ データのスケーリング により実現されること 3. ⾔語に限らない (のではという期待
  69. (再掲)対象は⾔語に限らない(のではという期待) 基盤モデルの特徴3 102 ⼤規模モデル(Transformer) 例︓Gato, RT-1, X-Former 例︓Dreamer v3 +

    ⼤規模なデータ 例: SAMでの1Bのマスクデータ 例︓Gato, RT-1 + ⼤規模計算 例︓スケール則は別ドメインでも成⽴ 1. ⽅法論の共通化 (別ドメインでの基盤モデル構築) 2. ドメインを超えたモデル共有 ⾔語モデルの活⽤ 例︓Say-Can, Voyager, など マルチモーダル化 ”One model to Learn Them All”, 2017 的な世界観(右下の図) 例︓ GPT4
  70. ▪LLMの活⽤ | Say-Can and Say-Can-PaLM “Do As I Can, Not

    As I Say: Grounding Language in Robotic Affordances”, 2022 104 • ⾔語モデルが出⼒したスキルの実⾏可能性(Skill Affordance)を考慮して選択 – 実⾏可能性はTDで学習 • ⾔語モデルをよくする(PaLMを使う)と性能が改善する ※ 実⾏可能なスキル(低レベル⽅策)はあらかじめ⽤意されている点に注意
  71. ▪LLMの活⽤ | Code as Policy “Code as Policies: Language Model

    Programs for Embodied Control”, 2022 105 • ⾔語モデルにコードとして ⽅策を出⼒させる • “Stack the blocks on the empty bowl.” • 不明な関数を呼び出した 場合は関数を再起的に作る ※実⾏可能なスキルはあらかじ め⽤意されている点に注意 (Perception APIs, Control APIs)
  72. ▪補⾜ | LLMによるツールの活⽤/ツール構築に関する研究 106 “Gorilla: Large Language Model Connected with

    Massive APIs”, 2023 APIを必要に応じて呼び出すようにLLMを訓練 Web APIだけでなく他のモデルを呼び出すこともできる “Large Language Models as Tool Makers”, 2023 「XXXをするようなPython Genericなコードを作って」 ⼀度作ったツールはAPI同様再利⽤できる(効率良い推論) ツール (API)の使⽤ ツール (API)の構築
  73. ▪事例 | ⼤規模データセットの構築,⼤規模モデルの検証 別ドメインでの基盤モデル 108 • EDR13台,17ヶ⽉,744タスク,13万デモ • 訓練︓97%で動作,汎化︓⼤幅向上 •

    Long Horizonなタスクも可 ▪ ⼤規模データ×ロボティクス ▪ ⼤規模モデル×世界モデル • Dreamer v3, 2023,200M規模での学習 • データ効率が良くなる他これまで解けなかっ たタスク(Minecraft)も成功
  74. ▪事例 | X-Transformer 別ドメインでの基盤モデル from “Transformers” - Lucas Beyers 110

    ▪ Transformer×世界モデル • Transformers are Sample-Efficient World Models”, ICLR2023 • “Transformer-based World Models Are Happy With 100k Interactions”, ICLR2023
  75. ▪難しさ1 | Tokenizatonの⽅法 別ドメインでの基盤モデル 111 ▪ 画像の場合 ▪ 時系列(動画)の場合 •

    ⼊⼒をパッチ化して,各パッチを 埋め込みに変換 • 原理的にサイズが⼤きくなると⾟い • ⼀度VQ-VAEでトークンに離散変換 • よいVQ-VAE⾃体はどう作るのか︖ ⾔語と⽐べても系列⻑が膨⼤になりがちで切れ⽬も不透明. 無理⽮理塊を作って扱っているため,誤差が蓄積しうる.
  76. ▪難しさ2 | 原理的に蓄積が必要なデータの取得 | 学習⽅法 RT-1: Robotics Transformer for Real-World

    Control at Scale 113 • ⾔語では学習⽤データは(枯渇しそうとはいえ)Webに蓄積されている • +⼈間と⼊⼒出⼒が同じ | 多種多様なタスクを記述可能(Universal API) • ロボットの場合,取れるデータはロボットを動かせるデータに限定される • できるようになることが増えないとデータが取れずできるようにならない • (そういう意味で,⾔語創発に近いようにも思う • 他の例︓科学的発⾒はLLMでできるのか︖ RT-1で利⽤されているスキル
  77. 本講演のまとめ 115 基盤モデルに関する技術動向について基礎的な内容・研究動向・今後の展望に ついて紹介しました. 1. 基盤モデルとは何か • 1) ⾼い適応能⼒ (Few-Shot),

    2) スケール則, 3) 他ドメインへの転⽤ 3. LLMの⾼い適応能⼒は⽂脈内学習 (In-Context Learning)により実現 • Chain-of-Though Promptingにより論理推論能⼒も⼤幅に改善 • Pretrainに加えて,Instruction Tuning, RLHFなどが⾏われている. 4. 他ドメインへのLLM⾃体 / LLM成功のレシピの転⽤する研究も注⽬されている • Primitiveの獲得 /Tokenization /データの逐次的獲得と学習などの課題 2. スケール則により,⼤規模なモデルへの投資が”de-risk”された. • ⼤規模なモデル(PaLM),計算量最適なモデル設計(Chinchilla,PaLM2) • データの枯渇問題とその対処に関する準備.
  78. 宣伝 116 ⽇本ロボット学会(RSJ)学術講演会 • 2023/9/11-14 @仙台 • OS4: 基盤モデルの実ロボット応⽤ –

    「…本セッションでは,⼤規模⾔語モデル, ⼤規模視覚-⾔語モデルに代表される事前 学習済みの基盤モデルを活⽤し,知能的に振る舞うロボットについて議論する.」 • 登録〆切︓6/14(来週) ,予稿〆切︓7/12 英⽂誌Advanced Roboticsの特集号 • ⽇本ロボット学会の英⽂誌 • Google・Metaなど海外で基盤モデルのロボット応⽤を研究する 第⼀⼈者たちも本特集号のエディタ陣を務める • サーベイ論⽂も歓迎 • 原稿〆切︓2024/1/31 ※ 採録が決定次第,順次web上で公開予定 論⽂投稿・参加をぜひご検討ください︕︕
  79. Foundation Modelに関する講義など 121 [1] “On the Opportunities and Risks of

    Foundation Models”, 2021 [2] “A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT”, 2023 [3] CS 324 - Advances in Foundation Models
  80. (1)Bias, Misinformation, and Alignment 課題(話題提供) 125 • 誤った知識を拡散するリスクがあるとして (Twitterでの攻撃により)は数⽇で閉鎖 •

    この問題は継承される • 知識を修正する研究※1、複数のモデルを組み 合わせる研究(Socratic Model※2など) ※1 ”Editing Factual Knowledge in Language Models”, EMNLP 2021 など ※2 ”Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language”, 2022 など ※ 図はGalacticaの⽣成結果の冒頭の抜粋