Language Models • Diffusion Models • Large Language • Text to • Diffusion Model • Dataset for • to Image • Language Model • Benchmark for • Time Series 著者独⾃作成 • Reinforcement Learning • Neural Networks • Learning with • Learning in • Knowledge Distillation • for Neural • Learning of • Few Shot • Near Optimal • Learning to 2022年から⽐べて特に増えた単語 2022年から⽐べて特に減った単語
Fine Tuning) 近年流⾏の代表的な⼿法 (論⽂1)”QLoRA: Efficient Finetuning of Quantized LLMs”,NeurIPS2023 (論⽂2)”Fine-Tuning Language Models with Just Forward Passes”,NeurIPS2023 NeurIPS 2023では、LoRAに量⼦化を組み合わせてさらに軽量化するQLoRAや、 順伝播だけで勾配計算を⾏いメモリ負荷を低減したMeZOなどが提案されていた Full Fine Tuningの問題点 学習データが少ない場合にオーバ ーフィットしやすい 1 2 3 全パラメータの更新には膨⼤な 計算コストが掛かる 壊滅的忘却が発⽣するリスク LoRA : 低ランクに分解した別のパス を追加
Preference Optimization: Your Language Model is Secretly a Reward Model(Outstanding Paper) • RLHFよりも安定していて簡素なファインチューニング⽅法DPOを提案 • 教師あり学習の要領で、Preferenceの⾼い回答が出やすくなるように学習 ◦ 選好度合いが⾼い⽂章→⾼尤度、低い⽂章→低尤度 ◦ 凍結した別のLMと⽐較しながら学習 • 同じデータで学習した時、DPOはRLHFを上回る性能 嗜好データセットの準備
⽬的タスクに応じてデータセットの重要度 を計算するestimator → 今回は単語の出現頻度を考慮 複数ドメインデータの混ぜ⽅ 計算予算に制限がある場合、複数ドメインをど う混ぜれば、精度⾼く・⾼速な収束が可能か︖ → 280Mモデルでドメインの割合を最適化し てから8Bモデルを学習 論⽂1. Data Selection for Language Models Via Importance Resampling[NeurIPS 2023] 論⽂2. DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining[NeurIPS 2023]
Data-Constrained Language Models(Runner-up Awards) • 学習データ量に制限がある場合、学習時のエポック数がモデルのスケーリング則にどう影 響するのかを調べた • 現状LLMの学習では1エポック分回すのが⼀般的*だが、同じデータ量でもエポックを増や すことでまだ学習させる余地があると主張 ◦ 4エポックくらいまではデータを加えるのと同じくらい効果がある. *Aran Komatsuzaki. 2019. One epoch is all you need. arXiv.
The Many Faces of Responsible AI • AI分野では「正解・不正解」を正答率で測るといった簡素化された評価がよく⾏われる • しかし現実問題アノテーションは⼈間でも評価が割れる • AIの安全性を議論する上では、これら評価の割れに関するデータが重要 • より多くのこのような例を収集し、それを使ってモデルや評価指標を改善する必要があ ると主張(関連したデータセット、DICES*を提案) * https://github.com/google-research-datasets/dices-dataset
The Many Faces of Responsible AI https://diamond-tilapia-430.notion.site/Lora-Aroyo-The-Many-Faces-of-Responsible-AI-adf8f54bc5e842d98d85e2d4bd18333e 講演著者お気に⼊りのパート
search of the next generation of multimodal datasets(Workshop Competiton) A. リソースに応じて、⼩・中・⼤・特⼤のスケールから選択します。各スケールは異なるデ ータプールとモデルのサイズを持ちます。 B. フィルタリング(提供されたプールのデータのみ)かBYOD(任意のデータソース)のト ラックから、データを選んで候補データセットを作成します。 C. 選んだデータセットでCLIPモデルをトレーニングします。スケールごとにCLIPのサイズ と設定は固定されています。 D. 38の多様なタスクでモデルを評価し、トレーニングデータセットの効果を測定します。
An Inverse Scaling Law for CLIP Training • 従来の認識︓画像/テキストエンコーダのモデルサイズが⼤きいほど、学習に必要な画像/ テキストのトークン⻑も⻑くなり、計算コストが増加すると思われていた • 「Inverse Scaling Law」の発⾒︓モデルサイズが⼤きくなると、学習に適⽤できる画像/ テキストトークンのシーケンスの⻑さを逆に短くできるということが分かった • 期待される影響︓CLIPのトレーニングが計算リソースが限られた環境でも可能となりフィ ールドに新たな進歩をもたらす可能性がある 画像token数を減らした事例 ⽂字token数を減らした事例
Thoughts: Deliberate Problem Solving with Large Language Models • 新しいプロンプト⼿法「Tree of Thoughts」を提案 ◦ 中間の思考を⾃⼰評価してプロセスを先読みしたり後戻りしたりすることで、⼈ 間がタスクを実⾏するような⼿順でChatGPTに指⽰できるよう⼯夫 • 計画・探索を要するタスクにおいてToTは⾼い性能を⽰した ◦ 24ゲーム(4つの数字の四則計算で24を作るゲーム)では、CoTを⽤いたGPT-4の 正解率が4%だったのに対し、ToTでは74%の成功率を達成
Thoughts: Deliberate Problem Solving with Large Language Models 24ゲームの場合のToTの⼿順 • ステップ1︓3つの思考ステップに分ける • ステップ2︓次の思考の候補(どの数字を選んでどういう計算をするか)を5個出す • ステップ3︓残った数字から24に到達できそうかを評価する • ステップ4︓探索アルゴリズムを決める→幅優先探索(BFS) 24ゲームにおけるToT
突然性能が開花する︖ → Are Emergent Abilities of Large Language Models a Mirage? ? 経験則で得られた現象に対しての理論的な考察も進んでいる ? ? ? CoTは何故うまくいく︖ 深層強化学習って結局いつうまくいくの︖ Double Descentって結局どうなった︖ → Why think step by step? Reasoning emerges from the locality of experience →A U-turn on Double Descent: Rethinking Parameter Counting in Statistical Learning →Bridging RL Theory and Practice with the Effective Horizon,
Emergent Abilities of Large Language Models a Mirage?(Outstanding Papers Awards) • ⼤規模⾔語モデルのパラメータ数を増加させていくと、突然新しい能⼒が開花するこ とが経験上知られている →しかしそれは評価指標の問題で、実際は突然能⼒が向上するわけではなかった
Emergent Abilities of Large Language Models a Mirage?(Outstanding Papers Awards) • ⾮線形・不連続の評価指標を⽤いるとemergent abilityが発⽣する(⾚枠)が、線形・連 続値をとる評価指標を⽤いるとemergent abilityは発⽣しない(⻘枠) • ⾮線形指標でほぼ性能が0に⾒えるものでも、テストデータのサイズを⼤きくして解 像度を⾼めることで滑らかな性能向上曲線を描ける(右図)