日本ディープラーニング協会主催 NeurIPS 2023 技術報告会講演資料

1 Confidential © TDAI Lab All right reserved. NeurIPS 2023
技術報告会⽇本ディープラーニング協会主催 2024年2⽉1⽇株式会社TDAI Lab GPT-4登場以降のトップ国際会議から捉える7つのAI研究トレンド

2 Confidential © TDAI Lab All right reserved. ⾃⼰紹介経歴
2016年株式会社TDAI Lab創業 (代表取締役社⻑) 2018年東京⼤学⼤学院⼯学系研究科修⼠課程修了(@⿃海研) 2021年東京⼤学⼤学院⼯学系研究科博⼠課程修了(@⿃海研) 興味領域計算社会科学・評価(公平性・バイアス)・要約・推薦特技︓競技ダンス 2014年東京⼤学総⻑賞受賞 2015年全⽇本学⽣競技ダンス選⼿権優勝 2020年芸能⼈格付けチェック出演 2022年全⽇本ランキング6位 2016~2024年全⽇本代表選⼿著書「世界⼀カンタンで実戦的な⽂系のための⼈⼯知能の教科書」福⾺智⽣ Tomoki Fukuma @fukuma_tomoki

3 Confidential © TDAI Lab All right reserved. ⾃⼰紹介野⽥
昂希 Koki Noda 経歴 2020年株式会社TDAI Labインターン⼊社 2021年東京⼤学農学部卒業 2021年株式会社TDAI Lab 取締役就任 2022年株式会社TDAI Lab CTO就任技術領域機械学習, Cloud, Web, 分散処理特技︓競技ダンス 2019年レギュラー戦全６試合団体優勝研究 Beyond Real-world Benchmark Datasets: An Empirical Study of Node Classification with GNNs. (NeurIPS 2022 D&B)

4 Confidential © TDAI Lab All right reserved. 本資料の⽬的・留意事項【想定聴講者
】 1. 近年のAI研究トレンドのざっくりした傾向を掴みたい⽅ 2. 機械学習・深層学習にある程度の予備知識がある⽅ 3. 当カンファレンスについての⼀参加者の⾒解を、興味を持って聴講くださる⽅【留意事項】本発表資料はできる限り誤解のないように努めておりますが、著者⾃⾝の仮説や想定の誤りにより、内容の⼀部に正確でない表現を含むことがあるかもしれない点、ご容赦ください。

5 Confidential © TDAI Lab All right reserved. NeurIPS統計情報 •
1987年から37回⽬の開催 • 12/10~12/16 (本会議) • 12345 submissions • 3218 accepted (26.07 acceptance) https://papercopilot.com/statistics/neurips-statistics/

6 Confidential © TDAI Lab All right reserved. NeurIPS統計情報 •
Language Models • Diffusion Models • Large Language • Text to • Diffusion Model • Dataset for • to Image • Language Model • Benchmark for • Time Series 著者独⾃作成 • Reinforcement Learning • Neural Networks • Learning with • Learning in • Knowledge Distillation • for Neural • Learning of • Few Shot • Near Optimal • Learning to 2022年から⽐べて特に増えた単語 2022年から⽐べて特に減った単語

7 Confidential © TDAI Lab All right reserved. 本⽇の発表の流れ •
トレンド1: LLMをより⼈が好む回答へ • トレンド2: データの重要性について • トレンド3: モデルの社会的適合性を多⾯的評価 • トレンド4: マルチモーダルモデルも同様 • トレンド5: 汎⽤的AIに向けて推論⼒を⾼めよう • トレンド6: 多分野への応⽤ • トレンド7: 未解決現象の理論的解明

8 Confidential © TDAI Lab All right reserved. 背景知識︓基盤モデル •
基盤モデル（Foundation Model）とは、⼤量のデータを⽤いて(⼀般的に⾃⼰教師あり的に)学習することで、下流の広範なタスクに対し⾼い汎化性能を獲得したモデル https://arxiv.org/abs/2108.07258 2021年にBommasaniらのスタンフォード⼤学のグループによって, 基盤モデル(Foundation Model)と命名基盤モデルはそのまま使われることは少なく、⼿元のタスクに応じて微調整して⽤いられる。

9 Confidential © TDAI Lab All right reserved. 背景知識︓RLHF (Reinforcement
Learning from Human Feedback) ２ステップの微調整によって、⼈が好む出⼒をするようにLLMを調整 • Step1. ◦ ⼊⼒プロンプトに対する複数の回答を⽤意し、⼈がランク付けしたデータを作成 ◦ “⼈間にとっての好ましさ”をスカラーで出⼒するようなReward Model(RM)を得る • Step2. ◦ RMを報酬関数として使い、強化学習で微調整 ChatGPTもRLHFを⽤いて微調整されたモデル

10 Confidential © TDAI Lab All right reserved. トレンド1まとめ. LLMをより⼈が好む回答へ
? もっと簡単に再学習ができない︖ RLHFよりももっと良い⽅法は︖ →(論⽂1) ⼀部の重み+量⼦化でより軽量に →(論⽂2) 順伝播で勾配計算 → (論⽂3) 最尤推定の⽅が安定・⾼性能 → (論⽂4) FBデータは少なくても良い ? どうやって、より早く・安く・安定してLLMを再学習をさせられるようにするか

11 Confidential © TDAI Lab All right reserved. もっと簡単に再学習ができない︖ PEFT(Parameter-Efficient
Fine Tuning) 近年流⾏の代表的な⼿法 (論⽂1)”QLoRA: Efficient Finetuning of Quantized LLMs”,NeurIPS2023 (論⽂2)”Fine-Tuning Language Models with Just Forward Passes”,NeurIPS2023 NeurIPS 2023では、LoRAに量⼦化を組み合わせてさらに軽量化するQLoRAや、順伝播だけで勾配計算を⾏いメモリ負荷を低減したMeZOなどが提案されていた Full Fine Tuningの問題点学習データが少ない場合にオーバーフィットしやすい１ 2 3 全パラメータの更新には膨⼤な計算コストが掛かる壊滅的忘却が発⽣するリスク LoRA : 低ランクに分解した別のパスを追加

12 Confidential © TDAI Lab All right reserved. 論⽂紹介(3/4)︓ Direct
Preference Optimization: Your Language Model is Secretly a Reward Model(Outstanding Paper) • RLHFよりも安定していて簡素なファインチューニング⽅法DPOを提案 • 教師あり学習の要領で、Preferenceの⾼い回答が出やすくなるように学習 ◦ 選好度合いが⾼い⽂章→⾼尤度、低い⽂章→低尤度 ◦ 凍結した別のLMと⽐較しながら学習 • 同じデータで学習した時、DPOはRLHFを上回る性能嗜好データセットの準備

13 Confidential © TDAI Lab All right reserved. (参考) 最新のアラインメント学習⽅法の変遷︓RLHF→DPO→KTO
• DPOはRLHFの学習プロセスを簡単にした • Kahneman-Tversky Optimization(KTO)︓RLHF、DPOの学習データの作成コストを削減 ◦ 選好データ→２値評価データ(GOOD or BAD) • 今後OpenAIといったプラットフォーマーがデータ収集の観点で優位に︖ https://contextual.ai/better-cheaper-faster-llm-alignment-with-kto/

14 Confidential © TDAI Lab All right reserved. 論⽂紹介(4/4)︓Less Is
More for Alignment • 表⾯的アライメント仮説 ◦ モデル知識は事前学習時に概ね学習している ◦ あとはどの部分の知識を使うかや、フォーマットだけ微調整すれば良い少数のデータでも⼗分微調整できるのでは︖ (ついでに破壊的忘却も減らせるかもしれない) • LIMAでは少量の⾼品質な1000件のデータを準備 ◦ 750件をQAフォーラムから ▪ ✅ ⼿動で⾼品質かつ多様なものを選択 ◦ 250件は⼿書きで作成 • LLaMa-65Bを教師あり学習の要領で微調整

15 Confidential © TDAI Lab All right reserved. 論⽂紹介(4/4)︓Less Is
More for Alignment ←Alpaca: LLaMaを⼤量のInstruction Datasetで微調整に勝利 ←DaVinci003︓RLHFで学習したモデルに勝利 ←BARDやClaude、GPT-4に匹敵する性能 1000件＋教師あり学習で、⼤量データ＋RLHFに匹敵データを1000件以上に増やしても性能の変化は少ない

? もっと簡単に再学習ができない︖ RLHFよりももっと良い⽅法は︖ →(論⽂1) ⼀部の重み+量⼦化でより軽量に →(論⽂2) 順伝播で勾配計算 → (論⽂3) 最尤推定の⽅が安定・⾼性能 → (論⽂4) FBデータは少なくても良い ? どうやって、より早く・安く・安定してLLMを再学習をさせられるようにするか

18 Confidential © TDAI Lab All right reserved. 背景知識. Data
Centric AI • アルゴリズムを改善するだけではより優れたモデルを作ることができない問題 • NeurIPS 2021以降、Datasets and Benchmarksという新しいトラックが常設 • Andrew Ng⽒が提案したData Centric AIのコンテストが象徴的 ◦ モデルではなくデータをチューニングすることで精度を競う https://www.deeplearning.ai/wp-content/uploads/2021/06/MLOps- From-Model-centric-to-Data-centric-AI.pdf

? もっと簡単に再学習ができない︖ RLHFよりももっと良い⽅法は︖ →(論⽂1) ⼀部の重み+量⼦化でより軽量に →(論⽂2) 順伝播で勾配計算 ? どうやって、より早く・安く・安定してLLMを再学習をさせられるようにするか RLHFよりももっと良い⽅法は︖ ? トレンド1の後半も学習データの⼯夫による性能向上とみても良いかも︖ → (論⽂3) 最尤推定の⽅が安定・⾼性能 → (論⽂4) FBデータは少なくても良い

20 Confidential © TDAI Lab All right reserved. トレンド2まとめ. データの重要性について
? 将来LLMの学習データが枯渇するけ⼤丈夫︖ 良いデータセットをどう作る︖ → (論⽂5) 同データは4回まで使い回しOK → (論⽂1) データセットの良い枝刈り → (論⽂2) 複数ドメインデータの混ぜ⽅ ? ⽣成データでAIは学習できる︖ → (論⽂3,4) 拡散モデルでデータ拡張 ? モデル構造の改善よりもデータセットの作り⽅をどう改善するかにシフト

21 Confidential © TDAI Lab All right reserved. 良いデータセットをどう作る︖ データセットの良い枝刈り事例
⽬的タスクに応じてデータセットの重要度を計算するestimator → 今回は単語の出現頻度を考慮複数ドメインデータの混ぜ⽅計算予算に制限がある場合、複数ドメインをどう混ぜれば、精度⾼く・⾼速な収束が可能か︖ → 280Mモデルでドメインの割合を最適化してから8Bモデルを学習論⽂1. Data Selection for Language Models Via Importance Resampling[NeurIPS 2023] 論⽂2. DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining[NeurIPS 2023]

22 Confidential © TDAI Lab All right reserved. ⽣成データでAIは学習できる︖ Data
Augmentationに応⽤した事例元画像のコンテキストを保ったまま類似画像を⽣成するフレームワークを提案し、 Few-shotなどで効果を実証画像認識への応⽤事例道路認識のデータセット作成に応⽤した事例 (NeurIPS 2023 workshop SynheticData4ML) 論⽂4.Synthetic Data Generation for Scarce Road Scene Detection Scenarios [Workshop: NeurIPS 2023 Synthetic Data Generation with Generative AI] 論⽂3.Effective Data Augmentation With Diffusion Models [Workshop: NeurIPS 2023 Workshop on Diffusion Models]

23 Confidential © TDAI Lab All right reserved. 背景知識. 学習データ量の限界
• 基盤モデルの学習データの量は有限であり、将来的に枯渇する • トレンドラインから考えると、以下の年には使い尽くしてしまうと予測されている ◦ ⾔語データ(低品質)︓2032.4年 ◦ ⾔語データ(⾼品質)︓2024.5年 ◦ 画像データ︓2046年⾔語データ(低品質) ⾔語データ(⾼品質) 画像データ

24 Confidential © TDAI Lab All right reserved. 背景知識︓基盤モデルにおけるScaling Law
• 基盤モデルに⽤いられるTransformerの性能は「計算リソース」「データセットサイズ」「パラメータ数」に依存する(Scaling Law) • Chinchilla[NeurIPS 2022]では特定の計算資源（FLOPs）が与えられた時の最適なモデルのパラメータ数と学習データ数を割り出し、さらにはその性能（クロスエントロピー）が推定できると主張出典︓Scaling Laws for Neural Language Models 出典︓Training Compute-Optimal Large Language Models ⽌まらないモデルの巨⼤化

25 Confidential © TDAI Lab All right reserved. 論⽂紹介(5/5)︓ Scaling
Data-Constrained Language Models(Runner-up Awards) • 学習データ量に制限がある場合、学習時のエポック数がモデルのスケーリング則にどう影響するのかを調べた • 現状LLMの学習では1エポック分回すのが⼀般的*だが、同じデータ量でもエポックを増やすことでまだ学習させる余地があると主張 ◦ 4エポックくらいまではデータを加えるのと同じくらい効果がある． *Aran Komatsuzaki. 2019. One epoch is all you need. arXiv.

26 Confidential © TDAI Lab All right reserved. トレンド2まとめ. データの重要性について
? 将来LLMの学習データが枯渇するけ⼤丈夫︖ 良いデータセットをどう作る︖ → (論⽂5) 同データは4回まで使い回しOK → (論⽂1) データセットの良い枝刈り → (論⽂2) 複数ドメインデータの混ぜ⽅ ? ⽣成データでAIは学習できる︖ → (論⽂3,4) 拡散モデルでデータ拡張 ? モデル構造の改善よりもデータセットの作り⽅をどう改善するかにシフト

28 Confidential © TDAI Lab All right reserved. トレンド3まとめ. モデルの社会的適合性を多⾯的評価
LLMの良さを精度以外で評価すると︖ → (論⽂1) 信頼性を多⾯的に測定 → (論⽂2) ⼈格プロンプトで強みと弱みを探る ? 評価に関しての今後の⽰唆とは︖ → (Invited Talk) 不確かさに焦点を当てよう ? 多⾯的にかつそもそもどのように評価するかといった議論

29 Confidential © TDAI Lab All right reserved. 論⽂紹介(1/3)︓DecodingTrust: A
Comprehensive Assessment of Trustworthiness in GPT Models(Outstanding Paper) • GPT-4, GPT-3.5の信頼性を８つの評価基準から評価 ◦ (毒性、ステレオタイプ・バイアス、敵対的堅牢性、分布外堅牢性、プライバシー、敵対的デモンストレーションへの堅牢性、機械倫理、公平性) • GPT-4はGPT-3.5に⽐べてプロンプトにより正確に従うため、悪意ある⼊⼒に犯されやすい

Comprehensive Assessment of Trustworthiness in GPT Models(Outstanding Paper)

32 Confidential © TDAI Lab All right reserved. 論⽂紹介(2/3)︓In-Context Impersonation
Reveals Large Language Modelsʼ Strengths and Biases (Spotlight) • 「もしあなたが｛ペルソナ｝だったら」というフレーズでLLMに様々なペルソナを設定してタスクを解かせた ◦ 年齢を変えた場合 →より年齢が⾼いほど探索・活⽤の両⽴ができるようになる(⼈間と同様) ◦ 専⾨家か否か →タスクレベルの専⾨家が⼀番性能が⾼く、ドメインレベルの専⾨家は２番⽬に⾼い。計算を要する難しい問題ではほとんど差が出ない • 設定した「⼈種」や「性別」による性能の偏りも明らかとなった

33 Confidential © TDAI Lab All right reserved. Invited Talk:
The Many Faces of Responsible AI • AI分野では「正解・不正解」を正答率で測るといった簡素化された評価がよく⾏われる • しかし現実問題アノテーションは⼈間でも評価が割れる • AIの安全性を議論する上では、これら評価の割れに関するデータが重要 • より多くのこのような例を収集し、それを使ってモデルや評価指標を改善する必要があると主張(関連したデータセット、DICES*を提案) * https://github.com/google-research-datasets/dices-dataset

34 Confidential © TDAI Lab All right reserved. Invited Talk:
The Many Faces of Responsible AI https://diamond-tilapia-430.notion.site/Lora-Aroyo-The-Many-Faces-of-Responsible-AI-adf8f54bc5e842d98d85e2d4bd18333e 講演著者お気に⼊りのパート

35 Confidential © TDAI Lab All right reserved. トレンド3まとめ. モデルの社会的適合性を多⾯的評価
LLMの良さを精度以外で評価すると︖ → (論⽂1) 信頼性を多⾯的に測定 → (論⽂2) ⼈格プロンプトで強みと弱みを探る ? 多⾯的にかつそもそもどのように評価するかといった議論評価に関しての今後の⽰唆とは︖ → (Invited Talk) 不確かさに焦点を当てよう ?

37 Confidential © TDAI Lab All right reserved. 背景知識︓マルチモーダルモデルの急速な進化 •
マルチモーダルモデルは特に進化が急速 • NeurIPS時点ではマルチモーダルデータ”認識”モデルが発展してきたが、現在ではマルチモーダル”⽣成”まで扱うモデルも登場(e.g., MiniGPT-5, SpeechGPT) NeurIPS 2023 submission deadline May 17, 2023 MM-LLMs: Recent Advances in MultiModal Large Language Models (2024/1/24)

38 Confidential © TDAI Lab All right reserved. トレンド4まとめ: マルチモーダルでも同様のトレンド
【トレンド1】どう学習させる︖ → (論⽂1) マルチモーダルを同時に扱う⽅法 ? 【トレンド3】どう評価する︖ → (論⽂3) 多様な観点から ? LLMで起きていたトレンド1~3と全く同じ議論がマルチモーダルでも起きている【トレンド2】どう良いデータを準備する︖ → (論⽂2) DataCentricコンペ解法 ?

39 Confidential © TDAI Lab All right reserved. 背景知識︓Instruction Tuning
• 背景︓⼤規模⾔語モデルをZero-Shotでどんなタスクでも性能良く使えるようにしたい • ⼿法︓Instruction Tuning(Finetuned Language Models Are Zero-Shot Learners ICLR 2022) • 詳細︓ ◦ Step1. 既存のデータセットをタスクごとに分割(A, [B, C, D,]) ◦ Step2. タスクごとに回答を⽣成させるプロンプトのTemplateを⽤意し、ファインチューニング⽤のデータ作成 ◦ Step3. 再学習を⾏う • 結果︓未学習のタスクで、Zero-shotで性能が良いことが確認されている • 代表例︓T0, FLAN-T5, FLAN-PaLMなど

40 Confidential © TDAI Lab All right reserved. 論⽂紹介(1/3)︓Visual Instruction
Tuning • オープンソース版GPT4-Vに相当するマルチモーダルモデル「LLaVA」を提案 ◦ Vicuna(LLaMAを微調整したLLM)とCLIPを組み合わせたモデル • インストラクションチューニング(FALN-PaLMなどLLMで使われていた微調整⼿法)をマルチモーダルモデルへ適⽤した • 2023年10⽉に登場したLLaVA-1.5ではさらに性能が向上

41 Confidential © TDAI Lab All right reserved. 論⽂紹介(1/3)︓Visual Instruction
Tuning • ２段階のファインチューニング ◦ CC3Mデータセット(画像-キャプションデータ、約60万件)を⽤いて、画像→⾔語空間への変換層だけ学習 ◦ COCOデータセットを元にGPT4に⽣成させたデータセット(約16万件)を⽤いて、変換層とLLMを学習・・・COCOデータセット・・・微調整⽤データある意味LLMで作ったデータで学習している事例（トレンド３） GPT4

42 Confidential © TDAI Lab All right reserved. DataComp: In
search of the next generation of multimodal datasets(Workshop Competiton) A. リソースに応じて、⼩・中・⼤・特⼤のスケールから選択します。各スケールは異なるデータプールとモデルのサイズを持ちます。 B. フィルタリング（提供されたプールのデータのみ）かBYOD（任意のデータソース）のトラックから、データを選んで候補データセットを作成します。 C. 選んだデータセットでCLIPモデルをトレーニングします。スケールごとにCLIPのサイズと設定は固定されています。 D. 38の多様なタスクでモデルを評価し、トレーニングデータセットの効果を測定します。

43 Confidential © TDAI Lab All right reserved. 論⽂紹介(2/3) :
An Inverse Scaling Law for CLIP Training • 従来の認識︓画像/テキストエンコーダのモデルサイズが⼤きいほど、学習に必要な画像/ テキストのトークン⻑も⻑くなり、計算コストが増加すると思われていた • 「Inverse Scaling Law」の発⾒︓モデルサイズが⼤きくなると、学習に適⽤できる画像/ テキストトークンのシーケンスの⻑さを逆に短くできるということが分かった • 期待される影響︓CLIPのトレーニングが計算リソースが限られた環境でも可能となりフィールドに新たな進歩をもたらす可能性がある画像token数を減らした事例⽂字token数を減らした事例

44 Confidential © TDAI Lab All right reserved. 論⽂紹介(3/3)Holistic Evaluation
of Text-to-Image Models • テキスト-画像⽣成モデルについて、プロンプトに対する整合性と画質だけでなく12個の多様な指標を⽤いて評価を⾏った ◦ テキストと画像の整合性、画質（リアリズム）、美学、独創性、論理的思考、知識、バイアス、毒性、公平性、堅牢性、多⾔語性、効率性

of Text-to-Image Models • 相対的な指標(win rate)で各モデルを各指標で⽐較

of Text-to-Image Models

47 Confidential © TDAI Lab All right reserved. トレンド4まとめ: マルチモーダルでも同様のトレンド
【トレンド1】どう学習させる︖ → (論⽂1) マルチモーダルを同時に扱う⽅法 ? 【トレンド3】どう評価する︖ → (論⽂3) 多様な観点から ? LLMで起きていたトレンド1~3と全く同じ議論がマルチモーダルでも起きている【トレンド2】どう良いデータを準備する︖ → (論⽂2) DataCentricコンペ解法 ?

50 Confidential © TDAI Lab All right reserved. 論⽂紹介(1/2)︓Toolformer: Language
Models Can Teach Themselves to Use Tools • Toolformerは、どのAPIを呼び出すか、いつ呼び出すか、どのような引数を渡すか、そしてその結果をトークン予測にどのように組み込むのが最適かを決定するためにファインチューニングされたモデル • ５つのAPI(QA⽤LLM、ウィキペディア検索、翻訳機、計算機、カレンダー)を使⽤ • 専⽤プロンプトを⽤いてLLMにデータセットを作成させた • 特に計算・⽇時に関する性能が⼤きく向上

51 Confidential © TDAI Lab All right reserved. 論⽂紹介(2/2)︓Tree of
Thoughts: Deliberate Problem Solving with Large Language Models • 新しいプロンプト⼿法「Tree of Thoughts」を提案 ◦ 中間の思考を⾃⼰評価してプロセスを先読みしたり後戻りしたりすることで、⼈間がタスクを実⾏するような⼿順でChatGPTに指⽰できるよう⼯夫 • 計画・探索を要するタスクにおいてToTは⾼い性能を⽰した ◦ 24ゲーム(4つの数字の四則計算で24を作るゲーム)では、CoTを⽤いたGPT-4の正解率が4%だったのに対し、ToTでは74%の成功率を達成

52 Confidential © TDAI Lab All right reserved. 論⽂紹介(2/2)︓Tree of
Thoughts: Deliberate Problem Solving with Large Language Models 24ゲームの場合のToTの⼿順 • ステップ１︓３つの思考ステップに分ける • ステップ２︓次の思考の候補(どの数字を選んでどういう計算をするか)を５個出す • ステップ３︓残った数字から24に到達できそうかを評価する • ステップ４︓探索アルゴリズムを決める→幅優先探索(BFS) 24ゲームにおけるToT

54 Confidential © TDAI Lab All right reserved. (参考)︓Multimodal Chain-of-Thought
Reasoning in Language Models(ICLR 2024) • テキストと画像のモーダルを組み込んだMultimodal-CoTを提案 ◦ 画像とテキストを元に⼀度論拠を出⼒した後に、画像、テキスト、論拠を⼊⼒して最終的な答えを得る • T5とViTを組み合わせたモデルを使⽤ • ScienceQAベンチマークにおいてSOTA性能(90.45%)を達成した(⼈の場合88.40%) • Multimodal-CoTを使うことで幻覚を軽減する効果がある

Models Are Zero- Shot Time Series Forecasters • LLMに,で区切られた過去の時系列の値からなる⽂を与え、将来の値を予測させる • しかし重要なのは、LLMが正確に予測できるような⼊⼒⽅法 ◦ (テクニック1) 42235630 が [422, 35, 630] のように分解される場⾯があり、⼀つの値が変更されると全体のトークンが変わる ▪ GPT-3: 数値の各桁間にスペースを挿⼊すると、より精度が⾼いトークナイズが可能 ▪ LLaMA: 元々各桁を独⽴したトークンとして扱っているため、スペース不要 ◦ (テクニック2) 桁を丸めて0~1の間でRescaling

Models Are Zero- Shot Time Series Forecasters • 論⽂内では⾔語モデルが複雑な出⼒の分布も近似できることを⽰している • 各桁を個々にトークナイズする際に、階層的ソフトマックス分布のように働くため

Models are Zero- Shot Rankers for Recommender Systems • 過去の⾏動履歴とレコメンドする候補(20個)をプロンプトに組み込み、LLMにランク付けをさせることの有⽤性を検証 • GPT-3.5-turboを使⽤

Models are Zero- Shot Rankers for Recommender Systems • zero-shotでも⾼い性能を⽰した • 過去の⾏動履歴を単純に並べて⼊⼒するよりも、直近の⾏動にフォーカスしたり、レコメンド例を⽰した⽅が⾼い性能を⽰した

62 Confidential © TDAI Lab All right reserved. 論⽂紹介(3/3)︓Can Language
Models Solve Graph Problems in Natural Language? • ⾃然⾔語で書かれたグラフタスクのベンチマーク(NLGraph)を提案しLLMを評価 ◦ ８種類のグラフタスク(接続性、サイクル、トポロジカルソート、最短経路、最⼤フロー、２グラフマッチング、ハミルトンパス、GNN) • 単純タスク(接続性、サイクル、最短経路)→CoTを使えば結構上⼿く解ける • 複雑タスク(トポロジカルソートやハミルトンパス)→プロンプトを⼯夫しても難しい

65 Confidential © TDAI Lab All right reserved. トレンド7まとめ: 未解決現象の理論的解明
突然性能が開花する︖ → Are Emergent Abilities of Large Language Models a Mirage? ? 経験則で得られた現象に対しての理論的な考察も進んでいる ? ? ? CoTは何故うまくいく︖ 深層強化学習って結局いつうまくいくの︖ Double Descentって結局どうなった︖ → Why think step by step? Reasoning emerges from the locality of experience →A U-turn on Double Descent: Rethinking Parameter Counting in Statistical Learning →Bridging RL Theory and Practice with the Effective Horizon,

66 Confidential © TDAI Lab All right reserved. 論⽂紹介︓ Are
Emergent Abilities of Large Language Models a Mirage?(Outstanding Papers Awards) • ⼤規模⾔語モデルのパラメータ数を増加させていくと、突然新しい能⼒が開花することが経験上知られている →しかしそれは評価指標の問題で、実際は突然能⼒が向上するわけではなかった

67 Confidential © TDAI Lab All right reserved. 論⽂紹介︓ Are
Emergent Abilities of Large Language Models a Mirage?(Outstanding Papers Awards) • ⾮線形・不連続の評価指標を⽤いるとemergent abilityが発⽣する(⾚枠)が、線形・連続値をとる評価指標を⽤いるとemergent abilityは発⽣しない(⻘枠) • ⾮線形指標でほぼ性能が０に⾒えるものでも、テストデータのサイズを⼤きくして解像度を⾼めることで滑らかな性能向上曲線を描ける(右図)

68 Confidential © TDAI Lab All right reserved. 本⽇の発表のまとめ •
トレンド1: LLMをより⼈が好む回答へ • トレンド2: データの重要性について • トレンド3: モデルの社会的適合性を多⾯的評価 • トレンド4: マルチモーダルモデルも同様 • トレンド5: 汎⽤的AIに向けて推論⼒を⾼めよう • トレンド6: 多分野への応⽤ • トレンド7: 未解決現象の理論的解明基盤モデルの応⽤範囲は多岐に渡り、データの観点からモデルの性能向上させつつも多⾯的に評価を⾏う流れが、マルチモーダル全般で⾏われている

日本ディープラーニング協会主催 NeurIPS 2023 技術報告会講演資料

日本ディープラーニング協会主催 NeurIPS 2023 技術報告会講演資料

More Decks by 株式会社TDAI Lab

Other Decks in Technology

Featured

Transcript