Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Evolutionary Optimization of Model Merging Recipes

Evolutionary Optimization of Model Merging Recipes

「Evolutionary Optimization of Model Merging Recipes」の論文紹介
間違いや修正箇所などがあればご指摘ください!
公式ページ
https://sakana.ai/evolutionary-model-merge-jp/
arXiv
https://arxiv.org/abs/2403.13187
GitHub
https://github.com/SakanaAI/evolutionary-model-merge
HuggingFace
EvoLLM-JP-v1-7B
https://huggingface.co/SakanaAI/EvoVLM-JP-v1-7B
EvoLLM-JP-v1-10B
https://huggingface.co/SakanaAI/EvoLLM-JP-v1-10B
EvoLLM-JP-A-v1-7B
https://huggingface.co/SakanaAI/EvoLLM-JP-A-v1-7B
EvoLLM-JP-v1-10B
https://huggingface.co/SakanaAI/EvoLLM-JP-v1-7B
解説資料
【論文要約】Evolutionary Optimization of Model Merging Recipes【Claude 3 Opus】
https://note.com/sora_motorsport/n/n41fc3621b183
解説動画
Paper deep dive: Evolutionary Optimization of Model Merging Recipes
https://www.youtube.com/watch?v=BihyfzOidDI
Open LLM Leaderboard
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

Toma Tanaka

March 25, 2024
Tweet

More Decks by Toma Tanaka

Other Decks in Technology

Transcript

  1. 概要 SakanaAI の研究 複数の学習済みモデルから自動で性能の良いモデルを生成する進化的モデルマージ (Evolutionary Model Merge) という手法を提案 ファインチューニングはしていない 進化的モデルマージによって作成した7B

    や10B のLLM は「日本語での数学能力」や「汎 用的な日本語能力」で70B のモデルを超える性能を達成 LLM とVLM をもとに作成したVLM も高い精度を達成 進化的モデルマージは拡散モデルに対しても適用可能 3 ※SakanaAI :元Google のAI の研究者であるLlion Jones 氏とDavid Ha 氏によって東京に設立
  2. 前提知識 4 Model Merging 複数の事前学習済みモデルを組み合わせることで,単一のタスクに特化したモデルの 性能を超える汎用的なモデルを生成する手法 主な手法 Task Vector algorithms...

    タスクベクトルを使い新しいモデルを作成する手法 Task Arithmetic TIES DARE SLERP 二つモデルのパラメータを使い球面線形補間する手法 Frankenmerging 複数のモデルから異なるレイヤーを積み重ねて新しいモデルを作成する手法 MoE モデルマージの手法としてのMoE 「Model Merging: MoE, Frankenmerging, SLERP, and Task Vector Algorithms 」の記事の内容をもとにまとめています https://deci.ai/blog/model-merging-moe-frankenmerging-slerp-and-task-vector-algorithms/
  3. 背景・課題・主題 背景 Model Merging の手法の一つであるモデルスープは,分布シフトに対しても良い汎化性能 を示すことが理論的,実証的研究で明らかになっている. Model Merging は追加の学習なしに高性能なモデルを作成でき,Open LLM

    Leaderboard ではModel Merging によって作成されたモデルが上位を占めている 課題 Model Merging はモデル作成者の直感に依存しており,体系的なアプローチが存在しな い. 主題 既存のLLM,VLM や拡散モデルから自動で性能の高いモデルを生成する手法である進化的モ デルマージ(Evolutionary Model Merge) を提案 6 ※Open LLM Leaderboard ...HuggingFace の公開されているLLM の性能のリーダーボード apendix にリンクを記載
  4. 進化的モデルマージの処理 以下の処理を数百世代に渡り繰り返す ベースのモデルをもとにOptuna のCMA-ES を使い複数のモデルを作成 1. 以下の二つのマージ手法を使い複数のモデルを作成する パラメータ空間でのモデルマージ データフロー空間でのモデルマージ 作成したモデルの中で最も優れた(

    評価指標のスコアが高い) モデルを使い次の世代のベースの モデルとする 2. 上記で作成した中で最もスコアの良いモデルを採用する 12 CMAES( 進化戦略) の解説: https://www.bbo.cs.tsukuba.ac.jp/research-j/cmaes%E9%80%B2%E5%8C%96%E6%88%A6%E7%95%A5%E3%81%AE%E8%A7%A3%E8%AA%AC
  5. 結果 14 進化的モデルマージ(Evolutionary Model Merge) により以下の基盤モデルを作成 大規模言語モデル(EvoLLM-JP-v1 ) 「日本語で数学の問題を解くことができるLLM 」を作成

    OSS として公開 画像言語モデル(EvoVLM-JP-v1 ) 進化的モデルマージによるVLM モデル OSS として公開 画像生成モデル(EvoSDXL-JP-v1 ) 進化的モデルマージによる拡散モデル 公開予定
  6. 大規模言語モデル(EvoLLM-JP-v1 )の結果 15 MGSM-JA,JP-LMEH で7B のモデルでLlama2 などの70B モデルを超える性能 MGSM-JA... 日本語での数学能力

    JP-LMEH... 一般的な日本語能力 引用元:https://arxiv.org/abs/2403.13187 PS... パラメータ空間 DFS... データフロー空間 PS+DFS... 両方
  7. 概要( 再掲) SakanaAI の研究 複数の学習済みモデルから自動で性能の良いモデルを生成する進化的モデルマージ (Evolutionary Model Merge) という手法を提案 ファインチューニングはしていない

    進化的モデルマージによって作成した7B や10B のLLM は「日本語での数学能力」や「汎 用的な日本語能力」で70B のモデルを超える性能を達成 LLM とVLM をもとに作成したVLM も高い精度を達成 進化的モデルマージは拡散モデルに対しても適用可能 20 ※SakanaAI :元Google のAI の研究者であるLlion Jones 氏とDavid Ha 氏によって東京に設立
  8. 関連するリンク 公式ページ https://sakana.ai/evolutionary-model-merge-jp/ arXiv https://arxiv.org/abs/2403.13187 GitHub https://github.com/SakanaAI/evolutionary-model-merge HuggingFace EvoLLM-JP-v1-7B EvoLLM-JP-v1-10B

    EvoLLM-JP-A-v1-7B EvoLLM-JP-v1-10B 解説資料 【論文要約】Evolutionary Optimization of Model Merging Recipes 【Claude 3 Opus 】 解説動画 Paper deep dive: Evolutionary Optimization of Model Merging Recipes Open LLM Leaderboard https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard