アプリケーションから知るモデルマージ

早稲田大学森島繁生研究室 D5 綱島秀樹アプリケーションから知るモデルマージ

自己紹介 2 綱島秀樹 ◆所属早稲田大学博士5年－森島繁生研究室 ◆研究テーマ修士課程：深層画像生成モデルの計算量・パラメータ削減博士課程1年：複数物体を対象とした教師無し前景背景分解
博士課程2年：Embodied AI関連博士課程3年〜：常識獲得，系統的汎化産総研（元）：服と人のペアデータを必要としない仮想試着 ◆趣味筋トレ，アメフト，読書，音楽ゲーム，FPS，ゴルフ，飲酒，麻雀，ビリヤード，写真，etc...

モデルマージとは？

モデルマージ 4 [1] Yang et al., “Model Merging in LLMs,
MLLMs, and Beyond: Methods, Theories, Applications and Opportunities”, arXiv preprint, 2024. モデルマージとは誤解を恐れずに言えば，ニューラルネットワークをがっちゃんこ※して複数モデルの能力を発現させる技術 ※ 厳密にはニューラルネットワークの重み（パラメータ）を足し合わせるモデルマージ概念図 [1]

モデルマージのアプリケーション例 5 ⚫ テキストからの音声合成のモデルマージ ⚫ 画像生成のモデルマージ

モデルマージのアプリケーション例 6 [1] 凛音エルちゃん比較用（オリジナル）, “https://www.youtube.com/watch?v=cgEWYx3A-oU”, 2024年10月18日閲覧. [2] 凛音エルちゃん差分マージ囁き1, “https://www.youtube.com/watch?v=MtnkiyS2vro&t=18s”, 2024年10月18日閲覧.
⚫ テキストからの音声合成のモデルマージ Aさんが普通に喋っているモデル + (Bさんが囁いているモデル – Bさんが普通に喋っているモデル) = Aさんが囁いているモデル Aさんが普通に喋っているモデル [1] モデルマージ後のAさんが囁いているモデル [2]

モデルマージのアプリケーション例 7 ⚫ 画像生成のモデルマージ日本語特化の画像生成モデル（低品質） + 英語をベースとした画像生成モデル（高品質） = 高品質な日本語特化の画像生成モデル高品質な日本語特化の画像生成モデル
+ 高速な処理が可能な英語をベースとした画像生成モデル = 高品質な日本語特化で高速な処理が可能な画像生成モデルプロンプトは「ラーメン、浮世絵、葛飾北斎」，「折り紙弁当」，「（下町ロケット，東京サラリーマン），浮世絵」，「可愛いゾウの編みぐるみ」などで高品質な日本語特化で高速な処理が可能な画像生成モデルで生成した画像 [1] [1] 画像生成モデルへの進化的モデルマージの適用日本語対応した高速な画像生成モデルを教育目的で公開, “https://sakana.ai/evosdxl-jp/”, 2024年10月18日閲覧.

Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと，非自明なこと ⚫ そもそもモデルマージはいつから？ ⚫
モデルマージの長所短所，今後の展望 8

モデルマージでできること 10 ⚫ 複数モデルの能力の統合 ⚫ ベクトル演算のようなことを重み空間で可能にする ⚫ 能力の削除 ⚫ 攻撃
⚫ 汎化性能向上 ⚫ 破滅的忘却の抑制 ⚫ 連合学習への適応

モデルマージでできること 11 [1] Wolfe, “Model Merging: A Survey”, “https://cameronrwolfe.substack.com/p/model-merging”, 2024年10月18日閲覧.
[2] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023. [3] Yang et al., “Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities”, arXiv preprint, 2024. ⚫ 複数モデルの能力の統合 [1, 2, 3] ➢ 同モダリティでの能力統合（例：英語に強いLLM + 数学に強いLLM） ➢ 目的関数が違うモデルの能力統合（例：解決能力特化LLM + 安全性特化LLM） ➢ LoRAのマージ（例：Llamaを日本語でLoRA FTとLlamaを数学でLoRA FTのLoRA部分） ➢ 副次的にレイテンシを減らせる（アンサンブルする必要がない）

モデルマージでできること 12 ⚫ ベクトル演算のようなことを重み空間で可能にする（タスク算術；Task Arithmetic） Aさんが普通に喋っているモデル + (Bさんが囁いているモデル – Bさんが普通に喋っているモデル)
= Aさんが囁いているモデルタスク算術概念図 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.

モデルマージでできること 13 ⚫ 能力の削除 ➢ 解毒；Detoxification（例：トキシックな発言（例：人種差別）をするLLMから毒性除去）毒性モデルA - (毒性モデルB –
良性モデルB) = 良性モデルA（毒性ベクトルの減算） ➢ 学習棄却；Unlearning（例：個人情報をペラペラ喋るLLMから個人情報を取り除く）個人情報モリモリモデルA - (個人情報モリモリモデルB – 良性モデルB）= 良性モデルA ⚫ 攻撃：モデルプール（マージするモデル群）に毒性モデルを混ぜることで，良性モデルを汚染可能良性モデルA + 毒性モデルB（攻撃モデル） + 良性モデルC = 毒性モデルD ⚫ 汎化性能向上：訓練チェックポイントをいくつかマージすることで汎化性能が上昇モデルA（10,000 iter）+ モデルB（50,000 iter）+ モデルC（500,000 iter）= モデルD ⚫ 破滅的忘却の抑制：事前学習モデルとfine-tunedモデルをマージして破滅的忘却を抑制事前学習モデル + fine-tunedモデル = 事前学習内容も保持したfine-tunedモデル

モデルマージでできること 14 ⚫ 連合学習への適応：学習データ量に応じた重み付けなどでマージする 0.2 x モデルA + 0.5 x
モデルB + 0.3 x モデルC = UpdatedモデルD 中央集約型連合学習と分散連合学習 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.

モデルマージのトレンド 17 ⚫ 応用面 ⚫ 理論面

モデルマージのトレンド 18 ⚫ 応用面 ➢ タスク算術，線型補完，フランケンマージ（パススルーマージ）

モデルマージのトレンド 19 ⚫ 応用面 ➢ タスク算術，線型補完，フランケンマージ（パススルーマージ）進化的モデルマージ※ [1] ※ フランケンマージはレイヤーががちゃんがちゃん結合するので，わかりやすい概念として紹介
[1] 進化的アルゴリズムによる基盤モデルの構築, “https://sakana.ai/evolutionary-model-merge-jp/”, 2024年10月29日閲覧.

モデルマージのトレンド 20 ⚫ 応用面 ➢ タスク算術，線型補完，フランケンマージ（パススルーマージ） ➢ mergekit [1] を使った手軽なマージ（言語モデルのマージ）
ただ，手軽ゆえにマージモデルが乱立している，，， [1] mergekit, “https://github.com/arcee-ai/mergekit”.

モデルマージのトレンド 21 ⚫ 理論面 ➢ モード接続性（最頻値接続性※） ※ 綱島の造語．おそらく日本語に直すとこうなる簡単に言うと，2つのモデルの重みを補完するパスの中に，テスト誤差が一定になる領域が存在していること
その中でも以下の3点がメジャー  線形接続性  非線形接続性  重みアライメント (例：Re-basin) モード接続性の概念図 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.

モデルマージのトレンド 22 ⚫ 理論面 ➢ モード接続性（最頻値接続性※） ※ 綱島の造語．おそらく日本語に直すとこうなる簡単に言うと，2つのモデルの重みを補完するパスの中に，テスト誤差が一定になる領域が存在していること
その中でも以下の3点がメジャー  線形接続性  非線形接続性  重みアライメント (例：Re-basin) 重みアライメントの概念図 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.

モデルマージのトレンド 23 ⚫ 理論面 ➢ モード接続性（最頻値接続性） ➢ スパース性解析巨大でよく学習されているモデルは，パラメータがスパース（疎，まばら）になっており，マージが機能しやすいとも言われている
それゆえ，スパース性について解析することがモデルマージを解き明かすことの一つとなり得る可能性があるちなみに余談ですが，幼児も急激に脳内のニューロンが増加した後に，段々とニューロン数が減少していきます（ニューラルネットの剪定（pruning）と同等の処理が起きている）[1] [1] 山口真美, 金沢創. 乳幼児心理学〔改訂版〕 (放送大学教材), 放送大学教育振興会, 2016.

モデルマージが弱いこと 26 ⚫ スクラッチからの学習では基本的に適用できない事前学習モデルからではなく，スクラッチで学習したモデル同士だとモード接続性がなく，マージが機能しない ⚫ アーキテクチャが異なるマージは基本的にできない一応，アーキテクチャを同一のモデルに変換（同一のモデルで答えが元のモデルに一致するように蒸留という学習をする）する方法もあるが，学習コストがそもそも高いモデルには適用が困難

モデルマージの非自明なこと 27 ⚫ アーキテクチャが異なるマルチモーダルLLM（MLLM）などのマージ ⚫ 入力空間が異なるマージ（例：ハイパースペクトルカメラのデータが入力） ⚫ 別モダリティでの能力統合（例：音のモデルと画像のモデルのマージ）

モデルマージはいつから？ 30 モデルを統合して処理をするという観点では，アンサンブル・連合学習・蒸留など古くから議論がされてきたただ，近年のモデルの重みを足し合わせるという考え方はある論文からブームが始まっているモデルスープ

モデルマージはいつから？ 31 ⚫ モデルスープ事前学習済みモデルから複数のハイパラでモデルを学習させ，一様にマージすると分布シフトに頑健になり，正解率がある閾値以上のモデルのみ貪欲にマージさせるとさらにいい精度にモデルスープの結果一覧 [1] [1] M.
Wortsman et al., “Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time”, ICML, 2022.

モデルマージの長所短所 34 ⚫ 長所 ✓ 複数モデルの能力の統合 ✓ ベクトル演算のようなことを重み空間で可能にする ✓ 能力の削除
✓ 攻撃 ✓ 汎化性能向上 ✓ 破滅的忘却の抑制 ✓ 連合学習への適応 ⚫ 短所  スクラッチからの学習では基本的に適用できない  アーキテクチャが異なるマージが基本的にはできない

モデルマージの今後の展望 35 ⚫ アーキテクチャが異なるマルチモーダルLLM（MLLM）などのマージ ⚫ 入力空間が異なる時のマージ（ハイパースペクトルカメラの入力など） ⚫ 理論的解析 ⚫ 単にタスク算術と線型補完などでは，LLM
+ RAGのように人間が局所解に陥ってしまうので，非自明な点についてを扱う問題に取り組む必要あり

アプリケーションから知るモデルマージ

アプリケーションから知るモデルマージ

maguro27

More Decks by maguro27

Other Decks in Research

Featured

Transcript

早稲田大学森島繁生研究室 D5 綱島秀樹アプリケーションから知るモデルマージ

自己紹介 2 綱島秀樹 ◆所属早稲田大学博士5年－森島繁生研究室 ◆研究テーマ修士課程：深層画像生成モデルの計算量・パラメータ削減博士課程1年：複数物体を対象とした教師無し前景背景分解

モデルマージとは？

モデルマージ 4 [1] Yang et al., “Model Merging in LLMs,

モデルマージのアプリケーション例 5 ⚫ テキストからの音声合成のモデルマージ ⚫ 画像生成のモデルマージ

Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと，非自明なこと ⚫ そもそもモデルマージはいつから？ ⚫

Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと，非自明なこと ⚫ そもそもモデルマージはいつから？ ⚫

モデルマージでできること 10 ⚫ 複数モデルの能力の統合 ⚫ ベクトル演算のようなことを重み空間で可能にする ⚫ 能力の削除 ⚫ 攻撃

モデルマージでできること 11 [1] Wolfe, “Model Merging: A Survey”, “https://cameronrwolfe.substack.com/p/model-merging”, 2024年10月18日閲覧.

モデルマージでできること 12 ⚫ ベクトル演算のようなことを重み空間で可能にする（タスク算術；Task Arithmetic） Aさんが普通に喋っているモデル + (Bさんが囁いているモデル – Bさんが普通に喋っているモデル)

モデルマージでできること 13 ⚫ 能力の削除 ➢ 解毒；Detoxification（例：トキシックな発言（例：人種差別）をするLLMから毒性除去）毒性モデルA - (毒性モデルB –

モデルマージでできること 14 ⚫ 連合学習への適応：学習データ量に応じた重み付けなどでマージする 0.2 x モデルA + 0.5 x

Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと，非自明なこと ⚫ そもそもモデルマージはいつから？ ⚫

Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと，非自明なこと ⚫ そもそもモデルマージはいつから？ ⚫

モデルマージのトレンド 17 ⚫ 応用面 ⚫ 理論面

モデルマージのトレンド 18 ⚫ 応用面 ➢ タスク算術，線型補完，フランケンマージ（パススルーマージ）

モデルマージのトレンド 20 ⚫ 応用面 ➢ タスク算術，線型補完，フランケンマージ（パススルーマージ） ➢ mergekit [1] を使った手軽なマージ（言語モデルのマージ）

モデルマージのトレンド 23 ⚫ 理論面 ➢ モード接続性（最頻値接続性） ➢ スパース性解析巨大でよく学習されているモデルは，パラメータがスパース（疎，まばら）になっており，マージが機能しやすいとも言われている

Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと，非自明なこと ⚫ そもそもモデルマージはいつから？ ⚫

Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと，非自明なこと ⚫ そもそもモデルマージはいつから？ ⚫

Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと，非自明なこと ⚫ そもそもモデルマージはいつから？ ⚫

Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと，非自明なこと ⚫ そもそもモデルマージはいつから？ ⚫

Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと，非自明なこと ⚫ そもそもモデルマージはいつから？ ⚫

Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと，非自明なこと ⚫ そもそもモデルマージはいつから？ ⚫

モデルマージの長所短所 34 ⚫ 長所 ✓ 複数モデルの能力の統合 ✓ ベクトル演算のようなことを重み空間で可能にする ✓ 能力の削除