Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アプリケーションから知るモデルマージ
Search
maguro27
December 18, 2024
Research
460
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
アプリケーションから知るモデルマージ
複数のニューラルネットワークの重みを結合する技術であるモデルマージについて,アプリケーションから紹介し,理論的なおもしろさや,展望についてまとめたスライドです.
maguro27
December 18, 2024
More Decks by maguro27
See All by maguro27
「人間にAIはどのように辿り着けばよいのか?ー 系統的汎化からの第一歩 ー」@第22回 Language and Robotics研究会
maguro27
0
1k
【スキルアップAIキャンプ】第79回『 生成モデルはまだまだ進化している! GAN の研究動向紹介』
maguro27
1
5.9k
第9回全日本コンピュータビジョン勉強会「StyleNeRF: A Style-based 3D Aware Generator for High-resolution Image Synthesis」発表資料
maguro27
3
4.5k
SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition
maguro27
1
1.4k
VAEを用いた株価予想
maguro27
0
1.4k
Other Decks in Research
See All in Research
COFFEE-Japan PROJECT Impact Report(海ノ向こうコーヒー)
ontheslope
0
1.9k
衛星×エッジAI勉強会 衛星上におけるAI処理制約とそ取組について
satai
4
550
さくらインターネット研究所テックトーク2026春、研究開発Gr.25年度成果26年度方針
kikuzo
0
150
第66回コンピュータビジョン勉強会@関東 Epona: Autoregressive Diffusion World Model for Autonomous Driving
kentosasaki
0
630
ScoreMatchingRiesz for Automatic Debiased Machine Learning and Policy Path Estimation with an Application to Japanese Monetary Policy Evaluation
masakat0
0
290
討議:RACDA設立30周年記念都市交通フォーラム2026
trafficbrain
0
950
言語モデルから言語について語る際に押さえておきたいこと
eumesy
PRO
5
2.3k
ブレグマン距離最小化に基づくリース表現量推定:バイアス除去学習の統一理論
masakat0
0
280
National high-resolution cropland classification of Japan with agricultural census information and multi-temporal multi-modality datasets
satai
3
290
RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent
satai
2
290
Ankylosing Spondylitis
ankh2054
0
170
2026年3月1日(日)福島「除染土」の公共利用をかんがえる
atsukomasano2026
0
630
Featured
See All Featured
RailsConf 2023
tenderlove
30
1.5k
Prompt Engineering for Job Search
mfonobong
0
340
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Visualization
eitanlees
152
17k
Thoughts on Productivity
jonyablonski
76
5.2k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.9k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.5k
GitHub's CSS Performance
jonrohan
1033
470k
The Mindset for Success: Future Career Progression
greggifford
PRO
0
360
Six Lessons from altMBA
skipperchong
29
4.3k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.7k
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.3k
Transcript
早稲田大学 森島繁生研究室 D5 綱島秀樹 アプリケーションから知るモデルマージ
自己紹介 2 綱島 秀樹 ◆所属 早稲田大学 博士5年-森島繁生研究室 ◆研究テーマ 修士課程:深層画像生成モデルの計算量・パラメータ削減 博士課程1年:複数物体を対象とした教師無し前景背景分解
博士課程2年:Embodied AI関連 博士課程3年〜:常識獲得,系統的汎化 産総研(元):服と人のペアデータを必要としない仮想試着 ◆趣味 筋トレ,アメフト,読書,音楽ゲーム,FPS, ゴルフ,飲酒,麻雀,ビリヤード,写真,etc...
モデルマージとは?
モデルマージ 4 [1] Yang et al., “Model Merging in LLMs,
MLLMs, and Beyond: Methods, Theories, Applications and Opportunities”, arXiv preprint, 2024. モデルマージとは誤解を恐れずに言えば,ニューラルネットワークをがっちゃんこ※して 複数モデルの能力を発現させる技術 ※ 厳密にはニューラルネットワークの重み(パラメータ)を足し合わせる モデルマージ概念図 [1]
モデルマージのアプリケーション例 5 ⚫ テキストからの音声合成のモデルマージ ⚫ 画像生成のモデルマージ
モデルマージのアプリケーション例 6 [1] 凛音エルちゃん比較用(オリジナル), “https://www.youtube.com/watch?v=cgEWYx3A-oU”, 2024年10月18日閲覧. [2] 凛音エルちゃん差分マージ囁き1, “https://www.youtube.com/watch?v=MtnkiyS2vro&t=18s”, 2024年10月18日閲覧.
⚫ テキストからの音声合成のモデルマージ Aさんが普通に喋っているモデル + (Bさんが囁いているモデル – Bさんが普通に喋っているモデル) = Aさんが囁いているモデル Aさんが普通に喋っているモデル [1] モデルマージ後のAさんが囁いているモデル [2]
モデルマージのアプリケーション例 7 ⚫ 画像生成のモデルマージ 日本語特化の画像生成モデル(低品質) + 英語をベースとした画像生成モデル(高品質) = 高品質な日本語特化の画像生成モデル 高品質な日本語特化の画像生成モデル
+ 高速な処理が可能な英語をベースとした画像生成モデル = 高品質な日本語特化で高速な処理が可能な画像生成モデル プロンプトは「ラーメン、浮世絵、葛飾北斎」,「折り紙弁当」,「(下町ロケット,東京サラリーマン),浮世絵」, 「可愛いゾウの編みぐるみ」などで高品質な日本語特化で高速な処理が可能な画像生成モデルで生成した画像 [1] [1] 画像生成モデルへの進化的モデルマージの適用 日本語対応した高速な画像生成モデルを教育目的で公開, “https://sakana.ai/evosdxl-jp/”, 2024年10月18日閲覧.
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 8
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 9
モデルマージでできること 10 ⚫ 複数モデルの能力の統合 ⚫ ベクトル演算のようなことを重み空間で可能にする ⚫ 能力の削除 ⚫ 攻撃
⚫ 汎化性能向上 ⚫ 破滅的忘却の抑制 ⚫ 連合学習への適応
モデルマージでできること 11 [1] Wolfe, “Model Merging: A Survey”, “https://cameronrwolfe.substack.com/p/model-merging”, 2024年10月18日閲覧.
[2] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023. [3] Yang et al., “Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities”, arXiv preprint, 2024. ⚫ 複数モデルの能力の統合 [1, 2, 3] ➢ 同モダリティでの能力統合(例:英語に強いLLM + 数学に強いLLM) ➢ 目的関数が違うモデルの能力統合(例:解決能力特化LLM + 安全性特化LLM) ➢ LoRAのマージ(例:Llamaを日本語でLoRA FTとLlamaを数学でLoRA FTのLoRA部分) ➢ 副次的にレイテンシを減らせる(アンサンブルする必要がない)
モデルマージでできること 12 ⚫ ベクトル演算のようなことを重み空間で可能にする(タスク算術;Task Arithmetic) Aさんが普通に喋っているモデル + (Bさんが囁いているモデル – Bさんが普通に喋っているモデル)
= Aさんが囁いているモデル タスク算術概念図 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.
モデルマージでできること 13 ⚫ 能力の削除 ➢ 解毒;Detoxification(例:トキシックな発言(例:人種差別)をするLLMから毒性除去) 毒性モデルA - (毒性モデルB –
良性モデルB) = 良性モデルA(毒性ベクトルの減算) ➢ 学習棄却;Unlearning(例:個人情報をペラペラ喋るLLMから個人情報を取り除く) 個人情報モリモリモデルA - (個人情報モリモリモデルB – 良性モデルB)= 良性モデルA ⚫ 攻撃:モデルプール(マージするモデル群)に毒性モデルを混ぜることで,良性モデルを汚染可能 良性モデルA + 毒性モデルB(攻撃モデル) + 良性モデルC = 毒性モデルD ⚫ 汎化性能向上:訓練チェックポイントをいくつかマージすることで汎化性能が上昇 モデルA(10,000 iter)+ モデルB(50,000 iter)+ モデルC(500,000 iter)= モデルD ⚫ 破滅的忘却の抑制:事前学習モデルとfine-tunedモデルをマージして破滅的忘却を抑制 事前学習モデル + fine-tunedモデル = 事前学習内容も保持したfine-tunedモデル
モデルマージでできること 14 ⚫ 連合学習への適応:学習データ量に応じた重み付けなどでマージする 0.2 x モデルA + 0.5 x
モデルB + 0.3 x モデルC = UpdatedモデルD 中央集約型連合学習と分散連合学習 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 15
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 16
モデルマージのトレンド 17 ⚫ 応用面 ⚫ 理論面
モデルマージのトレンド 18 ⚫ 応用面 ➢ タスク算術,線型補完,フランケンマージ(パススルーマージ)
モデルマージのトレンド 19 ⚫ 応用面 ➢ タスク算術,線型補完,フランケンマージ(パススルーマージ) 進化的モデルマージ※ [1] ※ フランケンマージはレイヤーががちゃんがちゃん結合するので,わかりやすい概念として紹介
[1] 進化的アルゴリズムによる基盤モデルの構築, “https://sakana.ai/evolutionary-model-merge-jp/”, 2024年10月29日閲覧.
モデルマージのトレンド 20 ⚫ 応用面 ➢ タスク算術,線型補完,フランケンマージ(パススルーマージ) ➢ mergekit [1] を使った手軽なマージ(言語モデルのマージ)
ただ,手軽ゆえにマージモデルが乱立している,,, [1] mergekit, “https://github.com/arcee-ai/mergekit”.
モデルマージのトレンド 21 ⚫ 理論面 ➢ モード接続性(最頻値接続性※) ※ 綱島の造語.おそらく日本語に直すとこうなる 簡単に言うと,2つのモデルの重みを補完するパスの中に,テスト誤差が一定になる領域が存在し ていること
その中でも以下の3点がメジャー 線形接続性 非線形接続性 重みアライメント (例:Re-basin) モード接続性の概念図 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.
モデルマージのトレンド 22 ⚫ 理論面 ➢ モード接続性(最頻値接続性※) ※ 綱島の造語.おそらく日本語に直すとこうなる 簡単に言うと,2つのモデルの重みを補完するパスの中に,テスト誤差が一定になる領域が存在し ていること
その中でも以下の3点がメジャー 線形接続性 非線形接続性 重みアライメント (例:Re-basin) 重みアライメントの概念図 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.
モデルマージのトレンド 23 ⚫ 理論面 ➢ モード接続性(最頻値接続性) ➢ スパース性解析 巨大でよく学習されているモデルは,パラメータがスパース(疎,まばら)になっており, マージが機能しやすいとも言われている
それゆえ,スパース性について解析することがモデルマージを解き明かすことの一つと なり得る可能性がある ちなみに余談ですが,幼児も急激に脳内のニューロンが増加した後に,段々とニューロン数 が減少していきます(ニューラルネットの剪定(pruning)と同等の処理が起きている)[1] [1] 山口真美, 金沢創. 乳幼児心理学〔改訂版〕 (放送大学教材), 放送大学教育振興会, 2016.
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 24
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 25
モデルマージが弱いこと 26 ⚫ スクラッチからの学習では基本的に適用できない 事前学習モデルからではなく,スクラッチで学習したモデル同士だとモード接続性がなく, マージが機能しない ⚫ アーキテクチャが異なるマージは基本的にできない 一応,アーキテクチャを同一のモデルに変換(同一のモデルで答えが元のモデルに一致するように 蒸留という学習をする)する方法もあるが,学習コストがそもそも高いモデルには適用が困難
モデルマージの非自明なこと 27 ⚫ アーキテクチャが異なるマルチモーダルLLM(MLLM)などのマージ ⚫ 入力空間が異なるマージ(例:ハイパースペクトルカメラのデータが入力) ⚫ 別モダリティでの能力統合(例:音のモデルと画像のモデルのマージ)
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 28
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 29
モデルマージはいつから? 30 モデルを統合して処理をするという観点では,アンサンブル・連合学習・蒸留など古くから 議論がされてきた ただ,近年のモデルの重みを足し合わせるという考え方はある論文からブームが始まっている モデルスープ
モデルマージはいつから? 31 ⚫ モデルスープ 事前学習済みモデルから複数のハイパラでモデルを学習させ,一様にマージすると分布シフトに 頑健になり,正解率がある閾値以上のモデルのみ貪欲にマージさせるとさらにいい精度に モデルスープの結果一覧 [1] [1] M.
Wortsman et al., “Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time”, ICML, 2022.
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 32
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 33
モデルマージの長所短所 34 ⚫ 長所 ✓ 複数モデルの能力の統合 ✓ ベクトル演算のようなことを重み空間で可能にする ✓ 能力の削除
✓ 攻撃 ✓ 汎化性能向上 ✓ 破滅的忘却の抑制 ✓ 連合学習への適応 ⚫ 短所 スクラッチからの学習では基本的に適用できない アーキテクチャが異なるマージが基本的にはできない
モデルマージの今後の展望 35 ⚫ アーキテクチャが異なるマルチモーダルLLM(MLLM)などのマージ ⚫ 入力空間が異なる時のマージ(ハイパースペクトルカメラの入力など) ⚫ 理論的解析 ⚫ 単にタスク算術と線型補完などでは,LLM
+ RAGのように人間が局所解に陥ってしまうので, 非自明な点についてを扱う問題に取り組む必要あり