Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アプリケーションから知るモデルマージ
Search
maguro27
December 18, 2024
Research
0
250
アプリケーションから知るモデルマージ
複数のニューラルネットワークの重みを結合する技術であるモデルマージについて,アプリケーションから紹介し,理論的なおもしろさや,展望についてまとめたスライドです.
maguro27
December 18, 2024
Tweet
Share
More Decks by maguro27
See All by maguro27
「人間にAIはどのように辿り着けばよいのか?ー 系統的汎化からの第一歩 ー」@第22回 Language and Robotics研究会
maguro27
0
660
【スキルアップAIキャンプ】第79回『 生成モデルはまだまだ進化している! GAN の研究動向紹介』
maguro27
1
5.6k
第9回全日本コンピュータビジョン勉強会「StyleNeRF: A Style-based 3D Aware Generator for High-resolution Image Synthesis」発表資料
maguro27
3
4.4k
SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition
maguro27
1
1.3k
VAEを用いた株価予想
maguro27
0
1.3k
Other Decks in Research
See All in Research
Weekly AI Agents News!
masatoto
30
52k
A Segment Anything Model based weakly supervised learning method for crop mapping using Sentinel-2 time series images
satai
2
120
コミュニティドライブプロジェクト
smartfukushilab1
0
180
LLM 시대의 Compliance: Safety & Security
huffon
0
580
2038年問題が思ったよりヤバい。検出ツールを作って脅威性評価してみた論文 | Kansai Open Forum 2024
ran350
8
3.8k
JSAI NeurIPS 2024 参加報告会(AI アライメント)
akifumi_wachi
5
810
精度を無視しない推薦多様化の評価指標
kuri8ive
1
360
医療支援AI開発における臨床と情報学の連携を円滑に進めるために
moda0
0
150
Zipf 白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数
eumesy
PRO
8
1.3k
博士学位論文予備審査 / Scaling Telemetry Workloads in Cloud Applications: Techniques for Instrumentation, Storage, and Mining
yuukit
1
1.7k
TransformerによるBEV Perception
hf149
1
680
言語モデルLUKEを経済の知識に特化させたモデル「UBKE-LUKE」について
petter0201
0
190
Featured
See All Featured
What's in a price? How to price your products and services
michaelherold
244
12k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
29k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
174
51k
4 Signs Your Business is Dying
shpigford
182
22k
Building a Scalable Design System with Sketch
lauravandoore
460
33k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Building Flexible Design Systems
yeseniaperezcruz
328
38k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
49k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
29
1k
Code Reviewing Like a Champion
maltzj
521
39k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
330
21k
Transcript
早稲田大学 森島繁生研究室 D5 綱島秀樹 アプリケーションから知るモデルマージ
自己紹介 2 綱島 秀樹 ◆所属 早稲田大学 博士5年-森島繁生研究室 ◆研究テーマ 修士課程:深層画像生成モデルの計算量・パラメータ削減 博士課程1年:複数物体を対象とした教師無し前景背景分解
博士課程2年:Embodied AI関連 博士課程3年〜:常識獲得,系統的汎化 産総研(元):服と人のペアデータを必要としない仮想試着 ◆趣味 筋トレ,アメフト,読書,音楽ゲーム,FPS, ゴルフ,飲酒,麻雀,ビリヤード,写真,etc...
モデルマージとは?
モデルマージ 4 [1] Yang et al., “Model Merging in LLMs,
MLLMs, and Beyond: Methods, Theories, Applications and Opportunities”, arXiv preprint, 2024. モデルマージとは誤解を恐れずに言えば,ニューラルネットワークをがっちゃんこ※して 複数モデルの能力を発現させる技術 ※ 厳密にはニューラルネットワークの重み(パラメータ)を足し合わせる モデルマージ概念図 [1]
モデルマージのアプリケーション例 5 ⚫ テキストからの音声合成のモデルマージ ⚫ 画像生成のモデルマージ
モデルマージのアプリケーション例 6 [1] 凛音エルちゃん比較用(オリジナル), “https://www.youtube.com/watch?v=cgEWYx3A-oU”, 2024年10月18日閲覧. [2] 凛音エルちゃん差分マージ囁き1, “https://www.youtube.com/watch?v=MtnkiyS2vro&t=18s”, 2024年10月18日閲覧.
⚫ テキストからの音声合成のモデルマージ Aさんが普通に喋っているモデル + (Bさんが囁いているモデル – Bさんが普通に喋っているモデル) = Aさんが囁いているモデル Aさんが普通に喋っているモデル [1] モデルマージ後のAさんが囁いているモデル [2]
モデルマージのアプリケーション例 7 ⚫ 画像生成のモデルマージ 日本語特化の画像生成モデル(低品質) + 英語をベースとした画像生成モデル(高品質) = 高品質な日本語特化の画像生成モデル 高品質な日本語特化の画像生成モデル
+ 高速な処理が可能な英語をベースとした画像生成モデル = 高品質な日本語特化で高速な処理が可能な画像生成モデル プロンプトは「ラーメン、浮世絵、葛飾北斎」,「折り紙弁当」,「(下町ロケット,東京サラリーマン),浮世絵」, 「可愛いゾウの編みぐるみ」などで高品質な日本語特化で高速な処理が可能な画像生成モデルで生成した画像 [1] [1] 画像生成モデルへの進化的モデルマージの適用 日本語対応した高速な画像生成モデルを教育目的で公開, “https://sakana.ai/evosdxl-jp/”, 2024年10月18日閲覧.
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 8
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 9
モデルマージでできること 10 ⚫ 複数モデルの能力の統合 ⚫ ベクトル演算のようなことを重み空間で可能にする ⚫ 能力の削除 ⚫ 攻撃
⚫ 汎化性能向上 ⚫ 破滅的忘却の抑制 ⚫ 連合学習への適応
モデルマージでできること 11 [1] Wolfe, “Model Merging: A Survey”, “https://cameronrwolfe.substack.com/p/model-merging”, 2024年10月18日閲覧.
[2] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023. [3] Yang et al., “Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities”, arXiv preprint, 2024. ⚫ 複数モデルの能力の統合 [1, 2, 3] ➢ 同モダリティでの能力統合(例:英語に強いLLM + 数学に強いLLM) ➢ 目的関数が違うモデルの能力統合(例:解決能力特化LLM + 安全性特化LLM) ➢ LoRAのマージ(例:Llamaを日本語でLoRA FTとLlamaを数学でLoRA FTのLoRA部分) ➢ 副次的にレイテンシを減らせる(アンサンブルする必要がない)
モデルマージでできること 12 ⚫ ベクトル演算のようなことを重み空間で可能にする(タスク算術;Task Arithmetic) Aさんが普通に喋っているモデル + (Bさんが囁いているモデル – Bさんが普通に喋っているモデル)
= Aさんが囁いているモデル タスク算術概念図 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.
モデルマージでできること 13 ⚫ 能力の削除 ➢ 解毒;Detoxification(例:トキシックな発言(例:人種差別)をするLLMから毒性除去) 毒性モデルA - (毒性モデルB –
良性モデルB) = 良性モデルA(毒性ベクトルの減算) ➢ 学習棄却;Unlearning(例:個人情報をペラペラ喋るLLMから個人情報を取り除く) 個人情報モリモリモデルA - (個人情報モリモリモデルB – 良性モデルB)= 良性モデルA ⚫ 攻撃:モデルプール(マージするモデル群)に毒性モデルを混ぜることで,良性モデルを汚染可能 良性モデルA + 毒性モデルB(攻撃モデル) + 良性モデルC = 毒性モデルD ⚫ 汎化性能向上:訓練チェックポイントをいくつかマージすることで汎化性能が上昇 モデルA(10,000 iter)+ モデルB(50,000 iter)+ モデルC(500,000 iter)= モデルD ⚫ 破滅的忘却の抑制:事前学習モデルとfine-tunedモデルをマージして破滅的忘却を抑制 事前学習モデル + fine-tunedモデル = 事前学習内容も保持したfine-tunedモデル
モデルマージでできること 14 ⚫ 連合学習への適応:学習データ量に応じた重み付けなどでマージする 0.2 x モデルA + 0.5 x
モデルB + 0.3 x モデルC = UpdatedモデルD 中央集約型連合学習と分散連合学習 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 15
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 16
モデルマージのトレンド 17 ⚫ 応用面 ⚫ 理論面
モデルマージのトレンド 18 ⚫ 応用面 ➢ タスク算術,線型補完,フランケンマージ(パススルーマージ)
モデルマージのトレンド 19 ⚫ 応用面 ➢ タスク算術,線型補完,フランケンマージ(パススルーマージ) 進化的モデルマージ※ [1] ※ フランケンマージはレイヤーががちゃんがちゃん結合するので,わかりやすい概念として紹介
[1] 進化的アルゴリズムによる基盤モデルの構築, “https://sakana.ai/evolutionary-model-merge-jp/”, 2024年10月29日閲覧.
モデルマージのトレンド 20 ⚫ 応用面 ➢ タスク算術,線型補完,フランケンマージ(パススルーマージ) ➢ mergekit [1] を使った手軽なマージ(言語モデルのマージ)
ただ,手軽ゆえにマージモデルが乱立している,,, [1] mergekit, “https://github.com/arcee-ai/mergekit”.
モデルマージのトレンド 21 ⚫ 理論面 ➢ モード接続性(最頻値接続性※) ※ 綱島の造語.おそらく日本語に直すとこうなる 簡単に言うと,2つのモデルの重みを補完するパスの中に,テスト誤差が一定になる領域が存在し ていること
その中でも以下の3点がメジャー 線形接続性 非線形接続性 重みアライメント (例:Re-basin) モード接続性の概念図 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.
モデルマージのトレンド 22 ⚫ 理論面 ➢ モード接続性(最頻値接続性※) ※ 綱島の造語.おそらく日本語に直すとこうなる 簡単に言うと,2つのモデルの重みを補完するパスの中に,テスト誤差が一定になる領域が存在し ていること
その中でも以下の3点がメジャー 線形接続性 非線形接続性 重みアライメント (例:Re-basin) 重みアライメントの概念図 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.
モデルマージのトレンド 23 ⚫ 理論面 ➢ モード接続性(最頻値接続性) ➢ スパース性解析 巨大でよく学習されているモデルは,パラメータがスパース(疎,まばら)になっており, マージが機能しやすいとも言われている
それゆえ,スパース性について解析することがモデルマージを解き明かすことの一つと なり得る可能性がある ちなみに余談ですが,幼児も急激に脳内のニューロンが増加した後に,段々とニューロン数 が減少していきます(ニューラルネットの剪定(pruning)と同等の処理が起きている)[1] [1] 山口真美, 金沢創. 乳幼児心理学〔改訂版〕 (放送大学教材), 放送大学教育振興会, 2016.
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 24
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 25
モデルマージが弱いこと 26 ⚫ スクラッチからの学習では基本的に適用できない 事前学習モデルからではなく,スクラッチで学習したモデル同士だとモード接続性がなく, マージが機能しない ⚫ アーキテクチャが異なるマージは基本的にできない 一応,アーキテクチャを同一のモデルに変換(同一のモデルで答えが元のモデルに一致するように 蒸留という学習をする)する方法もあるが,学習コストがそもそも高いモデルには適用が困難
モデルマージの非自明なこと 27 ⚫ アーキテクチャが異なるマルチモーダルLLM(MLLM)などのマージ ⚫ 入力空間が異なるマージ(例:ハイパースペクトルカメラのデータが入力) ⚫ 別モダリティでの能力統合(例:音のモデルと画像のモデルのマージ)
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 28
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 29
モデルマージはいつから? 30 モデルを統合して処理をするという観点では,アンサンブル・連合学習・蒸留など古くから 議論がされてきた ただ,近年のモデルの重みを足し合わせるという考え方はある論文からブームが始まっている モデルスープ
モデルマージはいつから? 31 ⚫ モデルスープ 事前学習済みモデルから複数のハイパラでモデルを学習させ,一様にマージすると分布シフトに 頑健になり,正解率がある閾値以上のモデルのみ貪欲にマージさせるとさらにいい精度に モデルスープの結果一覧 [1] [1] M.
Wortsman et al., “Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time”, ICML, 2022.
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 32
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 33
モデルマージの長所短所 34 ⚫ 長所 ✓ 複数モデルの能力の統合 ✓ ベクトル演算のようなことを重み空間で可能にする ✓ 能力の削除
✓ 攻撃 ✓ 汎化性能向上 ✓ 破滅的忘却の抑制 ✓ 連合学習への適応 ⚫ 短所 スクラッチからの学習では基本的に適用できない アーキテクチャが異なるマージが基本的にはできない
モデルマージの今後の展望 35 ⚫ アーキテクチャが異なるマルチモーダルLLM(MLLM)などのマージ ⚫ 入力空間が異なる時のマージ(ハイパースペクトルカメラの入力など) ⚫ 理論的解析 ⚫ 単にタスク算術と線型補完などでは,LLM
+ RAGのように人間が局所解に陥ってしまうので, 非自明な点についてを扱う問題に取り組む必要あり