Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
研究室紹介用スライド: Unified Memoryを活⽤した効率的な計算⽅法を考えよう
Search
SuperHotDog
January 09, 2025
0
81
研究室紹介用スライド: Unified Memoryを活⽤した効率的な計算⽅法を考えよう
SuperHotDog
January 09, 2025
Tweet
Share
More Decks by SuperHotDog
See All by SuperHotDog
post-training
superhotdogcat
3
540
大規模モデル計算の裏に潜む 並列分散処理について
superhotdogcat
1
40
オンプレソロプレイ
superhotdogcat
0
72
CUDAを触ろう
superhotdogcat
0
97
GemmaでRAG を作ろう
superhotdogcat
1
510
Featured
See All Featured
Gamification - CAS2011
davidbonilla
81
5.2k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
19
1.2k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
31
1.2k
The World Runs on Bad Software
bkeepers
PRO
68
11k
Large-scale JavaScript Application Architecture
addyosmani
512
110k
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.7k
Building a Modern Day E-commerce SEO Strategy
aleyda
40
7.2k
Why You Should Never Use an ORM
jnunemaker
PRO
56
9.3k
Designing for Performance
lara
608
69k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
[RailsConf 2023] Rails as a piece of cake
palkan
54
5.5k
Reflections from 52 weeks, 52 projects
jeffersonlam
349
20k
Transcript
Unified Memoryを活⽤した効 率的な計算⽅法を考えよう SuperHotDogCat
宣伝: GB10 NVIDIA Project DIGITS(3000$)
親の顔より⾒たエラー
何故起きるのか ・GPUメモリが⾜り ない →複数枚積めばいい のか?
パラメーター数遷移 • AI Modelのパラメー ターは指数関数的に増 加中
VRAMは? ・V100 32GB(2017) ・A100 80GB(2020) ・H100 80GB(2022) ・H200 141GB(2024) ・B200
180GB/192GB(2024) ・1B Model → float32で4GB, fullでの訓練はAdam Optimizerで 16倍ぐらいになるので64GB必要 ・100B Modelで6.4TBのGPU必要 ・1T Modelだと640TB, 苦しい
省メモリへのアプローチ ・量⼦化(1/2~1/4倍削減), 枝刈り(1/2倍削減程度)←精度劣化が 避けられない, 枝刈りは推論のみでしか使えない(Edgeデバイス では依然として重要) ・アルゴリズム的な削減 ・再計算(Gradient Checkpointing) ・Flash
attention ↑厳密計算かつメモリ削減でGood ・複数台に分散 ・Megatron-LM, Deepspeedなどが開発ではよく使われる
Heterogenious Memory ・GPUだけではなくCPUも使おう ・GH200 ・CPUとGPUのPage tableが共通 ・GPUメモリをCPUのように使⽤ ・最⼤でGPU+CPUの96+480GBが使 える ・買うGPUの枚数が少なくて済む
問題点 ・ソフトウェア上はGPUとCPUのメモリが同じように使える ・物理メモリ的にどこに割り当てられているかで速度低下などが 起きる←速度向上のためにGPUを使うのだから本末転倒 ・頑張って両⽴する
宣伝: GB10 NVIDIA Project DIGITS(3000$)