Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Cycloud ML Platform: Hardware and Infrastructur...
Search
Daisuke Takahashi
June 21, 2023
Technology
0
850
Cycloud ML Platform: Hardware and Infrastructure Update 2023
CIU Tech Meetup #1での発表スライドです。
一部のページやコンテンツをカットし、Q&Aを追加した一般公開版です。
Daisuke Takahashi
June 21, 2023
Tweet
Share
More Decks by Daisuke Takahashi
See All by Daisuke Takahashi
KubernetesベースのGPU as a Service Platform ~サイバーエージェントにおけるGPU活用の取り組み~ [INSIGHT Japan 2022 Digital]
extendwings
1
830
Kubernetes-based GPU as a Service Platform at CyberAgent [INSIGHT 2021 Digital]
extendwings
0
57
Device Plugin開発入門
extendwings
0
2k
Kubernetes-based GPU as a Service Platform by using Open Source Software [GTC 2020]
extendwings
0
2.6k
マルチクラスタ向けLoadBalancer・Ingressによるクラスタ移行 / Migrating between Clusters with MCLB and MCI
extendwings
0
760
Other Decks in Technology
See All in Technology
re:Invent をおうちで楽しんでみた ~CloudWatch のオブザーバビリティ機能がスゴい!/ Enjoyed AWS re:Invent from Home and CloudWatch Observability Feature is Amazing!
yuj1osm
0
130
どちらを使う?GitHub or Azure DevOps Ver. 24H2
kkamegawa
0
830
MLOps の現場から
asei
6
650
20241214_WACATE2024冬_テスト設計技法をチョット俯瞰してみよう
kzsuzuki
3
520
How to be an AWS Community Builder | 君もAWS Community Builderになろう!〜2024 冬 CB募集直前対策編?!〜
coosuke
PRO
2
2.8k
小学3年生夏休みの自由研究「夏休みに Copilot で遊んでみた」
taichinakamura
0
160
サービスでLLMを採用したばっかりに振り回され続けたこの一年のあれやこれや
segavvy
2
480
スタートアップで取り組んでいるAzureとMicrosoft 365のセキュリティ対策/How to Improve Azure and Microsoft 365 Security at Startup
yuj1osm
0
220
2024年にチャレンジしたことを振り返るぞ
mitchan
0
140
新機能VPCリソースエンドポイント機能検証から得られた考察
duelist2020jp
0
220
Snykで始めるセキュリティ担当者とSREと開発者が楽になる脆弱性対応 / Getting started with Snyk Vulnerability Response
yamaguchitk333
2
190
第3回Snowflake女子会_LT登壇資料(合成データ)_Taro_CCCMK
tarotaro0129
0
190
Featured
See All Featured
For a Future-Friendly Web
brad_frost
175
9.4k
Visualization
eitanlees
146
15k
Code Reviewing Like a Champion
maltzj
520
39k
Thoughts on Productivity
jonyablonski
67
4.4k
Navigating Team Friction
lara
183
15k
Mobile First: as difficult as doing things right
swwweet
222
9k
How to train your dragon (web standard)
notwaldorf
88
5.7k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
169
50k
Designing for Performance
lara
604
68k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
32
2.7k
Keith and Marios Guide to Fast Websites
keithpitt
410
22k
A Tale of Four Properties
chriscoyier
157
23k
Transcript
Cycloud ML Platform: Hardware and Infrastructure Update 2023 Accelerated Computing
SIG Daisuke Takahashi
Profile: Daisuke Takahashi • Twitter: @yaemonsan, GitHub: @shield-9 • MSFS2020:
1000+ hrs (Loves B748) • Work at: CIU (CyberAgent group Infrastructure Unit), CyberAgent, Inc. ◦ 2019年新卒入社 Infrastructure Engineer ◦ AI Div.と兼務 • In charge of: ◦ 変わり種の物理全般 (企画~運用) ▪ AI / ML, 3DCG Rendering, etc. ◦ Solution Architect ▪ 主にAI Div.のサービス・プロダクトの担当
おしらせ • スライドの完成度についてはご容赦ください ◦ ほぼ1晩で作った資料です🥱 • Google SlidesのQ&A機能を有効にしています ◦ ご質問があれば、いつでもどうぞ
(匿名OK) ◦ 随時 or セッションの最後に回答します •
最近、CAから 様々な発表をしました ↖このプレスリリース、 ご覧いただけましたか?
システム概要 • GPUaaS: GPUコンテナ / Jupyter Notebook • AI Platform:
GCP互換のML基盤+分散学習 機械学習環境 GPU環境 AFF A800 Prediction Distributed DGX A100 H100 / A100 / A2 / T4 Training GPUaaS(Kubernetes + Web UI) ※詳しくは岩井のセッションでご紹介しています (多分)
ハードウェア概要 (2023-06) 25 GbE 400 GbE Storage NetApp AFF A800
Compute NVIDIA DGX Systems Dell PowerEdge Servers Interconnect Mellanox SN4700 A2, T4, A100 SXM4 40GB/80GB, H100 SXM5 80GB (80基) ※記載された数字は構築中を含みます ※画像は必ずしも実際の台数や製品を表しません
GPU基盤 HW・インフラの歴史
v1: GPUコンテナ • 複数の研究者が持つGPU資源の⼀元管理を実現 ◦ 原則、各⾃が1ホストを占有 v2: GPUコンテナ + Jupyter
Notebook • 研究者向けにマネージドなNotebook環境を提供 • v1同様のGPUコンテナ単体も選択可能 v3: GPUコンテナ + Jupyter Notebook + AI Platform • 研究者に加え、開発者向けにもv2と同等機能を提供 • GPUaaS上で動作するAI Platform (GCP互換のML基盤) を開発‧ホスティング v3.x: GPUコンテナ + Jupyter Notebook + AI Platform + 分散学習 • LLMなど⼤規模モデルの研究者向けに分散学習環境を提供 GPUaaSの歴史
GPUaaS v1 GPU資源の運⽤の効率化 • 研究者が個別に利⽤していたワークステーションを⼀元管理 ◦ 各利⽤者に1ホスト (ノード) 単位で提供 •
オフィス内のサーバールーム (という名前のMDF室) に設置 ◦ 空冷‧1~2kVA/ラック‧100V (業務⽤エアコンのみ) ◦ GPU: 20x NVIDIA GeForce GTX 1080Ti 11GB (220GB) 再現が容易な環境 • コンテナ型仮想化によって実験環境を容易に再構築可能 • 社内でマネージド基盤の運⽤実績があるKubernetesを導⼊ ◦ Kubernetes APIへの直接アクセスを利⽤者に提供
GPUaaS v2 GPUaaS v1の後継 • GPU資源などはv1から移⾏ ◦ 空冷‧1~2kVA/ラック‧100V (業務⽤エアコンのみ) •
ホスト占有から共同利⽤へ変更 (マルチテナント) NEW: 学習データ⽤共有ストレージ • クラスタ内の各コンテナから同⼀データを参照可能 • Kubernetes上にSoftware-defined Storageを構築 ◦ Rook (Ceph) によるNFSストレージ ◦ SATA SSD 48TB分 NEW: マネージドな学習環境 • Kubernetesを意識させずにJupyter Notebookを提供 • 他のコンテナイメージも利⽤可能
v2の運⽤上の課題 設置環境 • オフィスへの⾼電⼒機器の設置は想定外 ◦ 限られた電⼒供給と冷却性能 ◦ 法定停電 • データセンターとの接続品質
◦ Site-to-site VPNのみ ◦ ⾮冗⻑な回線構成 → プライベートクラウド⽤のDC (東京都内) に設置 マシンの管理 • リモート管理機能 (IPMI/BMC) の⽋如 ◦ 些細な作業でも現地での運⽤が必要 ◦ COVID-19によるオフィスの制限 → GPUaaS⽤のサーバーを新規調達 (IPMI搭載) 性能 • GPUメモリの不⾜ ◦ ML向けではないGeForceシリーズ • 経年による陳腐化 ◦ 新世代のCPUやGPUの登場 ◦ ハードウェア故障の頻度上昇 → 容量のメモリを持つデータセンター向けGPUを選択 好評を受けて、サービスの開発者から本番環境としての要望が届いていた 求められる品質の達成には、ソフトウェアだけでなく、ハード⾯の取り組みが不可⽋
ストレージの制約 (ハードウェアの仕様) • ラックの占有スペースに対して、容量効率が低い → ⼤容量ディスクやディスク搭載数の多い筐体の導⼊ • A100 GPUの性能に対して、アクセス速度の不⾜ →
ディスク性能とネットワーク性能の改善 ストレージ運⽤からの解放 • Rook (Ceph) は既存資源を活⽤するGPUaaS v2の⽅針にマッチしていたため選定 ◦ ストレージ⾃体が⽬的ではないため、SDSへのモチベーションが⾼くない • → SDSよりも、アプライアンスを検討 追加の機能 • GPUaaSの内部メタデータ⽤のブロックアクセス • GPUaaSのログ‧メトリクス⽤のオブジェクトアクセス v2のストレージの課題
GPUaaS v3: サーバー GPUハードウェアを刷新 • NVIDIA DGX A100を採⽤ ◦ GPU:
8x NVIDIA A100 40GB ▪ V100 GPUの20倍の性能‧内部接続600Gbps • 「DGX-Ready」対応データセンターへ設置 ◦ 空冷‧4~6kVA/ラック‧200V (床吹き出し⽅式) ◦ 電⼒や冷却能⼒、搬⼊経路などが安⼼ • その他のラインナップ ◦ NVIDIA A100 80GB (HGX 500W仕様) ◦ NVIDIA T4 16GB ◦ NVIDIA A2 16GB
学習データ⽤共有ストレージを刷新 • NetApp AFF A800を採⽤ ◦ NVMe SSD (All-flash) ▪
スケールアウト‧スケールアップが可能: • 空きベイへのディスク追加 • ディスクシェルフ追加 • コントローラー追加 ◦ マルチプロトコルでのアクセスに対応 ▪ File (NFS, SMB), Block (iSCSIなど), Object (S3) ◦ Kubernetesとの連携 (CSI) を最重要視 • 「NVIDIA DGX POD」を意識して選定 ◦ DGXシステムとストレージのscalableな参考構 成 ◦ NetAppからはONTAP AIとして発表 GPUaaS v3: ストレージ * Photo of the evaluation system. Some configurations differ.
GPUaaS v3.x: NVIDIA H100 GPUラインナップを追加 • NVIDIA DGX/HGX H100を採⽤ ◦
GPU: 8x NVIDIA H100 GPU (合計80GPU) ▪ A100 GPUの7倍の性能‧内部接続900GB/s ▪ Transformer Engine, DPX Instruction, etc. ◦ 消費電⼒: 約2000W (無負荷)~約8000W (GPU 100%) ▪ 定格11.3kW ▪ 電源不⾜時のPower Brakeは-75%程度 イベント初公開情報 (redacted) (redacted) (redacted)
GPUaaS v3.x: その他 キャパシティの⼤幅向上 • 丸ごと都内の新データセンターに移設 ◦ リアドア空調‧15~35kVA/ラック‧200V (RDHx) ▪
増加し続けるGPUの消費電⼒への対応の選択肢の1つとして、将来的なDLCの導⼊も? ◦ 最⼤で100~200ラック規模にスケール可能 ▪ 基盤モデルなどはH100 GPUを⾼い並列数で利⽤する⼀⽅、過半数の⽤途では過剰スペック ▪ 既存のA100 GPUなども継続的に増設 • GPUの増設に合わせてストレージも増設 ◦ ディスクとディスクシェルフを追加 ◦ 約3年で約3倍へ ▪ NFS over RDMA / GPUDirect Storageなどの対応はニーズを調査中 ▪ Kubernetes CSI Driverとの相性なども情報収集 400GbE RoCEv2によるインターコネクト • 基盤モデルをマルチノードで学習 ◦ ネットワーク⾃体: 内⽥さんのセッションにて詳しくご紹介 (多分) ◦ Kubernetes関連: 漆⽥さんがCyberAgent Developer Conference 2023にて詳しくご紹介 (予定)
ハードウェア概要 (2023-06) [再掲] 25 GbE 400 GbE Storage NetApp AFF
A800 Compute NVIDIA DGX Systems Dell PowerEdge Servers Interconnect Mellanox SN4700 A2, T4, A100 SXM4 40GB/80GB, H100 SXM5 80GB (80基) ※記載された数字は構築中を含みます ※画像は必ずしも実際の台数や製品を表しません
この後もCIU Tech Meetupをお楽しみください 懇親会では… • プロジェクトのより細かい話 ◦ DC選定とか? ◦ DGX
H100とか? • インフラ的な未来の話 (構想 & 妄想) ◦ Hopper-nextとか? ◦ 今後ぶつかりそうな課題とか? ▪ などなど 会場のどこかで展⽰ (予定) • 400G NIC‧トランシーバー • 800Gトランシーバー 400Gネットワークの話 • 内⽥さんのセッションでご紹介 (多分)
当⽇&後⽇頂いた質問 (抜粋) 1. サーバーやストレージの帯域 ◦ サーバーからDCネットワークへの接続は25GbEx2 ◦ ストレージは25GbEx8 ▪ プロトコルに応じて物理IFを使い分け
2. ストレージの選定 ◦ DGX PODの認定ストレージを中⼼に、まずはCSI Driverの機能表を⾒て候補をリストアップ ◦ その後、検証機やシミュレーターで機器性能やCSI Driverの完成度を中⼼に評価 ◦ CSI Driverのインストール⼿順が独特 (専⽤のシェルスクリプトの実⾏が必要など) だったり、サポート体制が不⼗ 分という理由で1社しか残らなかった ▪ K8s向けストレージでの競争を期待しており、CSI Driverに起因して不採⽤となっている製品に対しては、そ のストレージがK8sから使⽤しやすいものとなるよう、継続的なフィードバックを実施中 3. H100サーバーの内部的なレイテンシ ◦ Hostpingのような研究があることは承知している ◦ 本基盤では機器導⼊前にトポロジ図などを確認することで評価した ▪ HGX H100出荷前に判断する必要があったため、実測という選択肢がなかった 4. ConnectX-7の仕様 (ConnectX-7 / OSFP-RHS被害者の会) ◦ OSFP-RHSという特殊な形状のトランシーバーが必要 ▪ 知らずにサードパーティー製品のOSFPトランシーバーを購⼊してしまった ▪ サードパーティーと連携して、OSFP-RHSトランシーバーの評価を実施予定 ◦ 複数の不具合が⾒つかっており、FWを最新まで更新することで多くが解消される ▪ すべて解消されるわけではないので、パートナーと密に会話をしていく ▪ Ethしか把握できておらず、IBの事情は不明
当⽇&後⽇頂いた質問 (抜粋) 1. 納期リスク ◦ 全体的にリードタイムが⻑期化している点で、⼊⼿性が課題 ◦ 発注の可能性や、導⼊のインパクトなどをこまめにシェアすることでパートナーの協⼒を得やすいと考えている 2. GPUサーバーの運⽤
◦ 重量が100kgを超えるため、電動リフターを利⽤している。決して、⼿で持ち上げるとか考えてはいけない ◦ リアドア空調⽅式によって部屋の温度を24度に保っている ▪ リアドアを開放した場合、エアが逆流する点が課題。ミキシングアイルキャッピングの弊害と推測される ▪ XE8545は温度制限が厳しく、T ℃ =28がHW上限‧T ℃ =27でアラート対応 (30℃までは耐えてほしい…) 3. 今後の増設 ◦ A100/H100をメインで考えているが、具体的なロードマップは決まっていない (L4も導⼊検討中) ▪ 社内の需要を⾒ながら、数か⽉単位で都度判断していく ▪ 100~200基では「A100/H100が不⾜→T4/A2で妥協」or「T4/A2で⼗分」はヒアリングが必須 ◦ H100の納期が⻑く、増設判断の在り⽅は再考中 ▪ 納期待っている間にHopper Next (TDP 1000Wぐらい?) が…。Interconnectも800Gに…? 4. 将来の話 ◦ Hopper NextやHopper Next Nextにリアドアの性能 (35kW) が追いつかない疑惑 ▪ 重量級のHGXサーバーと液浸冷却のオペレーションはマッチしないと考えている ◦ これから検証するのは⽔冷 (DLC)だが、既に課題も⾒えている ▪ 「メモリやディスクまで冷やせるベンダー vs 冷やせないベンダー」(空調/In-row/リアドアなどを併⽤) ▪ つまり、「設計‧製造コスト vs 空調設備コスト」or「究極の⽔冷 vs ⽔冷へのオフロード」? ◦ 単相200V30Aだと、1ラック12~18回路になってしまい、運⽤がつらい ▪ 三相電源の導⼊も検討していくが、UPS周りなど、⼤掛かりな設備改修はハードルが⾼い