Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
GPU NW BoF / JANOG 55
Search
Preferred Networks
PRO
January 23, 2025
Technology
1
140
GPU NW BoF / JANOG 55
JANOG 55 の GPU NW BoF (2025/1/24) でのPreferred Networksのスライドです。
Preferred Networks
PRO
January 23, 2025
Tweet
Share
More Decks by Preferred Networks
See All by Preferred Networks
Kubernetes における cgroup v2 でのOut-Of-Memory 問題の解決
pfn
PRO
0
470
Preferred Networks (PFN) とLLM Post-Training チームの紹介 / 第4回 関東Kaggler会 スポンサーセッション
pfn
PRO
1
340
AIベンダーにおけるAIセキュリティ・ガバナンスへの取組
pfn
PRO
1
98
オフィス環境及び機械学習向けKubernetesクラスタでのAkamai SIA(DNS ファイアウォール)活用事例
pfn
PRO
0
100
Deploying PLaMo 2 with vLLM: A Practical Guide / vLLM roundup Community Meetup Tokyo
pfn
PRO
1
470
New Cache Hierarchy for Container Images and OCI Artifacts in Kubernetes Clusters using Containerd / KubeCon + CloudNativeCon Japan
pfn
PRO
0
290
Preferred Networks金融チームのご紹介
pfn
PRO
4
2k
KubeCon + CloudNativeCon Europe 2025 Recap: The GPUs on the Bus Go 'Round and 'Round / Kubernetes Meetup Tokyo #70
pfn
PRO
0
310
LLMの開発と社会実装の今と未来 / AI Builders' Community (ABC) vol.2
pfn
PRO
3
740
Other Decks in Technology
See All in Technology
AWSを利用する上で知っておきたい名前解決のはなし(10分版)
nagisa53
9
2.7k
AI駆動開発に向けた新しいエンジニアマインドセット
kazue
0
300
エラーとアクセシビリティ
schktjm
0
1.1k
シークレット管理だけじゃない!HashiCorp Vault でデータ暗号化をしよう / Beyond Secret Management! Let's Encrypt Data with HashiCorp Vault
nnstt1
3
230
MCPで変わる Amebaデザインシステム「Spindle」の開発
spindle
PRO
3
3.1k
Language Update: Java
skrb
2
280
バイブスに「型」を!Kent Beckに学ぶ、AI時代のテスト駆動開発
amixedcolor
2
390
Firestore → Spanner 移行 を成功させた段階的移行プロセス
athug
1
360
複数サービスを支えるマルチテナント型Batch MLプラットフォーム
lycorptech_jp
PRO
0
230
20250903_1つのAWSアカウントに複数システムがある環境におけるアクセス制御をABACで実現.pdf
yhana
3
490
Agile PBL at New Grads Trainings
kawaguti
PRO
1
340
下手な強制、ダメ!絶対! 「ガードレール」を「檻」にさせない"ガバナンス"の取り方とは?
tsukaman
2
390
Featured
See All Featured
Why You Should Never Use an ORM
jnunemaker
PRO
59
9.5k
The Power of CSS Pseudo Elements
geoffreycrofte
77
5.9k
Building Better People: How to give real-time feedback that sticks.
wjessup
368
19k
YesSQL, Process and Tooling at Scale
rocio
173
14k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
1.9k
Building a Modern Day E-commerce SEO Strategy
aleyda
43
7.5k
Music & Morning Musume
bryan
46
6.8k
The Cult of Friendly URLs
andyhume
79
6.6k
Side Projects
sachag
455
43k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
15
1.6k
Optimising Largest Contentful Paint
csswizardry
37
3.4k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
910
Transcript
GPU NW BoF JANOG 55 (2025/1/24) Sho Shimizu, Preferred Networks,
Inc.
2 はじめに • GPU クラスタのネットワークは最近のホットトピックの1つ • 携わる機会が限られ、議論や情報交換をする場も少ない GPU クラスタに関わる人で議論や情報交換を行いたい
3 • Kernel bypass する GPU 間通信ではマルチテナンシーの課題がある ◦ NIC での何らかの機能サポートが不可欠
▪ VLAN Switch Tagging, Open vSwitch hardware offload, etc. LINEヤフーさんの NVIDIA AI Summit での発表 • マルチテナンシーを可能にする設計として Open vSwitch を使った構成 • 性能を追求するための Mellanox NIC による hardware offload GPU 間通信とマルチテナンシー
4 • GPUクラスタでのマルチテナンシー ◦ 検討している?していない? • 技術としての OVS hardware offload
◦ どのくらいの人が実際に使っているか ◦ どのような使い方をしているか ◦ 利用するときの注意点や課題 とっかかりのトピック