Upgrade to Pro — share decks privately, control downloads, hide ads and more …

KubeCon + CloudNativeCon Europe 2025 Recap: The...

KubeCon + CloudNativeCon Europe 2025 Recap: The GPUs on the Bus Go 'Round and 'Round / Kubernetes Meetup Tokyo #70

Kubernetes Meetup Tokyo #70 での発表資料です。KubeCon + CloudNativeCon Europ 2025 でのセッション "The GPUs on the Bus Go 'Round and 'Round" を recap しつつ、関連するコミュニティの動向や PFN での事例を紹介します。

Avatar for Preferred Networks

Preferred Networks

May 19, 2025
Tweet

More Decks by Preferred Networks

Other Decks in Technology

Transcript

  1. KubeCon + CloudNativeCon Europe 2025 Recap The GPUs on the

    Bus Go ‘Round and ‘Round Hidehito Yabuuchi, Preferred Networks, Inc. 2025-05-20 Kubernetes Meetup Tokyo #70
  2. 2 • 薮内 秀仁 (YABUUCHI Hidehito) • Preferred Networks, Inc.

    (PFN) • 機械学習プラットフォーム ◦ https://pfcomputing.com/ (PFCP) ◦ スケジューラ ◦ コンテナレジストリ ◦ ユーザ向けサービス、etc. • 社内 CI/CD プラットフォーム 自己紹介
  3. 3 • The GPUs on the Bus Go ‘Round and

    ‘Round - Natalie Bandel & Ryan Hallisey, NVIDIA ◦ NVIDIA のクラスタでの GPU 故障検知や復旧の話 ▪ 30,000+ ノードの規模でクラウドゲーミングが稼働 ◦ https://sched.co/1tx7H, https://youtu.be/cLJRh4y4vXg • 取り上げる理由 ◦ PFN でもクラスタを運用しており、デバイス管理に取り組んでいる ◦ 似ている点・違う点を知り、よりよい解決策を考えたい 取り上げるセッション
  4. 5 • 故障検知 • ノード障害を検知する DaemonSet ◦ Node conditions, Event

    に報告 • 検知ルールがカスタムできる ◦ PFN での例 ▪ GPU が nvidia-smi で見えない ▪ PCIe リンクがデグレード
  5. 6 復旧 • Reboot is a legit solution • しかし...

    ◦ ノードの全デバイス、Pod に影響 ▪ 計算途中の状態が失われる ▪ 分散学習だとより影響大 ◦ 時間がかかる ▪ ノードの drain など 📝 影響を小さくするには KEP-5055 “DRA: device taints and tolerations” が役立ちそう
  6. 8 • Discovery of remediation loops ◦ ノードが短時間で何度もリブートしているとアラート ▪ 無用なリブートによるワークロードの中断を防ぐ

    • More efficient draining ◦ 停止しやすいワークロードだけがあるノードを優先 ▪ Pre-warmed sessions 復旧プロセスの改善
  7. 9 • If 1 of 8 GPUs failed, do we

    reboot the node? ◦ KEP-5055 “DRA: device taints and tolerations” が役立つ場面 ◦ 2 つ壊れたら? 3 つは? • If there is a problematic GPU that is restarted every few days, should the scheduler try to avoid this node? ◦ あやしいデバイスにどう対処するか ◦ 📝 監視で見つけて返品保証を依頼するのがいい。見つけられるよう にするのが大事 さらなる改善へ
  8. 10 • node-problem-detector などでノード障害を検知 • Node Operation Controller で自動復旧 ◦

    同時にアラートを発し、復旧しなかったらマニュアル対処 • OSS のツールも試したり、構成を見直したりし始めている PFN での取り組み ノード node-problem- detector Node Operation Controller Conditions 更新 • Conditions 監視 • Taint, drain • リブートなど
  9. 11 • IBM のクラスタ運用についての発表 ◦ Cluster Management for Large Scale

    AI and GPUs: Challenges and Opportunities - Claudia Misale & David Grove, IBM ◦ https://sched.co/1u5fr • OSS ◦ https://github.com/medik8s ◦ https://github.com/kubereboot/kured ◦ https://github.com/planetlabs/draino ◦ https://github.com/cloudflare/sciuro ◦ https://github.com/NVIDIA/pika ◦ ... みんな似たような課題をもっている
  10. 12 • kubernetes/community#8396 • goal of this working group is

    to develop unified APIs that the entire ecosystem can depend on • 📝 期待!貢献や Node Operation Controller での連携を考えたい コミュニティでの動き
  11. 13 • The GPUs on the Bus Go ‘Round and

    ‘Round - Natalie Bandel & Ryan Hallisey, NVIDIA を紹介 ◦ Kubernetes クラスタでのデバイス故障検知や復旧にどう取り組ん でいるかの話 ◦ node-problem-detector などで検知し、かしこく復旧をスケ ジュールすることでワークロードの中断を小さく • 各組織がそれぞれ取り組んでいる ◦ Node Lifecycle WG で統一 API をつくりエコシステムをまとめる まとめ
  12. 14 • We’re hiring! ◦ 機械学習プラットフォームエンジニア ◦ ストレージエンジニア ◦ 大規模計算基盤エンジニア

    • KubeCon Japan で発表します ◦ New Cache Hierarchy for Container Images and OCI Artifact in Kubernetes Clusters Using Containerd - Toru Komatsu & Hidehito Yabuuchi, Preferred Networks, Inc. ◦ BGP Peering Patterns for Kubernetes Networking at Preferred Networks - Sho Shimizu, Preferred Networks, Inc. & Yutaro Hayakawa, Isovalent at Cisco お知らせ カジュアル面談もお気軽に!