Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIスパコン「さくらONE」の
オブザーバビリティ / Observability for A...

AIスパコン「さくらONE」の
オブザーバビリティ / Observability for AI Supercomputer SAKURAONE

Avatar for Yuuki Tsubouchi (yuuk1)

Yuuki Tsubouchi (yuuk1)

October 26, 2025
Tweet

More Decks by Yuuki Tsubouchi (yuuk1)

Other Decks in Research

Transcript

  1. 来歴 2 2013 2019 2020 2025 ݱࡏ ウェブ オペレーション SRE

    さくら インターネット 研究所 はてな 京都 大 学 大 学院 情報学研究科 博 士 (情報学) 取得 AIOps AI Supercomputer eBPF TSDB
  2.  5 アジェンダ    はじめに さくらONEの オブザーバビリ ティ現状

    オブザーバビリ ティ・ギャップ まとめ  AIスパコンの前提知識
  3. 深層学習モデルの「学習」と「推論」 ֶश ਪ࿦ ΞϓϦέʔγϣϯ "1* σʔληοτ ֶशδϣϒ Ϟσϧͷத਎ʢॏΈͳͲʣΛ࡞Δ޻ఔ ϞσϧΛ࢖ͬͯ౴͑Λฦ͢޻ఔ (16

    (16 (16 (16 (16 (16 ϞσϧαʔϏϯά νϟοτ΍ΤʔδΣϯτͳͲ ֶशࡁΈϞσϧ ॏΈύϥϝʔλͳͲ σϓϩΠ ຊߨԋͷର৅ 1. ͸͡Ίʹ 6
  4. 深層学習の処理の流れ 反復構造をもつ ॱ఻ൖ ޡࠩ ٯ఻ൖ ύϥϝʔλ ߋ৽ ޡࠩࢉग़ ޯ഑ ֶशσʔλ

    ॱ఻ൖ ʜ ֶशσʔλ ΦϓςΟϚΠβ ޡࠩΛখ͘͢͞Δ ύϥϝʔλࢉग़ ΠςϨʔγϣϯ̍ ΠςϨʔγϣϯ̎ --.։ൃͰ͸ֶशδϣϒΛԿճ΋౤ೖͯ͠ࢼ ߦࡨޡ͢ΔͨΊɺδϣϒ࣮ߦΛߴ଎Խ͍ͨ͠ 7 1. ͸͡Ίʹ
  5. 分散深層学習 - データ並列 データを分割する ॱ఻ൖ ٯ఻ൖ ύϥϝʔλ ߋ৽ ॱ఻ൖ ٯ఻ൖ

    ύϥϝʔλ ߋ৽ ॱ఻ൖ ٯ఻ൖ ύϥϝʔλ ߋ৽  "MM3FEVDF ʢ૯࿨ʣ (16 (16 (16 ֤(16ϝϞϦ্ͷܭࢉ݁ՌΛू໿ԋࢉ ͠ɺ֤(16্ͷϝϞϦ΁݁ՌΛ഑෍ ूஂ௨৴ 8 1. ͸͡Ίʹ
  6. 分散深層学習 - モデル並列 モデルを分割する ςϯιϧฒྻ ॱ ߋ৽ ( 1 6

     ٯ ύΠϓϥΠϯฒྻ ॱ ॱ ॱ ٯ ٯ ٯ ߋ৽ ( 1 6  Ϟσϧͷ૚Λ࿈ଓͨ͠εςʔδʹ෼ׂ ૚ ૚ ݸʑͷ૚಺ͷςϯιϧʢߦྻʣΛ෼ׂ ߋ৽ ߋ৽ ॱ ॱ ٯ ٯ ूஂ௨৴ ूஂ௨৴ (16 (16 9 1. ͸͡Ίʹ
  7. AIモデル開発とGPU 1. ͸͡Ίʹ “I love the smell of GPUs melting”

    ˞IUUQTYDPNTBNBTUBUVT    ΑΓҾ༻ʢଠࣈ෦෼͸վมʣ CZ4BN"MUNBO ˞ 'SBOL)FMNT l)PX"*8PSLMPBET4IBQF)BSEXBSF"SDIJUFDUVSFz l5IF)PU$IJQJTB3BDLz "*-JUFSBMMZ%FNBOETXF5IJOL0VUTJEFUIF#PY )PU$IJQTΑΓసࡌ (16Ϋϥελن໛͸ ೥Ͱ͔ΒL (16·Ͱ૿େ 10
  8. さくらONEの構成 ',POJTIJ4",63"0/&&NQPXFSJOH5SBOTQBSFOUBOE0QFO"*1MBUGPSNTUISPVHI1SJWBUF4FDUPS )1$*OWFTUNFOUJO+BQBOBS9JW  13 1. ͸͡Ίʹ ʢ͜ΕҎ֎ͷ͘͞Β0/&Ϋϥελ΋͋Γʣ (16 /PEF

    (16 /PEF (16 /PEF (16 /PEF *OUFSDPOOFDU/FUXPSL 4UPSBHF/FUXPSL 4UPSBHF  OPEFT  $16DPSFT (16T )  /*$T (C& (C& (C& 1#
  9. AIスパコンの利 用 (さくらONEの例) δϣϒ εέδϡʔϥ ʢ4MVSNʣ ϩάΠϯϊʔυ 44) ෼ࢄฒྻ ετϨʔδ

    IPNFҎԼΛ Ϛ΢ϯτ δϣϒ౤ߘ NPVOU NPVOU NPVOU εέδϡʔϥ͕Ϣʔβʔʹࢦఆ͞Εͨܭࢉϊʔυ܊Λ ֬อ͠ɺ֤ϊʔυ্ͰεΫϦϓτΛಉ࣌ىಈ͢Δ TMVSNDUME 1. ͸͡Ίʹ TMVSNE TDSJQU TMVSNE TDSJQU TMVSNE TMVSNE TDSJQU TDSJQU 14
  10. ウェブアプリケーションとの対 比 (処理モデル) ΢ΣϒΞϓϦ ෼ࢄֶश 8PSLFS 8PSLFS 8PSLFS 8PSLFS 8PSLFS

    8PSLFS #SPXTFST -# ܭࢉ ϊʔυ ϓʔϧ %# "QQ "QQ "QQ 4UPSBHF ϦΫΤετϨεϙϯε ঢ়ଶ͸֎෦ ʹӬଓԽ શ(16ϊʔυ͔Β ߴස౓ɾେ༰ྔ*0 ෼ࢄϝϞϦܕฒྻܭࢉ ಠཱͨ͠ଟ਺ͷ୹໋ϑϩʔॲཧ શϊʔυͰ଍ฒΈΛἧ͑Δόονॲཧ 1. ͸͡Ίʹ 15
  11. ウェブアプリケーションとの対 比 (信頼性) 8PSLFS 8PSLFS 8PSLFS 8PSLFS 8PSLFS 8PSLFS #SPXTFST

    ܭࢉ ϊʔυ ϓʔϧ %# "QQ "QQ "QQ 4UPSBHF Մ༻ੑͷॏࢹ νΣοΫϙΠϯτ ఆظอଘɾ෮ݩ தஅޙͷ࠶։ੑΛॏࢹ QQϨΠςϯγ Τϥʔ཰ ओͳ໨తม਺ ओͳ໨తม਺ ֶशɾԋࢉεϧʔϓοτ τϥϯβΫ γϣϯʹΑ Δ"$*%อূ ̍୆ނো Ͱશఀࢭ -# ΢ΣϒΞϓϦ ෼ࢄֶश 1. ͸͡Ίʹ 16
  12. AIスパコンサービスのオブザーバビリティ要求 Ϣʔβʔ ϓϩόΠμʔ ֶशॲཧੑೳ ো֐ɾނো؅ཧ ໨ඪࢦඪ ਂ૚ֶशͷॲཧͷ಺༁ ֶशɾԋࢉεϧʔϓοτ ΞϓϦέʔγϣϯ σόΠε

    ঢ়ଶνΣοΫ ϦιʔεফඅྔɾΤϥʔ ܭࢉࢿݯͷར༻཰ ܭࢉࢿݯͷར༻཰ Ҽࢠ෼ղ ϫʔΫϩʔυ ෼ੳ Ϧιʔε ෼ੳ 2. ͘͞ΒONEͷΦϒβʔόϏϦςΟͷݱঢ় 18
  13. 責任境界による計装・収集の制約 Ϣʔβʔ ϓϩόΠμʔ 04 δϣϒ εέδϡʔϥ ੹೚ڥք σόΠε ΞϓϦέʔγϣϯ υϥΠό

    γεςϜϥΠϒϥϦ ΞϓϦέʔγϣϯ ϩάͷऩूෆՄ ΞϓϦέʔγϣϯ ίʔυͷܭ૷ෆՄ 2. ͘͞ΒONEͷΦϒβʔόϏϦςΟͷݱঢ় 19
  14. 空間ビュー:パーティション別統計① ԋࢉεϧʔϓοτ ʢ%$(.ਪఆ஋ʣ (16࢖༻཰ ςϯιϧίΞ࢖༻཰ --.ֶशͰ͸͙ Β͍࢖͍͑ͯΔͱྑ͍ ˞7 "OESFJ FUBM

    4:45&.!4$"-&"*0CTFSWBCJMJUZ IUUQTBUTDBMFDPOGFSFODFDPNTZTUFNTDBMFBJPCTFSWBCJMJUZ  ˞ Ͱ͋ͬͯ΋(16ͷԋ ࢉޮ཰͕ߴ͍ͱ͸ݶΒͳ͍ 23
  15. データパイプラインの構成(全体像) (16/PEFT  -PHJO/PEFT  *OUFSDPOOFDU4XJUDIFT #BDLFOET 05F-$PMMFDUPS (BUFXBZ 05F-$PMMFDUPS

    "HFOU 1ZSPTDPQF 7JDUPSJB.FUSJDT 7JDUPSJB-PHT .FUSJDT -PHT 1SP fi MFT 05-1 05-1 &YQPSUFST &YQPSUFST &YQPSUFST 4ZTMPH -PHT -PHT 4DSBQF ˠ͸σʔλͷྲྀΕΛද͢ 7JTVBMJ[BUJPO (SBGBOB 2. ͘͞ΒONEͷΦϒβʔόϏϦςΟͷݱঢ় 32
  16. GPUノードの構成 (16/PEFT  05F-$PMMFDUPS "HFOU *1.*&YQPSUFS +PVSOBME 3%."&YQPSUFS /PEF&YQPSUFS %$(.&YQPSUFS

    -VTUSF&YQPSUFS 1SPDFTT&YQPSUFS 4DSBQF 1SPNFUIFVT 3FDFJWFS πʔϧ਺Λগͳ͘͢ΔͨΊʹ 05F-$PMMFDUPSओମͰऩू +PVSOBME 3FDFJWFS WBSMPHTMVSN 'JMF-PH 3FDFJWFS ʢࣗ࡞ʣ ˞HJUIVCDPNZVVLJSENB@FYQPSUFS ˞ PQFOUFMFNFUSZ FCQGQSP fi MFS (BUFXBZ 05-1 ˞HJUIVCDPN(4*)1$MVTUSF@FYQPSUFS ˞ 2. ͘͞ΒONEͷΦϒβʔόϏϦςΟͷݱঢ় 33
  17.  ͜͜·Ͱ͸ʮܭଌ͠΍͍͢͜ͱʯΛ΍͖ͬͯͨ    はじめに AIスパコン の前提知識 さくらONE のオブザーバ

    ビリティ現状 オブザー バビリティ ・ギャップ   まとめ アジェンダ
  18. 深層学習の処理過程をトレースしたい ֶशδϣϒ ΤϙοΫ̍ ΠςϨʔγϣϯ̍ (16 (16 ΤϙοΫ̍ ΠςϨʔγϣϯ̍ ࣌ؒ ΠςϨʔγϣϯ

    ΤϙοΫ ΠςϨʔγϣϯ ΤϙοΫ ܭࢉͱ௨৴ͷΦʔόʔϥοϓ ֤εύϯͷܦա࣌ؒ΍ϦιʔεফඅྔΛܭଌ ूஂ௨৴ ॱ఻೻ ٯ఻೻ ύϥϝλ ߋ৽ ूஂ௨৴ ॱ఻೻ ٯ఻೻ ύϥϝλ ߋ৽ 3. ΦϒβʔόϏϦςΟɾΪϟοϓ 38
  19. 集団通信の処理過程をトレースしたい (16  (16  (16  (16  (16

     (16  (16 / (16 / (16 / ࣌ؒ (16  (16  (16 / εΠον αʔό̍ αʔό αʔό/ 3JOHΞϧΰϦ ζϜͷҰྫ શ(16͕ಉ࣌ʹྡʹσʔλ Λૹ৴͠ଓ͚Ϧϯά্Λपճ αʔό/ -FBG /*$  /*$  /*$  /*$  -FBG 3. ΦϒβʔόϏϦςΟɾΪϟοϓ 39
  20. GPUプロファイリング 40 MLPerf Training GPT-3のベンチマーク中に取得 Pytorch Pro fi lerの結果をPerfettoで可視化 NT

    ΠϯλʔίωΫτ௨৴ NT NT NT Ұൠతʹ͸ɺਂ૚'8಺ଂ΍/7*%*"͕ఏڙ͢ΔϓϩϑΝΠϥΛ࢖͏ $615* /TJHIU4ZTUFNT 1Z5PSI1SP fi MFS ,JOFUP 3. ΦϒβʔόϏϦςΟɾΪϟοϓ
  21. ギャップ①   現 行 GPUプロファイラの課題 ˞&:PVTFG[BEFI"TM.JBOEPBC FUBM l1SP fi MJOHBOE.POJUPSJOH%FFQ-FBSOJOH5SBJOJOH5BTLTz

     &VSP.-4ZT  Ϣʔβʔ؅ཧ ॏ͍Φʔόʔϔου Ϣʔβʔ͕༗ޮԽ͢Δඞཁ͕͋ΔͨΊɺ ϓϥοτϑΥʔϚʔཁ݅Λຬͨ͞ͳ͍ 1Z5PSDI1SP fi MFS͕ഒ஗ԆΛ૿Ճ ͤ͞Δใࠂ͋Γ˞ ΞϓϦέʔγϣϯʹରͯ͠ඇ৵ೖͳܗࣜͰ ௿Φʔόʔϔουͷ;FSP$PEFܭ૷Λ͍ͨ͠ 3. ΦϒβʔόϏϦςΟɾΪϟοϓ 41
  22. ギャップ①   Zero Code計装 eBPFによるZero Code計装による分散トレーシング技術は確 立 しつつあるが… ˞IUUQTHJUIVCDPNHSBGBOBCFZMB ˞IUUQTEFFQ

    fl PXJP • GPUの内部処理はOSカーネル内からはみえない • GPU間通信はOSカーネルのNWスタックを経由しない ˞˞˞ ˞IUUQTPQFOUFMFNFUSZJPEPDT[FSPDPEFPCJ (16ݻ༗ͷ޻෉͕ඞཁ #FZMB %FFQ'MPX 0#*ͳͲ 3. ΦϒβʔόϏϦςΟɾΪϟοϓ ✘ 42
  23. ギャップ①   GPUゼロコード計装の最先端 $6%""1*૚ (16υϥΠό૚ ˞zF#1'5VUPSJBM5SBDJOH$6%"(160QFSBUJPOTz IUUQTFVOPNJBEFWUVUPSJBMTDVEBFWFOUT ˞lF#1'5VUPSJBMCZ&YBNQMF.POJUPSJOH(16%SJWFS"DUJWJUZXJUI,FSOFM5SBDFQPJOUTz IUUQTFVOPNJBEFWUVUPSJBMTYQVHQVLFSOFMESJWFS ˞l8SJUFBOE3VOF#1'PO(16XJUICQGUJNFz

    IUUQTFVOPNJBEFWFOCQGUJNFEPDVNFOUTHQV VQSPCFT MJCDVEBSUTP (16΁ͷϝϞϦׂ౰ɾసૹɾಉظɺΧʔωϧىಈؔ਺ʹϑοΫ USBDFQPJOUT LQSPCFT ϥϯΩϡʔͷਂ͞΍9*%ΤϥʔΛܭଌՄೳ ˞ ˞ ˞ CQGUJNF ඇಉظ΍(16಺෦ͷৄࡉܭଌ͸ࠔ೉ Ϣʔβʔͷ1ZUIPOϓϩηεͱͷඥ͚ͮՄೳ 04ΧʔωϧͷൣᙝͳͷͰɺҰൠతͳLQSPCFTͳͲͰܭଌՄೳ ඇಉظͰ΋(16಺ج४Ͱͷ࣌ࠁ͕Θ͔Δ (16಺ͷϫʔϓ΍εϨου୯Ґཻ౓Ͱͷܭଌ 159ʢ(16தؒදݱʣίʔυ΁F#1'ίʔυΛ஫ೖ Ϣʔβʔۭؒ F#1'ϥϯλΠϜ <)%$4 F(16> <04%* CQGUJNF> 3. ΦϒβʔόϏϦςΟɾΪϟοϓ (16಺෦૚ 43
  24. ギャップ②   R-Pingmesh RNIC to RNICのアクティブプルービングによるRoCEネットワーク監視 47 ③ 継続的なプルービン グによるRTT・パケッ

    トロスの常時計測 ②RoCEパケットに よるプルービング ① サービストラフィッ クとは独 立 したRNIC 単位のプルービング 3. ΦϒβʔόϏϦςΟɾΪϟοϓ
  25.     はじめに AIスパコン の前提知識 さくらONE のオブザーバ ビリティ現状

    オブザー バビリティ ・ギャップ   まとめ アジェンダ
  26. まとめ ݱঢ় 4. ·ͱΊ ੍໿ Ϊϟοϓ 05FM (SBGBOBͰϝτϦΫεɾϩάɾϓϩϑΝΠϧج൫Λߏஙͨ͠ɻ Ϧιʔε෼ੳ͸͏·͍͍ͬͯ͘Δ͕ɺϫʔΫϩʔυ෼ੳ͕ະୡɻ ΞϓϦέʔγϣϯϩάίʔυͷܭ૷ɾऩूෆՄ

    ᶃֶशॲཧաఔͷ෼ࢄτϨʔε ᶄΞϓϦ͔Πϯϑϥ͔ͷ੾Γ෼͚ ᶅϚΠΫϩόʔετ؂ࢹ AIスパコンサービスのオブザーバビリティの道は ハードモード (16θϩίʔυܭ૷ʢF#1'Ͱ$6%"υϥΠό಺෦૚ͷΠϕϯτ૬ؔʣ ϝογϡঢ়ͷ3%."1JOHγεςϜͷ࣮૷ 50
  27. References • Jiangfei Duan, et al., “Ef fi cient Training

    of Large Language Models on Distributed Infrastructures: A Survey”, arXiv, 2024. • Qian Ding, “Transformers in SRE Land:Evolving to Manage AI Infrastructure”, USENIX SREcon25 America, 2025. • Deepak Narayanan, et al., “Ef fi cient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM”, the International Conference for High Performance Computing, Networking, Storage, and Analysis (SC), 2021. • Yusheng Zheng, et al., “Extending Applications Safely and Ef fi ciently”, USENIX OSDI, 2025. • Yiwei Yang, et al., “eGPU: Extending eBPF Programmability and Observability to GPUs”, Workshop on Heterogeneous Composable and Disaggregated Systems (HCDS), 2025. 4. ·ͱΊ 56
  28. AIOps for AI Supercomputers • [Deng+, NSDI2025] Minder: Faulty Machine

    Detection for Large-scale Distributed Model Training • [Xu+, IWQoS2025] eACGM: Non-instrumented Performance Tracing and Anomaly Detection towards Machine Learning Systems • [Jiang+, FSE2025] L4: Diagnosing Large-scale LLM Training Failures via Automated Log Analysis • [Jiang+, DSN2025] LLMPrism: Black-box Performance Diagnosis for Production LLM Training Platforms • [Cui+, arXiv2025] XPUTimer: Anomaly Diagnostics for Divergent LLM Training in GPU Clusters of Thousand-Plus Scale • [Dong+, NSDI2025] Evolution of Aegis: Fault Diagnosis for AI Model Training Service in Production 62