Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

情報処理学会-全国大会2024-大規模言語モデルの分散並列学習

Avatar for Kazuki Fujii Kazuki Fujii
December 14, 2025

 情報処理学会-全国大会2024-大規模言語モデルの分散並列学習

Avatar for Kazuki Fujii

Kazuki Fujii

December 14, 2025
Tweet

More Decks by Kazuki Fujii

Other Decks in Research

Transcript

  1. 4 学習時に必要なメモリ (backward時) FP16/FP32 Mixed Precison p = parameter数 parameters

    gradients optimizer states 2p + 2p + 12p = 16p 必要 注意: activation、中間層の出力、バッチデータ、memory fragmentation などあるため、これだけではない
  2. 5 学習時に必要なメモリ (backward時) FP16/FP32 Mixed Precison p = parameter数 parameters

    gradients optimizer states 2p + 2p + 12p = 16p + α 必要 → 1つのGPUで学習するのは不可能 → 分散学習
  3. 7 分散学習設定 3D Parallelism (DP, TP, PP)を利用 メモリ効率化のために以下を採用 • SP:

    Sequence Parallelism • Distributed Optimizer (DeepSpeed ZeRO Stage1相当)
  4. 8 なぜ3D Parallelismなのか 3D ParallelismとFSDPの比較 3D Parallelism FSDP Llama 2

    7B 134 TFLOPS/GPU 134 TFLOPS/GPU Llama 2 13B 143 TFLOPS/GPU 135 TFLOPS/GPU Llama 2 70B 158 TFLOPS/GPU 87 TFLOPS/GPU
  5. 9 効率的なメモリ消費 (Distributed Optimizer) データ並列 Distributed Optimizer GPU: 1 GPU:

    2 GPU: 3 GPU: 1 GPU: 1 GPU: 2 GPU: 3 3D Parallelism + Distributed Optimizer optimizer states optimizer states optimizer states Gradinets optimizer states Gradinets Gradinets Parameters Parameters Parameters
  6. 10 トポロジーを考慮した3Dマッピング TP → DP → PP の順に配置 必要な通信量を考慮 TPは大量のAll

    Reduce →Tensor Parallel をノード内 Pipeline ParallelはP2P通信 → ノード間 Microsoft Research Blogより
  7. 18 ABCI環境 2 A100 SXM4 PLX PCIe IB HDR PLX

    A100 SXM4 IB HDR IB Switch PCIe