Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMを「速く」「安く」 動かすには / CloudNative Days Winter 2024

LLMを「速く」「安く」 動かすには / CloudNative Days Winter 2024

初心者にもわかりやすく、ChatGPTをはじめとした近年話題のLLM (Large Language Model)の中身について解説します。また、LLMを大規模に学習するだけではなく、LLMを動かして利用すること(推論)が重要になりつつあることを踏まえ、LLMの推論システムのサービングが難しい理由と、それに対応するための小規模化や量子化などの最近のモデルデータサイズを減らす工夫についてもお話しします。

イベントサイト: https://event.cloudnativedays.jp/cndw2024

Preferred Networks

November 28, 2024
Tweet

More Decks by Preferred Networks

Other Decks in Technology

Transcript

  1. スケーリング則:モデルとデータは大きいほど ※ 賢い ※ 賢い ※言語モデルとして精度が高い 図は「Training Compute-Optimal Large Language

    Models」( https://arxiv.org/abs/2203.15556 ) から引用 大規模にするほど どんどん賢くなる モデルも データ(トークン量)も 大きい
  2. ハードウェアごとの 70B級 LLM(≒140GB)のトークン⽣成速度の理論上限 NVIDIA A100 80GB PCIe x2 NVIDIA H100

    80GB PCIe x2 万円 ⽣成token/sec(理論上限) ⽇本⼈の 読む速度 DDR5-5600 (dual channel) 64GB x4
  3. ハードウェアごとの 70B級 LLM(≒140GB)のトークン⽣成速度の理論上限 NVIDIA A100 80GB PCIe x2 NVIDIA H100

    80GB PCIe x2 万円 ⽣成token/sec(理論上限) 日本人の 読む速度 DDR5-5600 (dual channel) 64GB x4 80GBに 乗り切らないので 2台必要
  4. ハードウェアごとの 70B級 LLM(≒140GB)のトークン⽣成速度の理論上限 NVIDIA A100 80GB PCIe x2 NVIDIA H100

    80GB PCIe x2 万円 ⽣成token/sec(理論上限) ⽇本⼈の 読む速度 DDR5-5600 (dual channel) 64GB x4 440万円 1040万円
  5. Llama3-70B 4bit量⼦化(≒35GB+α)の トークン⽣成速度の実測値(llama.cpp Q4K_M) 万円 ⽣成token/sec(実測値) (DDR5-5600 (dual channel) 32GB

    x2 *理論上限) NVIDIA H100 80GB PCIe x1 NVIDIA A100 80GB PCIe x1 ⽇本⼈の 読む速度 参考:https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inferen
  6. Llama3-70B 4bit量⼦化(≒35GB+α)の トークン⽣成速度の実測値(llama.cpp Q4K_M) 万円 ⽣成token/sec(実測値) (DDR5-5600 (dual channel) 32GB

    x2 *理論上限) NVIDIA H100 80GB PCIe NVIDIA A100 80GB PCIe 日本人の 読む速度 参考:https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference x1 x1 bfloat16のときは2個必要だったが 量⼦化で必要な個数 を減らせる
  7. 万円 ⽣成token/sec(実測値) (DDR5-5600 (dual channel) 32GB x2 *理論上限) NVIDIA H100

    80GB PCIe x1 NVIDIA A100 80GB PCIe x1 NVIDIA RTX4090 24GB x2 ⽇本⼈の 読む速度 量⼦化で安いグラボ に乗せられる Llama3-70B 4bit量⼦化(≒35GB+α)の トークン⽣成速度の実測値(llama.cpp Q4K_M) 参考:https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference
  8. Llama3-70B 4bit量⼦化(≒35GB+α)の トークン⽣成速度の実測値(llama.cpp Q4K_M) 万円 ⽣成token/sec(実測値) (DDR5-5600 (dual channel) 32GB

    x2 *理論上限) NVIDIA H100 80GB PCIe x1 NVIDIA A100 80GB PCIe x1 70万円 NVIDIA RTX4090 24GB x2 ⽇本⼈の 読む速度 参考:https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference
  9. 補⾜:Apple Mシリーズ 万円 ⽣成token/sec(実測値) (DDR5-5600 (dual channel) 32GB x2 *理論上限)

    NVIDIA H100 80GB PCIe x1 NVIDIA A100 80GB PCIe x1 参考:https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference ⽇本⼈の 読む速度 NVIDIA RTX4090 24GB x2 Apple M2 Ultra 192GB 300W
 900W