rights reserved. ⼤規模モデルの学習には⼤規模な計算資源が必要 [1] Narayanan, Deepak, et al. "Efficient large-scale language model training on gpu clusters using megatron-lm." Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis. 2021. ⾼速なアクセラレータを搭載したインスタンスを多数⽤いて トレーニングをスケールさせる必要がある Q. GPT-3 (175 B) に⼀ヶ⽉で300 B tokens 学習させたいとき、必要となる NVIDIA A100(80GB) は何枚か︖ ※ Sequence Length は2048, Batch size は1536 とする A. 1024 枚⽤いて34 ⽇間のトレーニングが必要[1]