Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Turing TechTalk! #6

Turing
October 18, 2024
530

Turing TechTalk! #6

Turing

October 18, 2024

Transcript

  1. Twitterハッシュタグ: #TuringTechTalk Turing TechTalk! #6 19:00 オープニング‧全体案内 19:05 ⾃社GPUクラスタの紹介 19:15

    ディスカッション&質疑応答 19:45 終了 TechTalkとは? スケジュール メンバー ⼭⼝ 祐  CTO / Director of AI  ⾃動運転‧⽣成AI開発を統括 渡辺 晃平  ⽣成AIチーム  シニアインフラエンジニア   AIモデル計算資源管理を担当 質問はYouTube Liveコメントまで! チューリングの最新の研究開発内容を、担当する エンジニアが直接解説するオンラインイベント。 今回はTuringで構築した「⾃社GPUクラスタ」に ついて深掘りします。 感想はハッシュタグ #TuringTechTalk まで
  2. Twitterハッシュタグ: #TuringTechTalk Gaggle-Clusterの特徴 6 ⾃動運転AI開発を⽬的にした専⽤計算クラスタ • フルスペックのインターコネクトネットワーク ◦ DGX H100を12ノード間を接続、ノードあたり3.2

    Tbpsの帯域。 ◦ 全ノードのGPU同⼠が400Gbpsで通信できる帯域。 • ⾼スループットストレージ ◦ ノードあたり10 GiB/s以上、ストレージ全体で100 GiB/s超の速度。 • HPC向けジョブスケジューラ管理 ◦ ABCIやTSUBAMEなどの⼤規模計算クラスタ環境に順した環境 ◦ QoSやリソース利⽤して効率を最適化。 引⽤元: Eos: The Supercomputer Powering NVIDIA AI's Breakthroughs
  3. Twitterハッシュタグ: #TuringTechTalk 324GB/s(2.6Tbps) 50GB/s(400Gbps) *1 50GB/s(400Gbps) *1 400GB/s(3.2Tbps) H100ノード x

    12 管理ノード ストレージ装置 (実効 1PiB)     Ethernet ネットワーク(100G 多ポートスイッチ)  クラスタ管理通信+Lustre(RoCEv2)ストレージ通信 インターネット CPUノード 6000 Ada ノード Loginノード インターコネクト(Infiniband) Full-Bisection GPU Direct RDMA *1 ノード辺り帯域(Storageとデータ通信合算) 75GB/s(600Gbps) *1 50GB/s(400Gbps) *1 50GB/s(400Gbps) *1 CPU: 112 Core(2socket) MEM:2TB GP:H100 80GB SXM4 x 8 OS:DGXOS(Ubuntu 22.04系) CPU: 32 Core(2socket) MEM:256GB GPU:A6000(Ada) 48GB x 4 OS:Ubuntu 22.04 CPU: 32 Core(2socket) MEM:256GB OS:Ubuntu 22.04 CPU: 32 Core(2socket) MEM:256 GB OS:Ubuntu 22.04 CPU: 32 Core(2soket) MEM:256GB OS:Ubuntu 22.04 ランダムアクセス性能  104-130GB/s シーケンシャルアクセス性能  120-150GB/s 検討中 外接NWスイッチ DATA repo/source … インターネット AWS DirectConnect セキュリティ装置 構成概略図 7
  4. Twitterハッシュタグ: #TuringTechTalk ユーザーの利⽤イメージ ジョブスケジューラーでGPU数を指定すると希望するGPU 数でアサインされた環境が利⽤できる ログインノード SSH(CLI) VSCode(IDE) JupyterLab(WebGUI )

    H100 6000Ada CPU • ユーザーがSSHやVScodeでログインノードにアクセス • スケジューラ経由で必要計算資源にアクセスする ◦ 計算資源には直接アクセスしない 準備中 srun/sbatch/salloc でリソースを予約 8