Turing TechTalk! #6

スタートアップにおける⾃社GPUクラスタ構築の舞台裏 Turing TechTalk! #6 2024.10.18 19:00-19:45

Twitterハッシュタグ： #TuringTechTalk Turing TechTalk! #6 19:00 オープニング‧全体案内 19:05 ⾃社GPUクラスタの紹介 19:15
ディスカッション＆質疑応答 19:45 終了 TechTalkとは？スケジュールメンバー⼭⼝祐 CTO / Director of AI ⾃動運転‧⽣成AI開発を統括渡辺晃平⽣成AIチームシニアインフラエンジニア AIモデル計算資源管理を担当質問はYouTube Liveコメントまで! チューリングの最新の研究開発内容を、担当するエンジニアが直接解説するオンラインイベント。今回はTuringで構築した「⾃社GPUクラスタ」について深掘りします。感想はハッシュタグ #TuringTechTalk まで

Twitterハッシュタグ： #TuringTechTalk チューリング株式会社累計調達額: 60億円従業員数: 40名+ 会社概要事業完全⾃動運転⾞の開発
⽣成AIによる実現を⽬指す代表取締役: ⼭本⼀成設⽴: 2021年8⽉ 3

Twitterハッシュタグ： #TuringTechTalk ⾃社専⽤GPUクラスタ「Gaggle-Cluster」 4 https://www.itmedia.co.jp/news/articles/2311/22/news147.html 2024年9⽉より「Gaggle-Cluster-1」として稼働開始 NVIDIA DGX H100 x
12ノード (96 GPUs) ＋⾼速ノード間ネットワーク All Flash 超⾼速分散ストレージ近⽇中に公開

⾃社GPUクラスタ「Gaggle-Cluster」

Twitterハッシュタグ： #TuringTechTalk Gaggle-Clusterの特徴 6 ⾃動運転AI開発を⽬的にした専⽤計算クラスタ • フルスペックのインターコネクトネットワーク ◦ DGX H100を12ノード間を接続、ノードあたり3.2
Tbpsの帯域。 ◦ 全ノードのGPU同⼠が400Gbpsで通信できる帯域。 • ⾼スループットストレージ ◦ ノードあたり10 GiB/s以上、ストレージ全体で100 GiB/s超の速度。 • HPC向けジョブスケジューラ管理 ◦ ABCIやTSUBAMEなどの⼤規模計算クラスタ環境に順した環境 ◦ QoSやリソース利⽤して効率を最適化。引⽤元: Eos: The Supercomputer Powering NVIDIA AI's Breakthroughs

Twitterハッシュタグ： #TuringTechTalk 324GB/s(2.6Tbps) 50GB/s(400Gbps) *1 50GB/s(400Gbps) *1 400GB/s(3.2Tbps) H100ノード x
12 管理ノードストレージ装置 (実効 1PiB) Ethernet ネットワーク(100G 多ポートスイッチ) クラスタ管理通信＋Lustre(RoCEv2)ストレージ通信インターネット CPUノード 6000 Ada ノード Loginノードインターコネクト(Inﬁniband) Full-Bisection GPU Direct RDMA *1 ノード辺り帯域(Storageとデータ通信合算) 75GB/s(600Gbps) *1 50GB/s(400Gbps) *1 50GB/s(400Gbps) *1 CPU: 112 Core(2socket) MEM:2TB GP:H100 80GB SXM4 x 8 OS:DGXOS(Ubuntu 22.04系) CPU: 32 Core(2socket) MEM:256GB GPU:A6000(Ada) 48GB x 4 OS:Ubuntu 22.04 CPU: 32 Core(2socket) MEM:256GB OS:Ubuntu 22.04 CPU: 32 Core(2socket) MEM:256 GB OS:Ubuntu 22.04 CPU: 32 Core(2soket) MEM:256GB OS:Ubuntu 22.04 ランダムアクセス性能 104-130GB/s シーケンシャルアクセス性能 120-150GB/s 検討中外接NWスイッチ DATA repo/source … インターネット AWS DirectConnect セキュリティ装置構成概略図 7

Twitterハッシュタグ： #TuringTechTalk ユーザーの利⽤イメージジョブスケジューラーでGPU数を指定すると希望するGPU 数でアサインされた環境が利⽤できるログインノード SSH(CLI) VSCode(IDE) JupyterLab(WebGUI )
H100 6000Ada CPU • ユーザーがSSHやVScodeでログインノードにアクセス • スケジューラ経由で必要計算資源にアクセスする ◦ 計算資源には直接アクセスしない準備中 srun/sbatch/salloc でリソースを予約 8

Twitterハッシュタグ： #TuringTechTalk アンケートのご案内概要欄記載のアンケートへのご協⼒をお願いします（所要時間：1~2分） 9 QRコードからも回答可能です 👇

Twitterハッシュタグ： #TuringTechTalk 完全⾃動運転の技術を⼀緒に作る仲間を募集しています ‧MLエンジニア ‧リサーチャー ‧ソフトウェアエンジニア ‧インフラエンジニア and more…
気になった⽅はYoutube概要欄の求⼈のURLからご応募ください！採⽤情報のご案内 10

Twitterハッシュタグ： #TuringTechTalk ＼今⽉末までの応募者にキャンペーンを実施中∕ 採⽤情報のご案内 11

Twitterハッシュタグ： #TuringTechTalk イベント告知オフラインとオンラインでイベントを開催中です ➡アンケート回答後の画⾯からお申し込みをお待ちしております！ 12 11/15（金）19:00〜 10/29（火）18:30～ 11/14（木）18:30～ TechTalk
#7 チューリング寿司ナイト（旧オープンオフィス） 10/31（木）18:00〜新卒向け会社説明会

Turing TechTalk! #6

Turing TechTalk! #6

Turing PRO

More Decks by Turing

Featured

Transcript

スタートアップにおける⾃社GPUクラスタ構築の舞台裏 Turing TechTalk! #6 2024.10.18 19:00-19:45

Twitterハッシュタグ： #TuringTechTalk Turing TechTalk! #6 19:00 オープニング‧全体案内 19:05 ⾃社GPUクラスタの紹介 19:15

Twitterハッシュタグ： #TuringTechTalk チューリング株式会社累計調達額: 60億円従業員数: 40名+ 会社概要事業完全⾃動運転⾞の開発

Twitterハッシュタグ： #TuringTechTalk ⾃社専⽤GPUクラスタ「Gaggle-Cluster」 4 https://www.itmedia.co.jp/news/articles/2311/22/news147.html 2024年9⽉より「Gaggle-Cluster-1」として稼働開始 NVIDIA DGX H100 x

⾃社GPUクラスタ「Gaggle-Cluster」

Twitterハッシュタグ： #TuringTechTalk Gaggle-Clusterの特徴 6 ⾃動運転AI開発を⽬的にした専⽤計算クラスタ • フルスペックのインターコネクトネットワーク ◦ DGX H100を12ノード間を接続、ノードあたり3.2

Twitterハッシュタグ： #TuringTechTalk 324GB/s(2.6Tbps) 50GB/s(400Gbps) 1 50GB/s(400Gbps) 1 400GB/s(3.2Tbps) H100ノード x

Twitterハッシュタグ： #TuringTechTalk ユーザーの利⽤イメージジョブスケジューラーでGPU数を指定すると希望するGPU 数でアサインされた環境が利⽤できるログインノード SSH(CLI) VSCode(IDE) JupyterLab(WebGUI )

Twitterハッシュタグ： #TuringTechTalk アンケートのご案内概要欄記載のアンケートへのご協⼒をお願いします（所要時間：1~2分） 9 QRコードからも回答可能です 👇

Twitterハッシュタグ： #TuringTechTalk 完全⾃動運転の技術を⼀緒に作る仲間を募集しています ‧MLエンジニア ‧リサーチャー ‧ソフトウェアエンジニア ‧インフラエンジニア and more…

Twitterハッシュタグ： #TuringTechTalk ＼今⽉末までの応募者にキャンペーンを実施中∕ 採⽤情報のご案内 11