Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AWS Deep Learning Accelerator Instances

AWS Deep Learning Accelerator Instances

AWS では GPU はもちろん、機械学習のトレーニング・推論のための専用チップまで多彩な深層学習アクセラレータを搭載した EC2 インスタンスを提供しており、ユースケースやモデル規模に応じて最適な選択肢をご利用頂けます。特に AWS Trainium と AWS Inferentia は、機械学習のトレーニングと推論ワークロード向けに AWS が設計したカスタムチップで、それぞれ Amazon EC2 Trn1 インスタンス (プレビュー中)、Inf1 インスタンスとして提供されています。Trn1/Inf1 インスタンスはクラウド上で最も高いコストパフォーマンスを実現するため、深層学習ワークロードを運用する上で知っておいて損はありません。

Yoshitaka Haribara

March 24, 2022
Tweet

More Decks by Yoshitaka Haribara

Other Decks in Technology

Transcript

  1. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. AWS 深層学習アクセラレータ Amazon EC2 Inf1 インスタンスハンズオン Yoshitaka Haribara, Ph.D. Startup ML Solutions Architect at AWS Japan Hiroshi Tokoyo Sr. Manager, Customer Solutions at Annapurna Labs, AWS
  2. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. 本日のアジェンダ • AWS 上で深層学習ワークロードを動かすための選択肢 (30 min) • 独自設計チップ AWS Inferentia と AWS Trainium による 機械学習の高速化とコスト最適化 (30 min) • Amazon EC2 Inf1 インスタンスハンズオン (1 h 40 min) § https://ec2-inf1.workshop.aws/ (日本語) – TensorFlow ResNet-50 モデルによる画像分類 on EC2 – Hugging Face (PyTorch) BERT モデルによる自然言語処理 on EC2 – Hugging Face (PyTorch) BERT モデルによる自然言語処理 on SageMaker • Q&A, アンケート (20 min)
  3. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. AWS 上で 深層学習ワークロードを 動かすための選択肢 7
  4. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. AWS AI/ML AI SERVICES Code + DevOps Amazon CodeGuru Amazon DevOps Guru Business processes Amazon Personalize Amazon Forecast Amazon Fraud Detector Amazon Lookout for Metrics Search Amazon Kendra Industrial Amazon Monitron Amazon Lookout for Equipment Amazon Lookout for Vision Healthcare Amazon HealthLake Amazon Comprehend Medical Amazon Transcribe Medical SPECIALIZED Chatbots Amazon Lex Text & Documents Amazon Translate Amazon Comprehend Amazon Textract Speech Amazon Polly Amazon Transcribe Amazon Transcribe Call Analytics Vision Amazon Rekognition AWS Panorama CORE ML SERVICES Manage edge devices Learn ML No-code ML for business analysts Prepare data Store features Detect bias Build with notebooks Manage & monitor Train models Deploy in production Tune parameters Explain predictions CI/CD Label data SAGEMAKER CANVAS SAGEMAKER STUDIO LAB AMAZON SAGEMAKER STUDIO IDE ML FRAMEWORKS & INFRASTRUCTURE TensorFlow, PyTorch, Apache MXNet, Hugging Face Amazon EC2 CPUs GPUs AWS Trainium Elastic inference AWS Inferentia FPGA Habana Gaudi Deep Learning Containers (DLC)
  5. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. AWS AI/ML AI SERVICES Code + DevOps Amazon CodeGuru Amazon DevOps Guru Business processes Amazon Personalize Amazon Forecast Amazon Fraud Detector Amazon Lookout for Metrics Search Amazon Kendra Industrial Amazon Monitron Amazon Lookout for Equipment Amazon Lookout for Vision Healthcare Amazon HealthLake Amazon Comprehend Medical Amazon Transcribe Medical SPECIALIZED Chatbots Amazon Lex Text & Documents Amazon Translate Amazon Comprehend Amazon Textract Speech Amazon Polly Amazon Transcribe Amazon Transcribe Call Analytics Vision Amazon Rekognition AWS Panorama CORE ML SERVICES Manage edge devices Learn ML No-code ML for business analysts Prepare data Store features Detect bias Build with notebooks Manage & monitor Train models Deploy in production Tune parameters Explain predictions CI/CD Label data SAGEMAKER CANVAS SAGEMAKER STUDIO LAB AMAZON SAGEMAKER STUDIO IDE ML FRAMEWORKS & INFRASTRUCTURE TensorFlow, PyTorch, Apache MXNet, Hugging Face Amazon EC2 CPUs GPUs AWS Trainium Elastic inference AWS Inferentia FPGA Habana Gaudi Deep Learning Containers (DLC)
  6. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. Amazon EC2 インスタンスタイプ Linux, Windows, macOS Amazon EBS Amazon Elastic Inference Amazon Elastic GPU Elastic Fabric Adapter カ テ ゴ リ 機 能 イ ン ス タ ン ス サ イ ズ サイズ (.nano -.32xlarge) ベアメタル (.metal) バーストパフォーマンス (t3, t4) 汎⽤ (m5, m6, mac1) コンピューティング最適化 (c5, c6) メモリ最適化 (r5, r6, x1, x2) ストレージ最適化 (d3, i3, i4, im4, is4) ⾼速コンピューティング (アクセラレーテッド) (p4, g5, f1, inf1) CPUの選択 Intel (i), AMD (a), AWS Graviton (g) ⾼周波数 up to 4.5+ GHz (z) 追加メモリ up to 16 TiB (e) インスタンスストレージ Local NVMe disks (d) ⾼速ネットワーク up to 400 Gbps (n) EBSパフォーマンス強化 up to 60Gbps & 260,000 IOPS (b) インスタンス 事実上あらゆる ビジネスニーズ に対応 オ プ シ ョ ン examples: c6gn.8xlarge, m5zn.metal, g4ad.16xlarge, r5b.large 約 5 0 0 種 c6gn.8xlarge ファミリー 世代 機能 サイズ
  7. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. 機械学習向け Amazon EC2 インスタンスの選択肢 Ice Lake CPU Cascade Lake CPU Habana accelerator EPYC CPU A100, A10G, T4G GPUs AWS Graviton AWS Inferentia AWS Trainium UltraScale+ FPGA アクセラレーテッドコンピューティング C7g C6g C6i C5a M6g M6i M6a R6g R6i R5a F1 Inf1 G5g G5 P4 DL1 Trn1 Elastic Inference 従来の機械学習 推論 学習 深層学習 学習 + 推論
  8. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. Ice Lake CPU Cascade Lake CPU Habana accelerator EPYC CPU A100, A10G, T4G GPUs AWS Graviton AWS Inferentia AWS Trainium UltraScale+ FPGA アクセラレーテッドコンピューティング C7g C6g C6i C5a M6g M6i M6a R6g R6i R5a F1 Inf1 G5g G5 P4 DL1 Trn1 Elastic Inference 従来の機械学習 推論 学習 深層学習 学習 + 推論 最新 Graviton3 プロセッサ搭載 bfloat16 と fp16 に対応し 機械学習ワークロードでは最大3倍高速 現在プレビュー中 AWS Trainium によるトレーニングコスト の最適化 現在プレビュー中 AWS Inferentia による推論コストの最適化 G4インスタンスと比較し最大2.3倍のス ループット向上、推論処理当たり最大70% 低価格を実現 AWS独自開発プロセッサ Graviton2 によ るコスト最適化 M/C/R6gインスタンスはx86ベースの M/C/R5インスタンスと比較し最大40% 優れた価格性能
  9. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. Ampere (2020) Turing (2018) Volta (2017) Pascal (2016) Maxwell (2015) Kepler (2012) Fermi (2011) Tesla (2008) Amazon EC2 G4 NVIDIA T4 Amazon EC2 P3 NVIDIA V100 Amazon EC2 G3 NVIDIA M60 Amazon EC2 P2 NVIDIA K80 NVIDIA GPU アーキテクチャ Amazon EC2 インスタンス NVIDIA GPU 深層学習に利用可能な Amazon EC2 GPU インスタンス Amazon EC2 P4 NVIDIA A100 Amazon EC2 G5 NVIDIA A10G Amazon EC2 G5g NVIDIA T4G Hopper (2022)
  10. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. 深層学習に利用可能な Amazon EC2 GPU インスタンス 深層学習用 Amazon EC2 GPU インスタンス P インスタンス ファミリー G インスタンス ファミリー P3 インスタンス NVIDIA V100 GPU メモリ: 16 GB, 32 GB G4 インスタンス NVIDIA T4 GPU メモリ: 16 GB G5 インスタンス NVIDIA A10G GPU メモリ: 24 GB P4 インスタンス NVIDIA A100 GPU メモリ: 40 GB G5g インスタンス NVIDIA T4G + Arm-based CPU GPU メモリ: 16 GB
  11. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. Trn1: AWS Trainium カスタムアクセラレーター • クラウドで最もコスト効率に優れた DL イン スタンス • 最大 800 Gbps のネットワーキング (EFA)、 32 GB/アクセラレータ (512 GB/インスタン ス) メモリ、840 TFLOP • EC2 ウルトラクラスターは最大 2.1 エクサフ ロップスのコンピューティングをサポート DL1: Intel Habana Gaudi アクセラレーター • 一般的に使用されるCV、NLP、レコメン ダーモデルのトレーニングコストパ フォーマンスが最大 40% 向上 • 最大 400 Gbps のネットワークと 32 Gb/ アクセラレータ G5: A10G GPU インスタンス • EC2 P3 (V100) インスタンスよりも 15% 低いコストで小規模から中規模のモデルを トレーニングできます • 最大 8 個の NVIDIA A10G テンソルコア GPU と第 2 世代 AMD EPYC プロセッサー • 最大 100 Gbps のネットワークと 24 GB/GPU メモリ P4d: A100 GPU インスタンス • 3億を超えるパラメータを持つ 大規模モデルのトレーニング用 • 最大 400 Gbps のネットワークと 40 GB/GPU (320 GB/インスタンス) メモリによ る EC2 ウルトラクラスタのサポート G4dn: T4 GPU インスタンス • 中小規模のモデルのトレーニング • 最大 8 個の NVIDIA T4 テンソルコア GPU とIntel Xeon Scalable (Cascade Lake) プ ロセッサー P3/P3dn: V100 GPU インスタンス • P3 は中-大規模の学習、P3dn は大規模モデ ルの学習用 • それぞれ 16 GB, 32 GB/GPU メモリの V100 GPU P3/ P3dn MLトレーニング用 EC2 インスタンス P4d
  12. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. Amazon EC2 P4d インスタンス • NVIDIA A100 Tensor Core GPU を搭載 • 前世代のP3インスタンスと比較して、機械 学習モデルの学習コストを最大60%削減、 パフォーマンスは平均 2.5倍向上 • 2022年1月現在、米国東部 (バージニアお よびオハイオ)、米国西部 (オレゴン)、欧州 (アイルランドおよびフランクフルト)、ア ジアパシフィック (東京およびソウル) の各 リージョンで利用可能 https://aws.amazon.com/jp/ec2/instance-types/p4/ インスタンスサイズ GPU (A100) GPUメモリ (GB) vCPU メモリ (GB) NVSwitch (GB/s) NW帯域 (Gbps) NVMe SSD (TB) p4d.24xlarge 8 320 96 1152 600 400 8 0 2 4 6 8 10 12 FP64 TFLOPS FP32 TFLOPS FP16 TFLOPS INT8 TOPS GPU Memory BW (GB/s) GPU Memory (GB) NVLink BW (GB/s) V100 A100 Improvement (x)
  13. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. Wikipedia コーパスのデータセット でトレーニングされた PyTorch フレームワーク実装の BERT-Large モデル 3x P3 インスタンスよりも高速* Imagenet2012 データセットで トレーニングされた TensorFlow フレームワーク実装の ResNet50 モデル 2.1x P3 インスタンスよりも高速* LibrisPeech データセットで トレーニングされた PyTorch 実装の Jasper モデルの場合 2.3x P3 インスタンスよりも高速* * 単一の p4d.24xlarge インスタンスと p3.16xlarge インスタンス間で比較。 P4d パフォーマンス
  14. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. • P4d/Trn1 の EC2 UltraClusters: スーパーコンピューティングクラスの パフォーマンスへのアクセスを民主化 • AWS の従量課金制モデルを介して オンデマンドで利用可能 • 4,000 個以上の A100 Tensor Core GPU / 1万個以上の Trainium チップ • ペタビット規模のノンブロッキングネット ワーク • 高スループット、低レイテンシーの ストレージ FSx for Lustre • S3 での無制限のストレージのサポート EC2 Ultra Clusters
  15. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. Amazon EC2 DL1 インスタンス • Intel Habana Labsが提供する Gaudi アクセラレータ を搭載 • 深層学習モデルのトレーニングに特化 • 各インスタンスには 8 つの Gaudi アクセラレーターを搭載 • 合計 256 GB の高帯域幅 (HBM2) アクセラレーターメモリを搭載 • 現行世代のGPUインスタンスよりも最大40%優れた価格パフォーマンス • TensorFlow および PyTorch と統合された SDK • 2022年1月現在、米国東部 (バージニア) 、米国西部 (オレゴン)で利用可能 https://aws.amazon.com/jp/ec2/instance-types/dl1/ インスタンスサイズ Gaudi アクセラレータ メモリ (GB) vCPU メモリ (GiB) NW帯域 (Gbps) EBS帯域 (Gbps) NVMe SSD (TB) dl1.24xlarge 8 256 96 768 400 19 4
  16. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. Amazon EC2 Trn1 インスタンス • 独自設計チップ AWS Trainium 搭載 • 60% 増強したアクセラレータメモリ(vs. P4d) • 2倍のネットワーク帯域幅 (vs. P4d) • PyTorch 及び TensorFlow をネイティブにサポート • Trn1 上で学習し、デプロイ先は自由 • 2022前半での一般提供を予定 インスタンスサイズ Trainium チップ数 アクセラレータ メモリ (GB) vCPU メモリ (GB) NeuronLink (GB/s) NW帯域 (Gbps) NVMe SSD (TB) Trn1.2xlarge 1 32 8 32 N/A 最⼤ 10 0.5 Trn1.32xlarge 16 512 128 512 768 800 8 Preview https://aws.amazon.com/jp/ec2/instance-types/trn1/
  17. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. G5: A10G GPU インスタンス • 最大 8 個の NVIDIA A10G Tensor Core GPU と第 2 世代 AMD EPYC プロセッサー • グラフィックを多用するワークロードや機械 学習のワークロードでは、G4dn インスタン スと比較して 3 倍のパフォーマンス向上 Inf1: カスタム ML アクセラレータ • クラウドで推論あたりのコストが最も低い • AWS が設計した Inferentia アクセラレー ターを使用した最大 2,000 TOPs • 高スループットと低レイテンシー G5g: T4G GPU + Arm CPU インスタンス • Arm ベースの Graviton2 プロセッサと最大 2 つの NVIDIA T4G Tensor Core GPU を搭載 • Android ゲームの 1 時間あたりのストリーム コストを最大 30% 削減 G4dn: T4 GPU インスタンス • 最大 8 個の NVIDIA T4 GPU とインテル Cascade Lake CPU により、CPU よりも 40 倍優れた低レイテンシスループットを実現 • 前世代の G3 インスタンスに比べて、グラ フィックパフォーマンスが最大 1.8 倍向上 ML 推論用 EC2 インスタンス G5g
  18. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. Amazon EC2 Inf1 インスタンス • 4つのインスタンスサイズから選択可能 • インスタンス毎に1~16個の Inferentia 推論チップを搭載 • 6xlarge, 24xlargeでは複数の Inferentia チップを高速チップ間通信で接続 • 最大 100Gbps のネットワークインタフェース • 2022年3月現在、東京を含む23のリージョンにて利用可能 • 他のEC2同様、複数の支払いオプションを用意 • オンデマンド、リザーブドインスタンス、スポットインスタンス、Savings Plans インスタンスサイズ Inferentia vCPU メモリ (GiB) ストレージ EBS帯域 (Gbps) NW帯域 (Gbps) オンデマンド価格 (USD/時間) inf1.xlarge 1 4 8 EBS Only 最⼤ 3.5 最⼤ 25 0.228 inf1.2xlarge 1 8 16 EBS Only 最⼤ 3.5 最⼤ 25 0.362 inf1.6xlarge 4 24 48 EBS Only 3.5 25 1.18 inf1.24xlarge 16 96 192 EBS Only 19 100 4.721 *2022年3⽉時点の⽶国東部 (バージニア北部) の価格 2021年6⽉1⽇ 料⾦改定 (38%削減)
  19. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. Amazon EC2 G5 インスタンス • NVIDIA A10G Tensor Core GPU を搭載 • 24GB の GPU メモリを備えた A10G GPU を最大8つ搭載 • ワークステーション、ビデオレンダリング、クラウドゲーミングなどのグラフィクス処理性能が必要な用途に • 自然言語処理やコンピュータビジョン、レコメンデーションといった機械学習処理の学習・推論にも • G4dnインスタンスと比較し、最大3.3倍優れたMLトレーニング性能、最大3倍優れたグラフィックス、ML推論性能 • 第2世代 AMD EPYC プロセッサを搭載し、従来と比較して最大40%優れた価格性能比を発揮 • 2022年1月現在、米国東部 (バージニア)、米国西部 (オレゴン)、欧州 (アイルランド) で利用可能 https://aws.amazon.com/jp/ec2/instance-types/g5/ インスタンスサイズ GPU (A10G) GPUメモリ (GiB) vCPU メモリ (GiB) NW帯域 (Gbps) EBS帯域 (Gbps) NVMe SSD (GB) g5.xlarge, 2,4,8,16xlarge 1 24 4 ~ 64 16 ~ 256 最⼤10 ~ 25 最⼤3.5 ~ 16 250 ~ 1900 g5.12xlarge, 24xlarge 4 96 48, 96 192, 384 40, 50 16, 19 3800 g5.48xlarge 8 192 192 768 100 19 7600
  20. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. Amazon EC2 G5g インスタンス • AWS Graviton 2 プロセッサと NVIDIA T4G Tensor Core GPUを搭載 • ARMベースのGPUインスタンス • Android端末へのゲームストリーミング用途に高い価格性能比を発揮、ストリームあたりのコストを最大 30%削減 • CPU処理の比重が大きくNVIDIAのライブラリを利用する一般的な推論処理にも対応 • g5g.xlarge から g5g.16xlarge の 5 サイズと、ベアメタルインスタンスを提供 • 最大で 2GPU, 64vCPU, 32GiB のメモリ、25Gbps の NW 帯域幅、19Gbps の EBS 帯域幅を利用可能 • 2022年1月現在、米国東部 (バージニア)、米国西部 (オレゴン)、アジアパシフィック (東京、 ソウル、シンガポール) の各リージョンで利用可能 https://aws.amazon.com/jp/ec2/instance-types/g5g/ インスタンスサイズ GPU (T4G) GPUメモリ (GiB) vCPU メモリ (GiB) NW帯域 (Gbps) EBS帯域 (Gbps) g5g.xlarge, 2, 4, 8xlarge 1 16 4 ~ 32 8 ~ 64 最⼤ 10 ~ 12 最⼤ 3.5 ~ 9 g5g.16xlarge, metal 2 32 64 128 25 19
  21. UPDATE DOCUMENT TITLE IN SLIDE MASTER © 2022, Amazon Web

    Services, Inc. or its affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. 日本のスタートアップにおける事例 51
  22. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. GPU インスタンス (P2、P3) を大規模な トレーニングジョブに使用することにより、 EC2 オンデマンドの使用量を最適化 斉藤 哲也 General Manager of Infrastructure and Information Security Office, Cinnamon AI 52 https://aws.amazon.com/jp/blogs/news/cinnamon-ai-saves-70-on-ml-model-training-costs-with- amazon-sagemaker-managed-spot-training/
  23. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. Arm ベースの Graviton2 プロセッサと GPU を搭載する G5g インスタンスにより、 機械学習 CI/CD パイプラインを拡張 関谷 英爾 Director of Engineering, Tier IV 53 https://aws.amazon.com/ec2/instance-types/g5g/
  24. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. AWS Inferentia ベースの Inf1 インスタンスを採用し、 G4dn よりも YOLOv4 で40% 優れた価格性能比を実現 松本 真司 Software Engineer, Ciao 54 https://aws.amazon.com/jp/ec2/instance-types/inf1/
  25. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. 深層学習における「推論」の領域では、 複数の Amazon EC2 GPU インスタンスを 活用し、高速なシミュレーションを実現 Engineer, Preferred Networks (PFN) 55 https://aws.amazon.com/jp/solutions/case-studies/pfcc/ 坂田 雅雄 AWS Summit Online (2022年 5月 25-26日開催) https://aws.amazon.com/jp/summits/japan/
  26. UPDATE DOCUMENT TITLE IN SLIDE MASTER © 2022, Amazon Web

    Services, Inc. or its affiliates. Thank you! © 2022, Amazon Web Services, Inc. or its affiliates. 56
  27. UPDATE DOCUMENT TITLE IN SLIDE MASTER © 2022, Amazon Web

    Services, Inc. or its affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. Appendix 57
  28. © 2022, Amazon Web Services, Inc. or its Affiliates. どのユース

    ケース? 自然言語処理 リコメンド コンピュータ ビジョン (画像、動画解析) 時系列分析 中-大規模モデル 小-中規模モデル 小規模モデル 比較的大きなGPUメ モリ、インスタンス メモリ、ネットワー ク帯域を必要とする 自動運転、宇宙、メ ディア&エンタ、 HCLS等のアプリ ケーション その他 複数のGPUが 必要? 複数のGPUが 必要? アクセラレータ が必要? 分散トレーニン グを実行? 並行モデル開発 や実験 最適な価格、パ フォーマンスを 確認するための ベンチマーク 最適なvCPUを 確認するための ベンチマーク 並行モデル開発 や実験 MLトレーニング用インスタンス選定フローチャート
  29. © 2022, Amazon Web Services, Inc. or its Affiliates. 適

    切 な 推 論 イ ン ス タ ン ス を 特 定 す る フ ロ ー チ ャ ー ト どのユース ケース? 自然言語処理 リコメンド コンピュータ ビジョン (画像、動画解析) 時系列解析 フレームワーク やモデルがInf1 でサポートされ ている? アクセラレータ が必要? 複数のアクセラレー タが必要? 複数のGPUが 必要? 最適なvCPUを 確認するための ベンチマーク 最適なvCPUを 確認するための ベンチマーク 複数のモデル、 並行モデル、分 散モデルのデプ ロイ用 複数モデル、 並行モデル、 分散モデルの デプロイ用 g4dn.{x, 2x, 4x, 8x, 16}large g5.{x, 2x, 4x, 8x, 16x}large g5g.{x, 2x, 4x, 8x}large g4dn.12xlarge, g5.{12x, 24x, 48x}large, g5g.16xlarge, g4dn/g5g.metal (bare-metal)
  30. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. Amazon SageMaker での分散学習 https://aws.amazon.com/sagemaker/distributed-training/ トレーニング時間 の削減 TensorFlow, PyTorch, HuggingFace を サポート 自動的・効率的な モデル分割 最小限の コード変更 効率的な パイプライン化 ( GPU ) AWS ネットワーク・ ハードウェアに 最適化 モデル並列 データ並列
  31. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. SageMaker Model Parallel Single model replica partitioned across multiple GPUs • Combine memory of all GPUs • No model replication – save additional memory • Devices communicate during forward and backward pass Layer1 Layer2 … LayerN Data 1 Data 2 Data 3 Data 4
  32. AWS 深層学習アクセラレータインスタンス – Amazon EC2 inf1 インスタンスハンズオン © 2022, Amazon

    Web Services, Inc. or its affiliates. SageMaker Data Parallel • Library for distributed training of deep learning models in TensorFlow and PyTorch • Accelerates training for network-bound workloads • Built and optimized for AWS network topology and hardware • 20%–40% faster and cheaper; best performance on AWS Workers on GPUs Servers on CPUs SageMaker control plane ml.p3dn.24xl ml.p3dn.24xl ml.p3dn.24xl ml.p3dn.24xl ml.p3dn.24xl ml.p3dn.24xl ml.p3dn.24xl ml.p3dn.24xl