Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Amazon EC2 機械学習ワークロードの選択肢 / Amazon EC2 ML Workl...

Amazon EC2 機械学習ワークロードの選択肢 / Amazon EC2 ML Workload Options

2021 年 10 月 14 日開催、Amazon EC2 大活用~ 最新ラインナップ、コストパフォーマンス最適化、先進顧客事例などご紹介~より

概要:Amazon EC2では、広く利用され歴史もあるNVIDIA GPUを搭載したインスタンスを提供する一方、Xilinx FPGA搭載インスタンス、AWSが独自設計した機械学習推論チップAWS Inferentiaを搭載したInf1インスタンスまで、械学習ワークロードの観点で、幅広い選択肢を提供しています。本セッションでは、Amazon EC2が提供する機械学習向け最新インスタンス群を紹介し、高性能と低価格を両立した推論ワークロードを実現する上でのInf1インスタンス活用方法について紹介致します。

Hiroshi Tokoyo

October 14, 2021
Tweet

More Decks by Hiroshi Tokoyo

Other Decks in Technology

Transcript

  1. © 2021, Amazon Web Services, Inc. or its Affiliates. アマゾンウェブサービスジャパン株式会社

    Annapurna Labs 常世 大史 Amazon EC2 ⼤活⽤ Amazon EC2 機械学習ワークロードの選択肢
  2. © 2021, Amazon Web Services, Inc. or its Affiliates. ⾃⼰紹介

    名前︓常世 ⼤史 (とこよ ひろし) 所属︓Annapurna labs (アンナプルナラボ) 職務︓アンナプルナラボ発信技術の拡販、技術⽀援 経歴︓外資半導体企業を経て、2013年7⽉アンナプ ルナラボに参加。2015年2⽉の買収に伴い AWSの⼀員に 好きなAWSサービス︓ EC2 Inf1, F1インスタンス アンナプルナラボとは... AWS内の半導体開発部⾨。 Inferentia推論専⽤ チップやGraviton 64bit ARMプロセッサを開発 2021 AWS Summit Online Japan
  3. © 2021, Amazon Web Services, Inc. or its Affiliates. •

    AWSの機械学習 • Amazon EC2 機械学習ワークロードの選択肢 • Amazon EC2 Inf1インスタンスによるコストパフォーマンス最適化 本⽇のアジェンダ
  4. © 2021, Amazon Web Services, Inc. or its Affiliates. ©

    2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWSのミッション 全てのデベロッパーの⽅々の⼿に機械学習を
  5. © 2021, Amazon Web Services, Inc. or its Affiliates. あらゆる規模や業界のお客様が

    AWS上で機械学習を実⾏しています 数万ものお客様が機械学習のワークロードにAWSを選択
  6. © 2020, Amazon Web Services, Inc. or its Affiliates. AWS

    の機械学習スタック VISION SPEECH TEXT SEARCH CHATBOTS PERSONALIZATION FORECASTING FRAUD CONTACT CENTERS Deep Learning AMIs & Containers GPUs & CPUs Elastic Inference Trainium Inferentia FPGA DeepGraphLibrary Amazon Rekognition Amazon Polly Amazon Transcribe +Medical Amazon Lex Amazon Personalize Amazon Forecast Amazon Comprehend +Medical Amazon Textract Amazon Kendra Amazon CodeGuru Amazon Fraud Detector Amazon Translate INDUSTRIAL AI CODE AND DEVOPS NEW Amazon DevOps Guru Voice ID For Amazon Connect Contact Lens NEW Amazon Monitron NEW AWS Panorama + Appliance NEW Amazon Lookout for Vision NEW Amazon Lookout for Equipment NEW Amazon HealthLake HEALTH AI NEW Amazon Lookout for Metrics ANOMALY DETECTION Amazon Transcribe Medical Amazon Comprehend Medical Amazon SageMaker Label data NEW Aggregate & prepare data NEW Store & share features Auto ML Spark/R NEW Detect bias Visualize in notebooks Pick algorithm Train models Tune parameters NEW Debug & profile Deploy in production Manage & monitor NEW CI/CD Human review NEW: Model managementfor edge devices NEW: SageMakerJumpStart SAGEMAKER STUDIO IDE AI サービス: 機械学習の深い知識なしに利⽤可能 ML サービス: 機械学習のプロセス全体を効率化するマネージドサービス ML フレームワークとインフラストラクチャ: 機械学習の環境を⾃在に構築して利⽤
  7. © 2020, Amazon Web Services, Inc. or its Affiliates. AWS

    の機械学習スタック VISION SPEECH TEXT SEARCH CHATBOTS PERSONALIZATION FORECASTING FRAUD CONTACT CENTERS Deep Learning AMIs & Containers GPUs & CPUs Elastic Inference Trainium Inferentia FPGA DeepGraphLibrary Amazon Rekognition Amazon Polly Amazon Transcribe +Medical Amazon Lex Amazon Personalize Amazon Forecast Amazon Comprehend +Medical Amazon Textract Amazon Kendra Amazon CodeGuru Amazon Fraud Detector Amazon Translate INDUSTRIAL AI CODE AND DEVOPS NEW Amazon DevOps Guru Voice ID For Amazon Connect Contact Lens NEW Amazon Monitron NEW AWS Panorama + Appliance NEW Amazon Lookout for Vision NEW Amazon Lookout for Equipment NEW Amazon HealthLake HEALTH AI NEW Amazon Lookout for Metrics ANOMALY DETECTION Amazon Transcribe Medical Amazon Comprehend Medical Amazon SageMaker Label data NEW Aggregate & prepare data NEW Store & share features Auto ML Spark/R NEW Detect bias Visualize in notebooks Pick algorithm Train models Tune parameters NEW Debug & profile Deploy in production Manage & monitor NEW CI/CD Human review NEW: Model managementfor edge devices NEW: SageMakerJumpStart SAGEMAKER STUDIO IDE AI サービス: 機械学習の深い知識なしに利⽤可能 ML サービス: 機械学習のプロセス全体を効率化するマネージドサービス ML フレームワークとインフラストラクチャ: 機械学習の環境を⾃在に構築して利⽤
  8. © 2021, Amazon Web Services, Inc. or its Affiliates. Amazon

    EC2 機械学習ワークロードの選択肢
  9. © 2021, Amazon Web Services, Inc. or its Affiliates. 機械学習ワークロードに求められる要件

    幅広い要件が存在 • 推論︖学習︖ • 機械学習モデル(決定⽊︖深層学習︖) • フレームワーク(TensorFlow︖PyTorch︖カスタム︖) • バッチ推論 vs リアルタイム推論 • スループット • レイテンシー • 精度 • コスト • 開発容易性 • 等々 ASIC GPU CPU コストパフォーマンス アプリケーション 全ての機械学習ワークロードに対してベストとなるインスタンス の選択肢は存在しない
  10. © 2020, Amazon Web Services, Inc. or its Affiliates. M5

    M5a M6i Ice Lake CPU Cascade Lake CPU Skylake CPU Habana accelerator EPYC CPU A100, V100, T4 GPUs 従来の機械学習 学習 + 推論 Habana Gaudi 2021 Graviton CPU Inferentia Chip Trainium Chip UltraScale+ FPGA M6g C5 C5a C6g R5 R5a R6g P3 P4 Trainium 2021 Elastic Inference 機械学習向けAmazon EC2インスタンスの幅広い選択肢 推論 Inf1 学習 F1 G4 深層学習
  11. © 2020, Amazon Web Services, Inc. or its Affiliates. M5

    M5a M6i Habana Gaudi 2021 M6g C5 C5a C6g R5 R5a R6g P3 P4 Trainium 2021 Elastic Inference CPUインスタンス 〜従来の機械学習向け選択肢〜 Inf1 F1 G4 CPU (M/C/R) インスタンス • 軽いモデルや⾼い性能を求めない場合に利⽤ • ⽐較的に安価な選択肢。開発容易性は最も⾼い • CPU性能及びメモリの要件に合わせた様々なインスタンスタイプ、サイズの選択肢 Elastic Inference • 幅広いラインナップのAmazon EC2インスタンスにGPUリソースをネットワーク経由でアタッチ することで深層学習の推論処理を⾼速化する安価なアクセラレータオプション • 深層学習の推論処理を最⼤75%コスト削減 • 8TFLOPsから32TFLOPs(Mixed precision)性能まで2ファミリー x 3つのサイズが選択可能 • CPUインスタンス単体では推論性能が不⾜、GPUインスタンスではコスト⾼の場合の選択肢 https://aws.amazon.com/machine-learning/elastic-inference/
  12. © 2020, Amazon Web Services, Inc. or its Affiliates. M5

    M5a M6i Habana Gaudi 2021 M6g C5 C5a C6g R5 R5a R6g P3 P4 Trainium 2021 Elastic Inference F1インスタンス 〜FPGAによる超低遅延実装〜 Inf1 F1 G4 *FPGA (Field Programmable Gate Array) • FPGAとは事前定義された命令セットを持たない書換え可能なハードウェア • 必要な前処理、後処理とともにFPGA上にハードウェア実装する事で超低遅延を実現 • 開発難易度は⾼め • Xilinx社はAI推論開発向けプラットフォーム VitisTM AI を提供 F1 インスタンス • 最⼤8つの Xilinx UltraScale+ VU9P FPGA を搭載 • 各FPGAは200万個以上のロジックセルと5000以上のDSPブロックを搭載 • FPGA開発環境がプリインストール済みのFPGA Developer AMIを提供 https://aws.amazon.com/ec2/instance-types/f1/
  13. © 2020, Amazon Web Services, Inc. or its Affiliates. M5

    M5a M6i Habana Gaudi 2021 M6g C5 C5a C6g R5 R5a R6g P3 P4 Trainium 2021 Elastic Inference Inf1インスタンス 〜AWS独⾃設計推論チップ搭載〜 Inf1 F1 G4 Inf1 インスタンス • 機械学習の推論を⾼性能かつ低価格で実⾏するためのインスタンス • AWSが独⾃設計した機械学習推論チップAWS Inferentiaを搭載 • クラウド上で深層学習モデルを実⾏する上で最も低価格を実現 • GPUインスタンスと⽐較し、最⼤2.3倍のスループット向上、推論処理当たり最⼤70%低価格 https://aws.amazon.com/ec2/instance-types/inf1/ *ASIC (Application Specific Integrated Circuit) • 特定⽤途向けの専⽤チップは、⾼い性能と低いコストを両⽴可能 • 特にInferentiaでは、⾼いスループット(バッチ推論)と低レイテンシー(リアルタイム推論) を両⽴ • ⼀般的には汎⽤CPU、GPUと⽐較すると開発容易性の点で劣る⾯も
  14. © 2020, Amazon Web Services, Inc. or its Affiliates. M5

    M5a M6i Habana Gaudi 2021 M6g C5 C5a C6g R5 R5a R6g P3 P4 Trainium 2021 Elastic Inference G4インスタンス 〜GPUによる推論の⾼速化〜 Inf1 F1 G4 G4 インスタンス • 最⼤8つの NVIDIA T4 GPU を搭載。シングル GPU 搭載の g4dn.xlarge〜16xlarge、マルチGPU 搭載の g4dn.12xlarge (4 GPU)、g4dn.metal (8 GPU)まで、複数のインスタンスタイプを提供 • 機械学習の推論と⼩規模トレーニングのための GPU をベースとしたインスタンス • CUDA, CuDNN, TensorRT等、NVIDIA社のライブラリを利⽤したアプリケーションに最適 https://aws.amazon.com/jp/ec2/instance-types/g4/ *GPU (Graphics Processing Unit) • 元々は名前の通りグラフィックスを描画する際に必要な計算処理に特化したプロセッサ • NVIDIAのGPUでは機械学習向けにTensorコアを実装 • ⾼いスループット性能(バッチ推論)向けのアーキテクチャで、GPUの利⽤効率を上げるために はバッチサイズを⼤きくする必要がある • カスタムオペレータであっても、CUDAで直接記述することによりアクセラレート可能
  15. © 2020, Amazon Web Services, Inc. or its Affiliates. M5

    M5a M6i Habana Gaudi 2021 M6g C5 C5a C6g R5 R5a R6g P3 P4 Trainium 2021 Elastic Inference P3・P4インスタンス 〜GPUによる学習の⾼速化〜 Inf1 F1 G4 P4 インスタンス • 最新の NVIDIA A100 Tensor Core GPU を搭載 • 8つの A100 GPUを搭載した p4d.24xlarge を提供中。GPU間は、NVIDIA NVSwitchにより 各リンク600GB/s のフルメッシュ構成で接続。⾼速でスケーラブルな分散学習環境を実現 • P3インスタンスと⽐較し、パフォーマンスは平均 2.5倍向上、学習コストを最⼤60%削減 P3 インスタンス • NVIDIA V100 GPUを搭載 • シングルGPU搭載のp3.2xlargeから8つのGPUを搭載したp3.16xlarge, p3dn.24xlargeまで、 要件に合わせた複数のインスタンスタイプを提供 • NVIDIA NVLinkによる300GB/s GPU間通信性能。分散学習に対応 https://aws.amazon.com/jp/ec2/instance-types/p3/ https://aws.amazon.com/jp/ec2/instance-types/p4/
  16. © 2020, Amazon Web Services, Inc. or its Affiliates. M5

    M5a M6i Habana Gaudi 2021 M6g C5 C5a C6g R5 R5a R6g P3 P4 Trainium 2021 Elastic Inference 2021年内提供予定 学習向けインスタンスの新たな選択肢 Inf1 F1 G4 Habana Gaudi 搭載インスタンス • 深層学習モデルのトレーニング⽤に特別に設計された、Habana Labs (an Intel company) の Gaudi アクセラレータを搭載したAmazon EC2 インスタンス • 8カードのGaudiアクセラレーターでの深層学習トレーニングにより、現在のGPUベースのEC2 インスタンスよりも最⼤40%優れたコストパフォーマンスを提供 AWS Trainium 搭載インスタンス • AWSが独⾃設計した第2世代機械学習チップ AWS Trainium を搭載したAmazon EC2インス タンス • クラウドで深層学習モデルを学習するための最⾼のコストパフォーマンスを提供 https://aws.amazon.com/ec2/instance-types/habana-gaudi/ https://developer.habana.ai https://aws.amazon.com/machine-learning/trainium/
  17. © 2020, Amazon Web Services, Inc. or its Affiliates. M5

    M5a M6i Ice Lake CPU Cascade Lake CPU Skylake CPU Habana accelerator EPYC CPU A100, V100, T4 GPUs 従来の機械学習 学習 + 推論 Habana Gaudi 2021 Graviton CPU Inferentia Chip Trainium Chip UltraScale+ FPGA M6g C5 C5a C6g R5 R5a R6g P3 P4 Trainium 2021 Elastic Inference 機械学習向けAmazon EC2インスタンスの幅広い選択(再掲) 推論 Inf1 学習 F1 G4 深層学習
  18. © 2021, Amazon Web Services, Inc. or its Affiliates. 推論ワークロードの要件

    ⼿軽にAIサービスを実装したい 軽めのMLモデル、性能要件は低め CPUインスタンスでは性能要件を満たせないが、推論リクエ ストは散発的に発⽣するためGPUインスタンスでは⾮効率 性能要件が⾼めのDLモデル(推論リクエストは常時発⽣ or ⼀度にまとめてバッチ処理可能) NVIDIA CUDA, CuDNN, TensorRT、DALI等、NVIDIA社の ライブラリを利⽤したアプリケーションの最適化を想定 超低遅延が求められ、カスタムでの前処理、後処理のハード ウェア化が必要、IP資産を保持(or 開発リソースあり) プロダクション時のコストとパフォーマンスの最適化が重要 Amazon EC2 インスタンスの選択指針(推論ワークロード) 全ての機械学習ワークロードに対してベストとなるインスタンス の選択肢は存在しない AWS AIサービスを ご検討下さい CPUインスタンス CPUインスタンス + Elastic Inference GPUインスタンス F1インスタンス Inf1インスタンス
  19. © 2020, Amazon Web Services, Inc. or its Affiliates. M5

    M5a M6i Ice Lake CPU Cascade Lake CPU Skylake CPU Habana accelerator EPYC CPU A100, V100, T4 GPUs 従来の機械学習 学習 + 推論 深層学習 Habana Gaudi 2021 推論 Graviton CPU Inferentia Chip Trainium Chip UltraScale+ FPGA M6g C5 C5a C6g R5 R5a R6g F1 Inf1 G4 P3 P4 Trainium 2021 学習 Elastic Inference AWS独⾃設計チップによるコストパフォーマンス最適化 64-bit Arm Neoverseコアを搭載した AWS独⾃開発プロセッサ Graviton2 によるコスト最適化 同等の現⾏世代x86ベースのインスタ ンスと⽐較し最⼤40%優れた価格性能 を提供 AWS独⾃設計ASICによる学習コストの最適化 ※2021年内に利⽤可能予定 AWS独⾃設計ASICによる推論コスト の最適化 G4インスタンスと⽐較し最⼤2.3倍の スループット向上、推論処理当たり最 ⼤70%低価格を実現
  20. © 2021, Amazon Web Services, Inc. or its Affiliates. Amazon

    EC2 Inf1インスタンス によるコストパフォーマンス最適化
  21. © 2021, Amazon Web Services, Inc. or its Affiliates. Amazon

    EC2 Inf1インスタンス • 機械学習の推論を⾼性能かつ低価格で実⾏するためのイ ンスタンス • AWSが独⾃設計した機械学習推論チップAWS Inferentiaを搭載 • クラウド上で深層学習モデルを実⾏する上で最も低価格 を実現 • GPUインスタンスと⽐較し、最⼤2.3倍のスループット 向上、推論処理当たり最⼤70%低価格 • ソフトウェアは主要な機械学習フレームワーク (TensorFlow, PyTorch, MXNet)とシームレスに統合、 最⼩限のコード変更のみですぐに利⽤開始可能 AWS Inferentia AWSが独⾃設計した ⾼性能機械学習推論チップ EC2 Inf1インスタンス クラウド上で⾼速かつ低価格な 推論を実現 https://aws.amazon.com/ec2/instance-types/inf1/
  22. © 2021, Amazon Web Services, Inc. or its Affiliates. 機械学習

    推論⽤プロセッサ AWS Inferentia • AWSによる独⾃設計推論プロセッサ • 4 Neuronコア / チップ • チップ当たり最⼤128 TOPS (2,000 TOPS @24xlarge) • 2ステージ メモリハイアラーキー • ⼤容量オンチップ キャッシュとDRAMメモリ • FP16, BF16, INT8 データタイプをサポート • FP32で構築された学習モデルをBF16で実⾏可能 • ⾼速チップ間通信 Inferentia Neuron コア cache Neuron コア cache メモリ Neuron コア cache Neuron コア cache メモリ メモリ メモリ https://aws.amazon.com/machine-learning/inferentia/
  23. © 2021, Amazon Web Services, Inc. or its Affiliates. 推論ワークロードに合わせてNeuronコアを柔軟に構成

    Neuronコアグループ Neuronコアパイプライン • Neuronコア間、チップ間をパイプラインモードで接続することにより、⼤規模モデルを各オ ンチップキャッシュメモリ上に展開し、⾼スループットと低レイテンシーを両⽴ • 複数のNeuronコアをグループモードで接続することにより、複数のモデルを同時処理、ス ループットの最⼤化を図る
  24. © 2021, Amazon Web Services, Inc. or its Affiliates. Inf1インスタンスの選択肢

    • 4つのインスタンスサイズから選択可能 • インスタンス毎に1~16個のInferentia推論チップを搭載 • 6xlarge、24xlargeでは複数のInferentiaチップを⾼速チップ間通信で接続 • 最⼤100Gbpsのネットワークインタフェース • Amazon SageMaker, Amazon ECS, Amazon EKSからも利⽤可能 • 2021年10⽉現在、東京を含む23のリージョンにて利⽤可能 • 他のEC2同様、複数の⽀払いオプションを⽤意 • オンデマンド、リザーブドインスタンス、スポットインスタンス、Savings Plan インスタンスサイズ Inferentia vCPU メモリ (GiB) ストレージ EBS帯域 (Gbps) NW帯域 (Gbps) オンデマンド価格 (USD/時間) inf1.xlarge 1 4 8 EBS Only 最⼤ 3.5 最⼤ 25 0.228 inf1.2xlarge 1 8 16 EBS Only 最⼤ 3.5 最⼤ 25 0.362 inf1.6xlarge 4 24 48 EBS Only 3.5 25 1.18 inf1.24xlarge 16 96 192 EBS Only 19 100 4.721 *2021年10⽉時点の⽶国東部 (バージニア北部)の価格 2021年6⽉1⽇ 料⾦改定 (38%削減)
  25. © 2021, Amazon Web Services, Inc. or its Affiliates. クラウド上のML推論でベストプライスパフォーマンスを提供

    ※HuggingFace BERT-base モデルをPyTorchで実⾏した結果 (seqlen=128, batch size g4dn:64, inf1:6) インスタンス タイプ スループット (Seq/Sec) OD価格 ($/Hr) 1M 推論当た りのコスト スループット Inf1 vs. G4 推論当たりのコスト Inf1 vs. G4 inf1.xlarge 985 $0.228 $0.064 2.3倍 向上 81% 削減 g4dn.xlarge 422 $0.526 $0.346 インスタンス タイプ スループット (img/Sec) OD価格 ($/Hr) 1M 推論当た りのコスト スループット Inf1 vs. G4 推論当たりのコスト Inf1 vs. G4 inf1.xlarge 2,226 $0.228 $0.028 24% 向上 65% 削減 g4dn.xlarge 1,792 $0.526 $0.082 ⾃然⾔語 ※ResNet-50 モデルをTensorFlowで実⾏した結果 画像分類 ※YoloV4モデルをTensorFlowで実⾏した結果 インスタンス タイプ スループット (img/Sec) OD価格 ($/Hr) 1M 推論当た りのコスト スループット Inf1 vs. G4 推論当たりのコスト Inf1 vs. G4 inf1.2xlarge 118 $0.362 $0.852 1.82倍 向上 62% 削減 g4dn.xlarge 65 $0.526 $2.248 物体検出 G4インスタンスと⽐較し、最⼤2.3倍のスループット向上、推論処理当たり最⼤70%低価格を実現
  26. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS

    Neuron Inferentia上での⾼性能推論を実現するためのSDK Neuron コンパイラ Neuron ランタイム プロファイリングツール 主要なフレームワークを全てサポート 各フレームワーク、Neuron SDKは DLAMI (AWS Deep Learning AMI)に プリインストール AWS Neuron SDK ドキュメント https://awsdocs-neuron.readthedocs-hosted.com/ https://github.com/aws/aws-neuron-sdk チュートリアル サンプルコード
  27. © 2020, Amazon Web Services, Inc. or its Affiliates. 複数のモデルを

    同時処理 Neuronコア グループ AWS Neuron コンパイラ 超低遅延と⾼いス ループットの両⽴ Neuronコア パイプライン FP32で学習済みの モデルを取り込み BF16へ⾃動変換 FP32オート キャスティング ⾃動的にニューラル ネットワークの演算 を最適化 スマート パーティショニング
  28. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS

    Neuron コンパイラ • わずか数⾏のコードの変更のみで、事前学習済みモデルをInferentiaチップ向け にコンパイル可能
  29. © 2021, Amazon Web Services, Inc. or its Affiliates. リアルタイム推論性能最適化

    インスタンス タイプ スループット (Seq/Sec) レイテンシー (mSec) 1M 推論当た りのコスト スループット Inf1 vs. G4 推論当たりのコスト Inf1 vs. G4 inf1.xlarge 985 24.9 $0.064 2.3倍 向上 81% 削減 g4dn.xlarge 422 153.3 $0.346 バッチ推論性能(コストパフォーマンス)最適化 ※バッチサイズ = 6 (inf1), 64 (g4dn) インスタンス タイプ スループット (Seq/Sec) レイテンシー (mSec) 1M 推論当た りのコスト スループット Inf1 vs. G4 推論当たりのコスト Inf1 vs. G4 inf1.6xlarge 1793 6.9 $0.183 12.0倍 向上 81% 削減 g4dn.xlarge 149 8.2 $0.981 リアルタイム推論性能最適化 ※バッチサイズ = 1 https://aws.amazon.com/jp/blogs/news/achieve-12x-higher-throughput-and-lowest-latency-for-pytorch- natural-language-processing-applications-out-of-the-box-on-aws-inferentia/ コンパイル時にパイプラインモードを指定し、 BERTモデルでリアルタイム推論性能最適化を実現
  30. © 2021, Amazon Web Services, Inc. or its Affiliates. Amazon

    サービス内での Inf1 インスタンス活⽤事例 AWS Inferentia ベースの Inf1 インスタンスでは、物体分類などの Rekognition モデルを実⾏すると、GPU でこれらのモデルを実⾏する場合と⽐較して、レイテ ンシーが 8 倍低くなり、スループットが 2 倍になります。 – Rajneesh Singh, Director, SW Engineering, Rekognition and Video https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials Amazon SageMaker を使⽤してモデルを Inf1 インスタンスにデプロイすること で、スケーラブルかつ管理が容易になりました。これらのモデルでは、同等の GPU ベースのインスタンスと⽐較して、すでに 30% 低レイテンシーと 71% の コスト削減を達成しています。 - Yashal Kanungo, Applied Scientist, Amazon Advertising ウェブベースの質問回答 (WBQA) ワークロードを GPU ベースの P3 インスタン スから AWS 推論ベースの Inf1 インスタンスに移⾏することで、推論コストを 60% 削減できただけでなく、エンドツーエンドのレイテンシーを 40% 以上改 善し、お客様の Q&A エクスペリエンスの向上に貢献しています。 - Eric Lind, Software Development Engineer, Alexa AI. Amazon Rekognition
  31. © 2021, Amazon Web Services, Inc. or its Affiliates. お客様の声

    https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials Amazon Rekognition
  32. © 2021, Amazon Web Services, Inc. or its Affiliates. ©

    2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. まとめ • AWS では機械学習ワークロード向けに 幅広い Amazon EC2 インスタンスの 選択肢を提供中 • 推論ワークロード向けには、複数の選択肢を提供中。AWS独⾃開発の推論プ ロセッサ AWS Inferentia を搭載した Inf1インスタンスではクラウド上での ML推論でコストパフォーマンスの最適化を実現 • 学習ワークロード向けには、最新 NVIDIA A100 Tensor Core GPU を搭載し た P4d インスタンスを提供中。2021年内には新たな選択肢として、Habana Gaudi 搭載インスタンス、AWS Trainium 搭載インスタンスを提供予定 是⾮皆さんの機械学習ワークロードを AWS上で動かしてみてください︕