Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Amazon EC2 Inf1 インスタンスハンズオン / Amazon EC2 Inf1 I...

Amazon EC2 Inf1 インスタンスハンズオン / Amazon EC2 Inf1 Instance Hands-on

2022 年 3 月 24 日開催、AWS ハンズオンセミナー「深層学習アクセラレータインスタンス」より

Agenda
• AWS 上で深層学習ワークロードを動かすための選択肢 (30 min)
• 独⾃設計チップ AWS Inferentia と AWS Trainium による
機械学習の⾼速化とコスト最適化 (30 min)
• Amazon EC2 Inf1 インスタンスハンズオン (1 h 40 min)
- TensorFlow ResNet-50 モデルによる画像分類 on EC2
- Hugging Face (PyTorch) BERT モデルによる⾃然⾔語処理 on EC2
- Hugging Face (PyTorch) BERT モデルによる⾃然⾔語処理 on SageMaker

Hiroshi Tokoyo

March 24, 2022
Tweet

More Decks by Hiroshi Tokoyo

Other Decks in Technology

Transcript

  1. © 2022, Amazon Web Services, Inc. or its Affiliates. Amazon

    Web Services Japan 2022/3/24 AWS 深層学習アクセラレータ Amazon EC2 Inf1 インスタンスハンズオン
  2. © 2022, Amazon Web Services, Inc. or its Affiliates. •

    AWS 上で深層学習ワークロードを動かすための選択肢 (30 min) • 独⾃設計チップ AWS Inferentia と AWS Trainium による 機械学習の⾼速化とコスト最適化 (30 min) • Amazon EC2 Inf1 インスタンスハンズオン (1 h 40 min) • TensorFlow ResNet-50 モデルによる画像分類 on EC2 • Hugging Face (PyTorch) BERT モデルによる⾃然⾔語処理 on EC2 • Hugging Face (PyTorch) BERT モデルによる⾃然⾔語処理 on SageMaker • Q&A, アンケート (20 min) 本⽇のアジェンダ
  3. © 2022, Amazon Web Services, Inc. or its Affiliates. •

    AWS 上で深層学習ワークロードを動かすための選択肢 (30 min) • 独⾃設計チップ AWS Inferentia と AWS Trainium による 機械学習の⾼速化とコスト最適化 (30 min) • Amazon EC2 Inf1 インスタンスハンズオン (1 h 40 min) • TensorFlow ResNet-50 モデルによる画像分類 on EC2 • Hugging Face (PyTorch) BERT モデルによる⾃然⾔語処理 on EC2 • Hugging Face (PyTorch) BERT モデルによる⾃然⾔語処理 on SageMaker • Q&A, アンケート (20 min) 本⽇のアジェンダ
  4. © 2022, Amazon Web Services, Inc. or its Affiliates. ⾃⼰紹介

    名前︓常世 ⼤史 (とこよ ひろし) 所属︓Annapurna labs (アンナプルナラボ) 職務︓アンナプルナラボ発信技術の拡販、技術⽀援 経歴︓外資半導体企業を経て、2013年7⽉アンナプルナラボ に参加。2015年2⽉の買収に伴い AWS の⼀員に 好きなAWSサービス︓ EC2 Inf1インスタンス、F1インスタンス 2021 AWS Summit Online Japan Keynote Annapurna labs (アンナプルナラボ) とは... AWS 内の半導体開発部⾨。 Inferentia 推論専⽤ チップや Graviton 64bit ARM プロセッサを開発
  5. © 2022, Amazon Web Services, Inc. or its Affiliates. AWS

    におけるシリコンイノベーション 〜Annapurna Labs によるチップ開発の歴史〜 7+ years of innovation with Annapurna Labs AWS Nitro System ハイパーバイザー, ネットワーク, ストレージ, SSD, セキュリティ AWS Inferentia AWS Trainium 機械学習アクセラレーション AWS Graviton パワフルかつ効率的な 最新プロセッサ
  6. © 2022, Amazon Web Services, Inc. or its Affiliates. なぜ独⾃チップを作るのか︖

    運⽤ イノベーション スピード 最適化 AWS の仕様に合わせて ハードウェアを最適化 ⾼い電⼒効率 製品の仕様化から導⼊ までエンドツーエンド の開発プロセス より多くの価値を創造 エンドツーエンドでの 最適化 信頼性・可⽤性 動作監視・⾃⼰回復機能 をチップレベルで実装
  7. © 2022, Amazon Web Services, Inc. or its Affiliates. 機械学習向け

    Amazon EC2 インスタンスの選択肢 Ice Lake CPU Cascade Lake CPU Habana accelerator EPYC CPU A100, A10G, T4G GPUs Graviton CPU Inferentia Chip Trainium Chip UltraScale+ FPGA アクセラレーテッドコンピューティング C7g C6g C6i C5a M6g M6i M6a R6g R6i R5a F1 Inf1 G5g G5 P4 DL1 Trn1 Elastic Inference 従来の機械学習 推論 学習 深層学習 学習 + 推論
  8. © 2022, Amazon Web Services, Inc. or its Affiliates. 機械学習向け

    Amazon EC2 インスタンスの選択肢 Ice Lake CPU Cascade Lake CPU Habana accelerator EPYC CPU A100, A10G, T4G GPUs Graviton CPU Inferentia Chip Trainium Chip UltraScale+ FPGA アクセラレーテッドコンピューティング C7g C6g C6i C5a M6g M6i M6a R6g R6i R5a F1 Inf1 G5g G5 P4 DL1 Trn1 Elastic Inference 従来の機械学習 推論 学習 深層学習 学習 + 推論 最新 Graviton3 プロセッサ搭載 bfloat16 と fp16 に対応し機械学習 ワークロードでは最大3倍高速に 現在プレビュー中 AWS Trainium による学習コストの 最適化 現在プレビュー中 AWS Inferentia による推論コストの最 適化 G4インスタンスと比較し最大2.3倍の スループット向上、推論処理当たり 最大70%低価格を実現 AWS独自開発プロセッサ Graviton2 によるコスト最適化 M/C/R6gインスタンスはx86ベースの M/C/R5インスタンスと比較し最大 40%優れた価格性能を提供
  9. © 2022, Amazon Web Services, Inc. or its Affiliates. AWS

    Inferentia 搭載 ML推論向け Amazon EC2 Inf1インスタンス
  10. © 2022, Amazon Web Services, Inc. or its Affiliates. Amazon

    EC2 Inf1 インスタンス • 機械学習の推論を⾼性能かつ低価格で実⾏するための インスタンス • AWS が独⾃設計した機械学習推論チップ AWS Inferentia を搭載 • クラウド上で深層学習モデルを実⾏する上で最も低価 格を実現 • GPUインスタンスと⽐較し最⼤2.3倍のスループット 向上、推論処理当たり最⼤70%低価格 • ソフトウェアは主要な機械学習フレームワーク (TensorFlow, PyTorch, MXNet)とシームレスに統合、 最⼩限のコード変更のみですぐに利⽤開始可能 EC2 Inf1インスタンス クラウド上で高速かつ低価格な 推論を実現 https://aws.amazon.com/ec2/instance-types/inf1/
  11. © 2022, Amazon Web Services, Inc. or its Affiliates. Amazon

    EC2 Inf1 インスタンス • 4つのインスタンスサイズから選択可能 • インスタンス毎に1~16個の Inferentia 推論チップを搭載 • 6xlarge、24xlargeでは複数の Inferentia チップを⾼速チップ間通信で接続 • 最⼤ 100Gbps のネットワークインタフェース • 2022年3⽉現在、東京を含む23のリージョンにて利⽤可能 • 他のEC2同様、複数の⽀払いオプションを⽤意 • オンデマンド、リザーブドインスタンス、スポットインスタンス、Savings Plans インスタンスサイズ Inferentia vCPU メモリ (GiB) ストレージ EBS帯域 (Gbps) NW帯域 (Gbps) オンデマンド価格 (USD/時間) inf1.xlarge 1 4 8 EBS Only 最⼤ 3.5 最⼤ 25 0.228 inf1.2xlarge 1 8 16 EBS Only 最⼤ 3.5 最⼤ 25 0.362 inf1.6xlarge 4 24 48 EBS Only 3.5 25 1.18 inf1.24xlarge 16 96 192 EBS Only 19 100 4.721 *2022年3⽉時点の⽶国東部 (バージニア北部)の価格 2021年6⽉1⽇ 料⾦改定 (38%削減)
  12. © 2022, Amazon Web Services, Inc. or its Affiliates. 機械学習

    推論⽤プロセッサ AWS Inferentia • AWS による独⾃設計推論プロセッサ • 4 Neuron コア / チップ • チップ当たり最⼤128 TOPS (2,000 TOPS @24xlarge) • 2ステージ メモリハイアラーキー • ⼤容量オンチップ キャッシュと8GB DRAMメモリ • FP16, BF16, INT8 データタイプをサポート • FP32で構築された学習モデルをBF16で実⾏可能 • ⾼速チップ間通信 Inferentia Neuron コア cache Neuron コア cache メモリ Neuron コア cache Neuron コア cache メモリ メモリ メモリ https://aws.amazon.com/machine-learning/inferentia/
  13. © 2022, Amazon Web Services, Inc. or its Affiliates. ワークロードに合わせて

    Neuronコアを柔軟に構成 • Neuronコア間、チップ間をパイプラインモードで接続することにより、⼤規模モデルを各オ ンチップキャッシュメモリ上に展開し、⾼スループットと低レイテンシーを両⽴ • 複数の Neuronコアをグループモードで接続することにより、複数のモデルを同時処理、ス ループットの最⼤化を図る Neuronコアグループ Neuronコアパイプライン
  14. © 2022, Amazon Web Services, Inc. or its Affiliates. AWS

    Inferentia によるコスト最適化 $0.000 $0.300 $0.600 $0.900 G4dn.xl G5.xl Inf1.xl Yolov5 $0.000 $0.025 $0.050 $0.075 G4dn.xl G5.xl Inf1.xl Resnet50 $0.000 $0.100 $0.200 $0.300 G4dn.xl G5.xl Inf1.xl Bert-Base -49% -68% Bert-Base Yolov5 Resnet50 1M 推論当たりのコスト (USD) -42% *G4dn: NVIDIA T4 GPU 搭載 G5: NVIDIA A10G GPU 搭載
  15. © 2022, Amazon Web Services, Inc. or its Affiliates. AWS

    Neuron Inferentia上での⾼性能推論を実現するためのSDK Neuron コンパイラ Neuron ランタイム プロファイリングツール 主要なフレームワークを全てサポート 各フレームワーク、Neuron SDKは DLAMI (AWS Deep Learning AMI)に プリインストール AWS Neuron SDK ドキュメント https://awsdocs-neuron.readthedocs-hosted.com/ https://github.com/aws/aws-neuron-sdk チュートリアル サンプルコード
  16. © 2022, Amazon Web Services, Inc. or its Affiliates. 複数のモデルを

    同時処理 Neuronコア グループ AWS Neuron コンパイラ 超低遅延と⾼いス ループットの両⽴ Neuronコア パイプライン FP32で学習済みの モデルを取り込み BF16へ⾃動変換 FP32オート キャスティング ⾃動的にニューラル ネットワークの演算 を最適化 スマート パーティショニング
  17. © 2022, Amazon Web Services, Inc. or its Affiliates. AWS

    Neuron コンパイラ • わずか数⾏のコードの変更のみで、事前学習済みモデルをInferentiaチップ向け にコンパイル可能
  18. © 2022, Amazon Web Services, Inc. or its Affiliates. AWS

    マネージドサービスでの Inf1 対応 Amazon SageMaker • Inf1 インスタンスを開始するための最も簡単で迅速な⽅法 • Amazon SageMaker は機械学習モデルをすばやく構築、トレーニング、デプロイするためのフ ルマネージドサービス • Inf1 インスタンスと Neuron はモデルをワンクリックでデプロイできるよう SageMaker に統合 Amazon EKS & ECS • Inf1 は Amazon EKS 及び ECS 上で利⽤可能 • Inf1 インスタンス上にモデルをデプロイするのに最適なマネージドコンテナサービス AWS DLAMI & DL コンテナ • Neuron は AWS Deep Learning AMI 及び AWS Deep Learning コンテナ にプリインストール AWS Deep Learning Containers AWS Deep Learning AMIs Amazon SageMaker AWS Elastic Kubernetes Service Amazon Elastic Container Service
  19. © 2022, Amazon Web Services, Inc. or its Affiliates. 最適化例

    – ⾼スループットと低レイテンシーの両⽴ • 推論には⾼いスループットを求めるバッチ推論と、低いレイテンシーが求められ るリアルタイム推論の2つの異なる処理⽅式が存在 • GPUでは⾼いスループットを達成するためには⼤きなバッチサイズが必要となり、 レイテンシーも増⼤ • Inf1 ではパイプラインモードを活⽤することで、 ⾼いスループットと低いレイ テンシーを両⽴、リアルタイム推論性能最適化を実現
  20. © 2022, Amazon Web Services, Inc. or its Affiliates. 最適化例

    – ⾼スループットと低レイテンシーの両⽴ 0 40 80 120 160 0.00 0.30 0.60 0.90 1.20 p95 レイテンシー (mSec) 1M 推論当たりのコスト (USD) レイテンシー vs. 推論当たりのコスト G4dn Inf1 ターゲットレイテンシー (SLA) バッチサイズ 64 バッチサイズ 1 バッチサイズ 1 バッチサイズ 6 https://aws.amazon.com/jp/blogs/news/achieve-12x-higher-throughput-and-lowest-latency-for- pytorch-natural-language-processing-applications-out-of-the-box-on-aws-inferentia/
  21. © 2022, Amazon Web Services, Inc. or its Affiliates. 様々なお客様でコストパフォーマンス最適化を実現

    https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials Hotpot.ai Amazon Rekognition
  22. © 2022, Amazon Web Services, Inc. or its Affiliates. Alexa

    は、実際の⼈間の会話のような⾃然 な⾳声を⽣成する⾮常に複雑な⾳声合成モ デルを導⼊しており、全世界で1億台以上 の Alexa デバイスをサポートしています Inf1インスタンスにより、GPUインスタン スと⽐較して運⽤コストを約30%削減し、 推論レイテンシを25%改善することができ ました AMAZON ALEXA © 2021, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  23. © 2022, Amazon Web Services, Inc. or its Affiliates. ⾳声合成

    (Text-to-Speech) モデルの最適化例 Inferentia1 Inferentia2 TTS Process Vocoder 2 Vocoder 4 Vocoder 1 Vocoder 3 コンテキスト ⽣成 Neuronコア グループで実⾏ Neuron Core cache Neuronコア パイプラインで実⾏ Neuron Core cache Neuron Core cache Neuron Core cache Neuron Core cache Neuron Core cache Neuron Core cache Neuron Core cache
  24. © 2022, Amazon Web Services, Inc. or its Affiliates. お客様の声

    AWS Inferentia ベースの Inf1 インスタンスでは、物体分類などの Rekognition モ デルを実行すると、GPU でこれらのモデルを実行する場合と比較して、レイテン シーが 8 倍低くなり、スループットが 2 倍になります。 – Rajneesh Singh, Director, SW Engineering, Rekognition and Video https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials Amazon SageMaker を使用してモデルを Inf1 インスタンスにデプロイすることで 、デプロイはスケーラブルで管理が簡単になりました。これらのモデルでは、同 等の GPU ベースのインスタンスと比較して、すでに 30% 低レイテンシーと 71% のコスト削減をベンチマークしています。 - Yashal Kanungo, Applied Scientist, Amazon Advertising ウェブベースの質問回答 (WBQA) ワークロードを GPU ベースの P3 インスタンス から AWS 推論ベースの Inf1 インスタンスに移行することで、推論コストを 60% 削減できるだけでなく、エンドツーエンドのレイテンシーが 40% 以上改善されま した。TensorFlow ベースのモデルに Amazon SageMaker を使用すると、Inf1 イ ンスタンスへの切り替えプロセスが簡単で管理が簡単になりました。 - Eric Lind, Software Development Engineer, Alexa AI. Amazon Rekognition
  25. © 2022, Amazon Web Services, Inc. or its Affiliates. お客様の声

    「私たちは Snapchat の多くの側面において機械学習 (ML) を組み込んでおり、この分野の イノベーションを探求することを重要な優先事項としています。Inferentia について聞いた 後、AWS とのコラボレーションを開始して Inf1/Inferentia インスタンスを採用し、パフォー マンスやコストなど、機械学習のデプロイを支援しました。私たちは推奨モデルから始めま したが、今後は Inf1 インスタンスでさらに多くのモデルを採用することを楽しみにしていま す」 - Nima Khajehnouri, VP Engineering, Snap Inc. https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials Anthem は、米国を代表する医療保険会社の 1 つであり、数十州にわたり 4000 万人以上の メンバーの医療ニーズに対応しています。「デジタル医療プラットフォームの市場は目覚ま しい速度で成長しています。この市場に関するインテリジェンスは、膨大な量の顧客の意見 データと構造化されていないその性質のため、収集が困難です。当社のアプリケーションは、 深層学習の自然言語モデル (トランスフォーマー) を介して顧客の意見から実用的な洞察を 自動的に生成します。当社のアプリケーションは計算集約型であり、高性能な方法でデプロ イする必要があります。AWS Inferentiaプロセッサを搭載した Amazon EC2 Inf1 インスタン スに深層学習推論ワークロードをシームレスにデプロイしました。新しい Inf1 インスタン スは、GPU ベースのインスタンスに比べ 2倍のスループットを提供し、推論ワークロード を合理化することができました」 - Numan Laanait PhD, Principal AI/Data Scientist - Miro Mihaylov PhD, Principal AI/Data Scientist
  26. © 2022, Amazon Web Services, Inc. or its Affiliates. お客様の声

    https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials 「Condé Nast のグローバルポートフォリオには、Wired、Vogue、Vanity Fair など 20 を超 える主要なメディアブランドが含まれています。数週間で私たちのチームはレコメンデーシ ョンエンジンを AWS Inferentia チップと統合できました。この統合により SageMaker の Inf1インスタンスで最先端の自然言語モデルの複数のランタイム最適化が可能になります。 その結果、以前にデプロイされた GPUインスタンスよりも 72% のコスト削減が見られまし た」 - Paul Fryzel, Principal Engineer, AI Infrastructure 「Autodesk は、Inferentia を使用して、AI を活用した仮想アシスタントである Autodesk Virtual Agent (AVA) の認知テクノロジーを進歩させています。AVA は、自然言語理解 (NLU) と深層学習技術を適用して、問い合わせの背後にあるコンテキスト、意図、および意味を抽 出することにより、顧客の質問に毎月 100,000 件以上の回答を行っています。Inferentia を パイロットすると、NLU モデルで G4dn よりも 4.9 倍高いスループットを得ることができ、 Inferentia ベースの Inf1 インスタンスで多くのワークロードを実行できることを楽しみにし ています」 - Binghui Ouyang, Sr Data Scientist, Autodesk
  27. © 2022, Amazon Web Services, Inc. or its Affiliates. お客様の声

    「INGA は、現在のビジネスパイプラインに簡単に統合できる、人工知能と深層学習技術に 基づく高度なテキスト要約ソリューションを作成しています。テキストの要約は、企業が データから有意義なインサイトを引き出す支援を行う上で重要になると考えます。AWS Inferentia ベースの Amazon EC2 Inf1 インスタンスを迅速に立ち上げ、開発パイプラインに 統合しました。あっという間に影響が広がり、またその影響は重大でした。Inf1 インスタン スの高いパフォーマンスで、推論モデルパイプラインの効率と効果を向上させることができ ます。これまでの GPU ベースのパイプラインと比較して、従来の常識を破って、スルー プットでは 4 倍、パイプライン全体のコストでは 30% の削減を実現しています。」 Yaroslav Shakula, Chief Business Development Officer, INGA Technologies https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials 「SkyWatch では、毎日、宇宙から送られる数百兆ピクセルもの地球観測データを処理して います。リアルタイムでのクラウド検出と画質のスコアリングに Amazon SageMaker を使っ た新しい AWS Inferentia ベースの Inf1 インスタンスの採用は、迅速かつ簡単でした。デプロ イ設定でインスタンスタイプを切り替えるだけで済みました。インスタンスタイプを Inferentia ベースの Inf1 に切り替えることで、パフォーマンスが 40% 向上し、全体のコスト は 23% 削減しました。大成功でした。これにより、エンジニアリングのオーバーヘッドを 最小限に抑えて、高品質の衛星画像を提供しながら、全体的な運用コストを削減してきまし た。Inf1 インスタンスを使って、すべての推論エンドポイントとバッチ ML 処理を移行し、 データの信頼性とカスタマーエクスペリエンスをさらに向上しようとしています。」 Adler Santos, Engineering Manager, SkyWatch
  28. © 2022, Amazon Web Services, Inc. or its Affiliates. ⽇本国内のお客様の声

    “物体検出に基づいて、従業員のいない実店舗のビデオから、入店する顧客の人数を推定す ることによって洞察を提供することもできます。Ciao Camera は、Inf1 インスタンスを商業 的に採用し、YOLOv4 を搭載した G4dn よりも 40% 優れた価格性能比を実現しました。" Shinji Matsumoto, Software Engineer, Ciao Inc. “画像セグメンテーションモデルは、GPU ベースの G4 インスタンスと比べ、AWS Inferentia ベースの Inf1 インスタンスで 4倍高速で実行されることを認識しました。この高 スループットと低コストにより、Inferentia を使用すると、車のドライブレコーダーのアプ リケーションなど、AI ワークロードを大規模にデプロイすることができます。“ Hiroyuki Umeda, Director & General Manager, Sales & Marketing Group, Digital Media Professionals “PyTorchベースのテキスト要約 AIアプリケーションを検証しました。 このアプリケーショ ンは、過去30年間の記事で学習されたモデルを利用し、ヘッドラインと要約文を生成します。 Inferentiaを使用して、CPUベースのインスタンスよりもコストを1桁削減しました。 以前は コスト面で実現できなかった複雑なモデルを大規模に展開可能となります。” Hideaki Tamori, PhD, Senior Administrator, Media Lab, The Asahi Shimbun Company https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials “高度な姿勢推定マシンラーニングモデルに基づいた動作分析 API プラットフォームサービ ス「AnyMotion」を開発しました。Amazon EC2 Inf1 に AnyMotion コンテナをデプロイする ことで、現行の GPU ベースの EC2 インスタンスと比較して、4.5 倍のスループットを達成、 推論レイテンシーが 25% 短縮され、コストも 90% 削減できました。" Toshiki Yanagisawa, Software Engineer - NTT PC Communications Incorporated
  29. © 2022, Amazon Web Services, Inc. or its Affiliates. AWS

    Trainium 搭載 ML学習向け Amazon EC2 Trn1インスタンス
  30. © 2022, Amazon Web Services, Inc. or its Affiliates. ELMo

    (2018) BERT-Large (2018) GPT-2 (2019) Turing NLG (2020) GPT-3 (2020) Switch-C (2021) … 100 B 1B 1T 10T 10B 100 M AI/ML インフラストラクチャの主要トレンド GROWTH IN MODEL COMPLEXITY (# of parameters) 1. 古典的な機械学習から深層学習(ディープラーニング) に移⾏しているため、モデルはより複雑化 2. モデルの学習にかかる時間とコストは、数⽇から数週間 へと爆発的に増加中 3. データサイエンティストやMLエンジニアは、⾃分たち のユースケースや経験に適したソフトウェアツールや ハードウェアプラットフォームを模索
  31. © 2022, Amazon Web Services, Inc. or its Affiliates. Amazon

    EC2 Trn1 インスタンス The most cost-efficient DL instance in the cloud B F 1 6 / F P 1 6 F P 3 2 840 TFLOPS T F 3 2 3.4 PFLOPS 3.4 PFLOPS T R A N S I S T O R S P E R C H I P 55,000,000,000 Trn1 演 算 エ ン ジ ン 周 波 数 3 GHz ア グ リ ゲ ー ト ア ク セ ラ レ ー タ メ モ リ 512 GB ピ ー ク メ モ リ 帯 域 幅 13.1 TB/sec チ ッ プ 間 N E U R O N LI N K 帯 域幅 768 GB/sec ネ ッ ト ワ ー ク コ ネ ク テ ィ ビ テ ィ 800 Gbps EFA
  32. © 2022, Amazon Web Services, Inc. or its Affiliates. Amazon

    EC2 Trn1 インスタンス The most cost-efficient DL instance in the cloud • 60% 増強したアクセラレータメモリ(vs. P4d) • 2倍のネットワーク帯域幅 (vs. P4d) • PyTorch 及び TensorFlow をネイティブにサポート • Trn1上で学習し、デプロイ先は⾃由 • 2022前半での⼀般提供を予定 インスタンスサイズ Trainium チップ数 アクセラレー タメモリ (GB) vCPU メモリ (GB) NeuronLink (GB/s) NW帯域 (Gbps) NVMe SSD (TB) Trn1.2xlarge 1 32 8 32 N/A 最⼤ 10 0.5 Trn1.32xlarge 16 512 128 512 768 800 8 https://aws.amazon.com/jp/ec2/instance-types/trn1/
  33. © 2022, Amazon Web Services, Inc. or its Affiliates. Trainium

    機械学習 学習⽤プロセッサ AWS Trainium • AWS による第2世代 独⾃設計機械学習プロセッサ • 2 Neuronコア / チップ • Tensor エンジン︓畳み込み等、⾏列演算に最適化 • Scalar エンジン︓RELU等の活性化関数に最適化 • Vector エンジン︓Batch Normalizationやプーリング処理に最適化 • 組込型汎⽤DSP︓カスタムオペレータに対応 • 専⽤ collective compute エンジン • 分散学習を⾏う際に、計算と通信をオーバーラップ可能 • 32GB HBM2E メモリスタック • Configurable FP8、 Stochastic roundingにハードウェア で対応 https://aws.amazon.com/machine-learning/trainium/ HBM2E メモリ Collective compute エンジン Neuronコア Vector エンジン Scalar エンジン DSP Tensor エンジン Neuronコア Vector エンジン Scalar エンジン DSP Tensor エンジン
  34. © 2022, Amazon Web Services, Inc. or its Affiliates. 対応するデータタイプと性能⽐

    FP32 P R E C I S I O N R A N G E S TF32 BF16 FP16 cFP8 UINT8 0 1 2 3 4 BF16/FP16 TF32 FP32 Normalized Performance P3dn P4d Trn1 デ ー タ タ イ プ ご と の 性 能 ( T F L O P S ) ⽐ NLP/DLRM Computer vision >5x >2.5x 1.4x *P3dn: NVIDIA V100 GPU 搭載 P4d: NVIDIA A100 GPU 搭載 性 能 ( T F L O P S ) ⽐
  35. © 2022, Amazon Web Services, Inc. or its Affiliates. Stochastic

    rounding (確率的な丸め処理) • Round nearest even (標準的な丸め処理の⼿法) • 端数が0.5より⼩さいなら切り捨て、端数が0.5より⼤きいならは切り上げ • 重みのパラーメータ1に対して0.2を何度加えても結果は変わらない • Stochastic rounding (確率的な丸め処理) • 重みのパラーメータ1に0.2を加える場合、80%の確率で1、20%の確率で2として処理 https://arxiv.org/pdf/1502.02551.pdf
  36. © 2022, Amazon Web Services, Inc. or its Affiliates. Petabits/s

    throughput, billions of IOPS Trn1 10K+ Trainium Chips Trn1 Trn1 Trn1 Trn1 Trn1 Trn1 Trn1 EC2 UltraClusters Petabit non- blocking TOR 超⼤型モデルのための UltraCluster スケールアウト EC2 UltraClusterごとに1万以上のTrainiumアクセラレータを搭載 2.1 ExaFLOPS の演算性能を持つ世界最⾼⽔準の スーパーコンピュータへのオンデマンドアクセス
  37. © 2022, Amazon Web Services, Inc. or its Affiliates. スケールアウトのための構成

    ⼤容量インサーバアクセラレータメモリ アクセラレータ メモリ P3dn 256 GB 320 GB 512 GB P4d Trn1 ⾼帯域・低レイテンシーインターコネクト チップ間インタ ーコネ クト P3dn 300 GB/s 600 GB/s 768 GB/s P4d Trn1 ネットワーク帯 域幅 (EFA) P3dn 100 Gb/s 400 Gb/s 800 Gb/s P4d Trn1 (NeuronLink) *P3dn: NVIDIA V100 GPU 搭載 P4d: NVIDIA A100 GPU 搭載
  38. © 2022, Amazon Web Services, Inc. or its Affiliates. スケールアウトのための構成

    演算と通信の並列化 コア演算と通信を別々のエンジンで実現 0 0.4 0.8 1.2 1.6 16 32 64 128 256 512 1024 Relative performance Batch size Trn1.32xl P4d.24xl STRONG SCALIN G ⼩さなバッチサイズで も効率的に実⾏ Trainium Compute エンジン Compute エンジン Comm エンジン Computation Communication Time ストロングスケーリング* ⼩さなバッチサイズでも効率的に実⾏ *トータルバッチサイズをノード数で分割することで 1ノード当たりのバッチサイズを減らし⾼速化 性 能 ⽐ バッチサイズ 演算フェーズ 通信フェーズ
  39. © 2022, Amazon Web Services, Inc. or its Affiliates. フレームワークの完全統合,

    JIT, Eagerモード, collective compute フレームワーク インテグレーション 10K以上のデバイスへの スケールアップ、分散型 トレーニングライブラリ の統合, EFAに対応 分散トレーニング カスタムオペレータ, dynamic shapes, 新しいデータタイプ, stochastic rounding (確率 的な丸め処理) に対応 柔軟性と拡張性 Amazon SageMaker, Amazon EKS & ECS, AWS ParallelCluster, AMIs AWSサービスと連携 AWS Neuron
  40. © 2022, Amazon Web Services, Inc. or its Affiliates. AWS

    ポートフォリオとの統合 ネットワーキング & ストレージ フレームワーク & ワークフロー サービス コンピュート & アクセラレー ション Amazon FSx for Lustre Amazon S3 EC2 Trn1 UltraCluster Amazon EC2 Trn1 Amazon SageMaker AWS Deep Learning AMIs Amazon EKS Amazon ECS AWS Deep Learning Containers Elastic Fabric Adapter Amazon EBS Amazon EFS Pytorch TensorFlow
  41. © 2022, Amazon Web Services, Inc. or its Affiliates. お客様の声

    “Sprinklrの⾃然⾔語処理とコンピュータビジョンのMLモデルは、30以上の チャンネルで公開されているソーシャルメディアの投稿、ブログ投稿、ビデオ コンテンツ、その他のパブリックドメインで利⽤できるコンテンツから得られ るさまざまなデータ形式を分析します。これまでAWS Inferentia を利⽤し得 られた価値に基づいて、我々は AWS Trainiumを試して、我々のモデルの学習 時間を改善し、学習コストを削減することを切望しています。これらの⾼性能 かつ低コストの学習向けインスタンスで我々のモデルを開発することを楽しみ にしています” Vasant Srinivasan, Senior Vice President of Product Engineering at Sprinklr “当社の成功の鍵は、⼤規模な⾼性能ディープラーニングアクセ ラレータを搭載した最新のインフラストラクチャにアクセスでき ることです。AWS Trainium を搭載したAmazon EC2 Trn1インスタン スは、⾼いネットワーク帯域幅を持ち、数万ノードにわたって拡張できる 前例のない性能により、コストを抑えながらより速い分散学習が可能にな るため、楽しみにしています” Tom Brown, Co-Founder at Anthropic ※ Amazon EC2 Trn1 プレビューにお申し込み下さい https://pages.awscloud.com/EC2-Trn1-Preview.html
  42. © 2022, Amazon Web Services, Inc. or its Affiliates. まとめ

    • 独⾃設計チップを開発、チップからサーバー、データセンターのレイヤーまで最 先端インフラストラクチャを提供 • 機械学習ワークロード向けに幅広い Amazon EC2 インスタンスの選択肢を提供 • 推論向け AWS Inferentia を搭載した Inf1 インスタンス • ⾼いスループットと低いレイテンシーを両⽴、ML推論で最⾼のコストパフォーマンスを実現 • 東京を含む23のリージョンにて利⽤可能 • 学習向け AWS Trainium を搭載した Trn1 インスタンス • ⼤規模モデルの分散学習に対応した⾼性能インフラストラクチャを低コストで提供 • プレビュー中 機械学習ワークロードのコストパフォーマンス最適化をお試し下さい︕
  43. © 2022, Amazon Web Services, Inc. or its Affiliates. 参考資料

    • 機械学習 推論⽤プロセッサ AWS Inferentia https://aws.amazon.com/jp/machine-learning/inferentia/ • Amazon EC2 Inf1 インスタンス https://aws.amazon.com/ec2/instance-types/inf1/ • AWS Neuron SDK ドキュメント https://awsdocs-neuron.readthedocs-hosted.com/ • AWS Neuron SDK https://github.com/aws/aws-neuron-sdk • Amazon EC2 Inf1 ワークショップ https://ec2-inf1.workshop.aws/ • 機械学習 学習⽤プロセッサ AWS Trainium https://aws.amazon.com/jp/machine-learning/trainium/ • Amazon EC2 Trn1 インスタンス https://aws.amazon.com/ec2/instance-types/trn1/ • Amazon EC2 Trn1 プレビュー申し込みURL https://pages.awscloud.com/EC2-Trn1-Preview.html
  44. © 2022, Amazon Web Services, Inc. or its Affiliates. 関連ブログ、記事

    • Accelerate BERT inference with Hugging Face Transformers and AWS Inferentia https://huggingface.co/blog/bert-inferentia-sagemaker • Amazon Ads Uses PyTorch and AWS Inferentia to Scale Models for Ads Processing https://pytorch.org/blog/amazon-ads-case-study/ • 【お客様事例】株式会社 NTTPC 様 Amazon EC2 Inf1 インスタンス、姿勢推定推論サービスのコストパフォーマンス最適化の取り組み https://aws.amazon.com/jp/blogs/news/ec2-event-nttpc-anymotion-inf1-costperformance-optimization/ • Amazon SageMaker でコンピュータビジョン推論に最適な AI アクセラレータとモデルコンパイルを選択 https://aws.amazon.com/jp/blogs/news/choose-the-best-ai-accelerator-and-model-compilation-for-computer-vision-inference-with-amazon- sagemaker/ • AWS Inferentiaを使⽤して Amazon EKS で 3,000種類のディープラーニングモデルを 1 時間あたり 50 USD 以下で提供 https://aws.amazon.com/jp/blogs/news/serve-3000-deep-learning-models-on-amazon-eks-with-aws-inferentia-for-under-50-an-hour/ • 機械学習と AWS Inferentia を使⽤した広告検証のスケーリング https://aws.amazon.com/jp/blogs/news/scaling-ad-verification-with-machine-learning-and-aws-inferentia/ • AWS Inferentia 上の PyTorch ⾃然⾔語処理アプリケーションにおいて、12倍のスループットと最⼩のレイテンシーを実現 https://aws.amazon.com/jp/blogs/news/achieve-12x-higher-throughput-and-lowest-latency-for-pytorch-natural-language-processing-applications- out-of-the-box-on-aws-inferentia/ • 【お客様事例】株式会社朝⽇新聞社様 ⾃然⾔語処理の取り組みと EC2 Inf1 インスタンスの検証 https://aws.amazon.com/jp/blogs/news/mediaseminar2021q1-asahi-shimbun-jpmne/ • Alexa の⼤部分で、より⾼速でコスト効率の⾼い Amazon EC2 Inf1 インスタンスによる実⾏を開始 https://aws.amazon.com/jp/blogs/news/majority-of-alexa-now-running-on-faster-more-cost-effective-amazon-ec2-inf1-instances/
  45. © 2022, Amazon Web Services, Inc. or its Affiliates. •

    AWS 上で深層学習ワークロードを動かすための選択肢 (30 min) • 独⾃設計チップ AWS Inferentia と AWS Trainium による 機械学習の⾼速化とコスト最適化 (30 min) • Amazon EC2 Inf1 インスタンスハンズオン (1 h 40 min) • TensorFlow ResNet-50 モデルによる画像分類 on EC2 • Hugging Face (PyTorch) BERT モデルによる⾃然⾔語処理 on EC2 • Hugging Face (PyTorch) BERT モデルによる⾃然⾔語処理 on SageMaker • Q&A, アンケート (20 min) 本⽇のアジェンダ
  46. © 2022, Amazon Web Services, Inc. or its Affiliates. Amazon

    EC2 Inf1 開発フロー • 開発(モデルのコンパイル)、ホスティングを EC2インスタンス上で実施 • モデルのコンパイルは TensorFlow, PyTorch フレームワーク上で実施 • コンパイルは Inf1 以外のインスタンスで実⾏することも可能 • 開発(モデルのコンパイル)、ホスティングを Amazon SageMaker 上で実施 • モデルのコンパイルは Amazon SageMaker Neo を利⽤
  47. © 2022, Amazon Web Services, Inc. or its Affiliates. •

    TensorFlow ResNet-50 モデルによる画像分類 on EC2 • Hugging Face (PyTorch) BERT モデルによる⾃然⾔語処理 on EC2 • Hugging Face (PyTorch) BERT モデルによる⾃然⾔語処理 on SageMaker Amazon EC2 Inf1インスタンス ハンズオン
  48. © 2022, Amazon Web Services, Inc. or its Affiliates. ⼿順

    • 以下リンク先のワークショップの内容に沿って進めて頂きます • https://ec2-inf1.workshop.aws • [Japanese] を選択
  49. © 2022, Amazon Web Services, Inc. or its Affiliates. EC2インスタンスの起動⽅法

    ② AWSコンソールにログイン ① 秘密鍵ファイル(.pem)をダウンロード
  50. © 2022, Amazon Web Services, Inc. or its Affiliates. EC2インスタンスの起動⽅法

    • 「サービス」「コンピューティング」「EC2」と選択、「インスタンスを起動」 • AMI は Deep Learning AMI (Ubuntu 18.04) Version 58.0 を選択
  51. © 2022, Amazon Web Services, Inc. or its Affiliates. EC2インスタンスの起動⽅法

    • インスタンスタイプとして「inf1.2xlarge」を選択
  52. © 2022, Amazon Web Services, Inc. or its Affiliates. インスタンスへSSHログイン

    ブラウザ経由、AWS CloudShellでログインする場合 AWSサービス一覧の画面から、CloudShellを起動 KeyPair作成時に取得した秘密鍵ファイルをアップロード コマンドラインでログイン(事前にパーミッションを600に!) 54 $ chmod 600 ee-default-keypair.pem $ ssh -i ee-default-keypair.pem ubuntu@インスタンスホスト名 リージョンを確認 (us-west-2) 秘密鍵ファイル(.pem) をアップロード
  53. © 2022, Amazon Web Services, Inc. or its Affiliates. インスタンスへSSHログイン

    WindowsからTeraTermでログインする場合 TeraTerm (ttssh.exe) を起動 http://sourceforge.jp/projects/ttssh2/ 接続するインスタンスのホスト名を入力 SSH2を指定 ユーザ名: ubuntu KeyPair作成時に取得した秘密鍵ファイルを選択 して接続 centos 55
  54. © 2022, Amazon Web Services, Inc. or its Affiliates. インスタンスへSSHログイン

    Mac/Linux からログインする場合 Terminalからコマンドラインでログイン(事前にパーミッションを600に!) $ chmod 600 ~/.ssh/ee-default-keypair.pem $ ssh -i ~/.ssh/ee-default-keypair.pem ubuntu@インスタンスホスト名 56
  55. © 2022, Amazon Web Services, Inc. or its Affiliates. インスタンスへSSHログイン

    • インスタンスにログイン後はワークショップの内容に従って進めてい きます
  56. © 2022, Amazon Web Services, Inc. or its Affiliates. ワークショップの内容と最新版との差異

    2011年11⽉時点でのワークショップの内容と本⽇時点の最新版との間にはいくつ か差異があります 3.1 NEURON SDK 開発環境のセットアップ 3.2 TENSORFLOW 開発環境のセットアップ 3.3 PyTorch 開発環境のセットアップ
  57. © 2022, Amazon Web Services, Inc. or its Affiliates. •

    TensorFlow ResNet-50 モデルによる画像分類 on EC2 • Hugging Face (PyTorch) BERT モデルによる⾃然⾔語処理 on EC2 • Hugging Face (PyTorch) BERT モデルによる⾃然⾔語処理 on SageMaker Amazon EC2 Inf1インスタンス ハンズオン
  58. © 2022, Amazon Web Services, Inc. or its Affiliates. ⼿順

    • 検索窓に「sagemaker」と⼊⼒し、「SageMaker Studio」を選択 • 本ハンズオンで使⽤するアカウントでは、IAM等、本来必要となる設定が既に実 ⾏されています
  59. © 2022, Amazon Web Services, Inc. or its Affiliates. ⼿順

    • SageMaker Domain の画⾯から「アプリケーションを起動」「Studio」を選択、 Amazon SageMaker Studio を起動します
  60. © 2022, Amazon Web Services, Inc. or its Affiliates. ⼿順

    • 「System terminal」を起動し、必要なファイルをクローンします bash-4.2$ git clone https://github.com/aws/amazon-sagemaker-examples.git
  61. © 2022, Amazon Web Services, Inc. or its Affiliates. ⼿順

    • 以下のノートブックを開きます。 • ノートブック環境はデフォルトのままで問題ありません。 amazon-sagemaker-examples/sagemaker_neo_compilation_jobs/ deploy_huggingface_model_on_Inf1_instance/inf1_bert_compile_and_deploy.ipynb
  62. © 2022, Amazon Web Services, Inc. or its Affiliates. ⼿順

    • 実⾏にあたり、あらかじめ以下のセルを修正して下さい ※ アンコメント
  63. © 2022, Amazon Web Services, Inc. or its Affiliates. Next

    Step • AWS Neuron SDK ドキュメント https://awsdocs-neuron.readthedocs-hosted.com/ • AWS Neuron SDK https://github.com/aws/aws-neuron-sdk • Neuron Tutorials https://awsdocs-neuron.readthedocs-hosted.com/en/latest/neuron- intro/tutorials.html • Bring Your Own Neuron Container to Sagemaker Hosting https://awsdocs-neuron.readthedocs-hosted.com/en/latest/neuron-deploy/container- sm-hosting-devflow.html
  64. © 2022, Amazon Web Services, Inc. or its Affiliates. Amazon

    EC2 Inf1 開発フロー(BYOC) • コンパイルした推論モデル環境をコンテナ化し、SageMaker、ECS、EKSにて ホスティング • ベースとなる Neuron SDK搭載 DLC (Deep Learning Container) が⽤意さ れています https://github.com/aws/deep-learning-containers/blob/master/available_images.md#neuron-inference-containers
  65. © 2022, Amazon Web Services, Inc. or its Affiliates. Amazon

    EC2 Inf1 開発フロー(BYOC) • コンパイルした推論モデル環境をコンテナ化し、SageMaker、ECS、EKSにて ホスティング https://awsdocs-neuron.readthedocs-hosted.com/en/latest/neuron-deploy/index.html
  66. © 2022, Amazon Web Services, Inc. or its Affiliates. •

    AWS 上で深層学習ワークロードを動かすための選択肢 (30 min) • 独⾃設計チップ AWS Inferentia と AWS Trainium による 機械学習の⾼速化とコスト最適化 (30 min) • Amazon EC2 Inf1 インスタンスハンズオン (1 h 40 min) • TensorFlow ResNet-50 モデルによる画像分類 on EC2 • Hugging Face (PyTorch) BERT モデルによる⾃然⾔語処理 on EC2 • Hugging Face (PyTorch) BERT モデルによる⾃然⾔語処理 on SageMaker • Q&A, アンケート (20 min) 本⽇のアジェンダ