rights reserved. 複数の基盤モデルから⽤途に最適なものを選択 Amazonが提供 最先端スタートアップ企業が提供 AI21 Labs、 Anthropic、 Stability AI Titan Text Titan Embeddings Claude Jurassic-2 Stable Diffusion Limited Preview
rights reserved. Try out models via AWS Console Fine tune model Sagemaker Jumpstart モデルプロバイダー 提供のFM を選択 1 モデルをFine tune・ Deploy 2 利⽤可能なラベル付きの データが少なくて済む (⾼コスト効率) 特定のタスクの精度を ドメイン特化の訓練データを⽤ いて最⼤化 Fine tune
rights reserved. https://aws.amazon.com/jp/blogs/machine-learning/llama-2-foundation-models- from-meta-are-now-available-in-amazon-sagemaker-jumpstart/
rights reserved. 公開FMの ファインチューニング Operation cost を最⼩化したい Model Tuner Bedrock や Jump Start を⽤いて最新の FM をFine tune Try out models via AWS Console Fine tune model モデルプロバイダー 提供のFM を選択 1 モデルをFine tune・ Deploy 2
rights reserved. ⼤規模モデルの学習には⼤規模な計算資源が必要 Q. GPT-3 (175 B) に⼀ヶ⽉で300 B tokens 学習させたいとき、必要となる NVIDIA A100(80GB) は何枚か︖ ※ Sequence Length は2048, Batch size は1536 とする A. 1024 枚⽤いて34 ⽇間のトレーニングが必要[1] [1] Narayanan, Deepak, et al. "Efficient large-scale language model training on gpu clusters using megatron-lm." Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis. 2021.
rights reserved. ⼤規模モデルの学習には⼤規模な計算資源が必要 [1] Narayanan, Deepak, et al. "Efficient large-scale language model training on gpu clusters using megatron-lm." Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis. 2021. ⾼速なアクセラレータを搭載したインスタンスを多数⽤いて トレーニングをスケールさせる必要がある Q. GPT-3 (175 B) に⼀ヶ⽉で300 B tokens 学習させたいとき、必要となる NVIDIA A100(80GB) は何枚か︖ ※ Sequence Length は2048, Batch size は1536 とする A. 1024 枚⽤いて34 ⽇間のトレーニングが必要[1]
rights reserved. Elastic Fabric Adapter (EFA) Userspace Kernel Elastic Network Adapter only With Elastic Fabric Adapter PCIe Libfabric API によるOSカーネルをバイパスした通信 Out of order での転送︓ Head of blocking 問題を回避 マルチパスルーティングによる安定した低レイテンシーの実現
rights reserved. 分散学習におけるストレージの階層構造 Object us-east-1a Region Instance Store • Checkpoints, temporary data FSx for Lustre • Shared data sets, checkpoints, outputs Amazon S3 • Data backbone, datasets, checkpoints, outputs
rights reserved. 例: Stability AI におけるStable Diffusion の学習 AWS re:Invent 2022 - How Stable Diffusion was built: Tips & tricks to train large AI models (CMP314) より
rights reserved. FM の開発 ⼤規模な計算リソース を効率的にスケールしたい Model Provider GenAI ワークロードとそれぞれの課題 Storage Network Availability Zone VPC Region Elastic Fabric Adapter Architecture & Orchestration AWS ParallelCluster Amazon FSx for Lustre Amazon EC2 Instance Store Amazon Simple Storage Service (Amazon S3) Compute
rights reserved. 公開FMの ファインチューニング Operation cost を最⼩化したい Model Tuner Bedrock や Jump Start を⽤いて最新の FM をFine tune Try out models via AWS Console Fine tune model モデルプロバイダー 提供のFM を選択 1 モデルをFine tune・ Deploy 2
rights reserved. FM の開発 ⼤規模な計算リソース を効率的にスケールしたい Model Provider GenAI ワークロードとそれぞれの課題 Storage Network Availability Zone VPC Region Elastic Fabric Adapter Architecture & Orchestration AWS ParallelCluster Amazon FSx for Lustre Amazon EC2 Instance Store Amazon Simple Storage Service (Amazon S3) Compute