Upgrade to Pro — share decks privately, control downloads, hide ads and more …

FSx for Lustreを使ったAIモデル開発の始め方

Avatar for Morita Morita
March 15, 2025
49

FSx for Lustreを使ったAIモデル開発の始め方

JAWS-UG福岡 #20: Storage-JAWS共催スペシャル

Avatar for Morita

Morita

March 15, 2025
Tweet

Transcript

  1. ⾃⼰紹介 2 • 名前 ◦ 森⽥ ⼒ • 所属 ◦

    クラスメソッド株式会社 ▪ 福岡オフィス所属 ◦ クラウド事業本部 コンサルティング部 • 好きなAWSサービス ◦ AWS Lambda ◦ Amazon Bedrock
  2. FSx for Lustre とは 10 • AWSが提供するフルマネージドLustreファイルシステム • インフラ管理不要 ◦

    セットアップ, パッチ適⽤などマネージド管理 • S3との統合 • 数百GBpsのスループット、数百万IOPSを実現 ◦ ⼤規模な分散学習に耐えれる • オンデマンドでスケーリング可能 • 従量課⾦ ◦ 秒単位(ストレージサイズ, スループット)
  3. AIモデル開発で利⽤するには 13 SageMaker HyperPod で利⽤する • 容易さ ◦ 設定ファイル内で定義するだけで⾃動接続 ◦

    分散学習向けに最適化された構成が提供される • パフォーマンス ◦ EFAとの最適化された統合 ◦ SageMaker分散ライブラリとの連携 • 管理 ◦ FSx for Lustreの設定もライフサイクルスクリプトに含められる ◦ モデルチェックポイント管理などマネージドなS3との統合
  4. AIモデル開発で利⽤するには 15 SageMaker HyperPod recipes • re:Invent 2024で発表 • ML必要なリソースの⾃動セットアップ

    ◦ トレーニングデータセットのロード ◦ 分散トレーニング ◦ 障害復旧の⾃動化
  5. まとめ 18 • FSx for Lustreでは ⾼速‧⼤容量ファイルシステムをAWS上でフルマネージド提供 ◦ AIモデル開発⽤途に良い •

    S3との統合で⼤規模データセットを低レイテンシ‧⾼スループットで処 理可能 • SageMaker HyperPodとの連携で分散学習環境を容易に構築でき、AIモ デル開発のデータ処理ボトルネックを解消 ◦ 特に、SageMaker HyperPod recipes がおすすめ