Upgrade to Pro — share decks privately, control downloads, hide ads and more …

re:Infrastructure_for the NextGen AI/ML and Beyond

ICHICHI
December 17, 2024

re:Infrastructure_for the NextGen AI/ML and Beyond

ICHICHI

December 17, 2024
Tweet

More Decks by ICHICHI

Other Decks in Business

Transcript

  1. 自己紹介 叶 奕池(ICHICHI) キンドリルジャパン株式会社 Infrastructure/Cloud Architect Japan AWS Junior.Champion 2023

    略歴: 2024年6月ー現在 大手カード会社様 生成AI基盤開発案件 Lead Architect, Tech Lead • GPU-Basedコンテナ基盤、AI/MLデータベース、自動化設計・開発 • Full Stackスクラム開発支援 2024年6月ー現在 大手自動車産業のお客様 DX基盤開発案件 Associate Architect • Over 2000+サーバを有する大規模AWS基盤設計・構築 • スクラム開発推進 2022年4月ー2024年6月 大手保険会社様 アウトソーシング案件 AWS Team Lead, Architect • Over 1000+サーバーを有する大規模ハイブリッドクラウド基盤構築・運用管理自動化設計 • 先端ソリューション開発:Outposts、オンプレミスへのAWSエージェント統合、など • 日米協同クラウド活用推進 2021年4月ー2022年3月 IBM Cloud Advanced Customer Support セキュリティサポートエンジニア 2021年4月 新卒入社 よう えきち
  2. 1. クラウドインフラ : スタック、ビルディングブロック、そしてプロセス ❶アプリケーション ❷データ ❸ランタイムまたはアプリを実行する ❹アプリをモニタリングする または ❺アプリが実行される

    ❻仮想化テクノロジー ➐サーバーマシン ❽ストレージデバイス ❾ネットワークアプライアンス アプリ 開発ツール ❶アプリケーション統合 ❷データベース & 分析 ❸システム管理 & ガバナンス ❹モニタリング & ロギング ❺セキュリティ, 認証認可, コンプライアンス ❻ストレージ ➐ネットワーク ❽コンピューティング 構築 運用 出典: 1. IaaS とは - Infrastructure as a Service の説明 – AWS 2. Gartner Generative AI Predictions for 2024-2028
  3. 2. AWSからのメッセージと現実にあるボトルネック 出典: 1. AWS Monday Night Live 2024: Innovations

    in Compute, Security, and AI Infrastructure – AWS 2. AWS-Announces-New-Data-Center-Components-to-Support-AI-Innovation-and-Further-Improve-Energy-Efficiency - US Press Center ❶ • ベンダーロックイン対策としてのAWSサー ビスとOSSの組み合わせは、バージョン管 理の複雑さを増加 ❷  AI/MLアプリの開発速度と需要に対応可能 なインフラの効果的な実装には技術ツール の活用を超えた取り組みが必要 ❸ • 現在のクラウドAI/MLインフラは、AIワー クロード向けに適応された従来のクラウド サービス設計に依存しており、AI専用には まだシフトしていない
  4. • 各コンポーネントが相互に連携し、全体とし て機能する動的で統合されたネットワーク • このエコシステム型アプローチでは、個々の 要素だけでなく、それらの相互作用や全体の 進化を重視 • これにより、AIソリューションの開発、導入、 運用、そして継続的な進化を、持続可能で効

    率的な環境でサポート 「SOFT」Infrastructure Re: Infrastructure 「HARD」Infrastructure • コンピュート、ストレージ、ネットワーク、クラウド 施設といった物理的・従来型のコンポーネントを指す • データ処理・分析機能、モデルの展開や学習フレーム ワーク、AIワークロード向けに特化した運用ツールと いった機能的な側面を指す ( )
  5. 「 」 「 」 ( ) ❶ • 16基のTrainium2でピーク時最大20.8PFLOPSの計算能⼒を提供 •

    64 基 の Trainium を NeuronLink で 接 続 し た Amazon EC2 Trn2UltraServersのプレビュー開始 • Trn2単体の4倍となるピーク時最大83.2PFLOPSを提供し最大規 模のモデル学習やデプロイに適する ❷ • クラウドでの実行と同じクラスタで手元のハードウェアで稼働す るアプリケーションを管理・運用 • 低レイテンシや規制への対応が必要な場合もEKSによるアプリ ケーション管理が可能に ❸ • EC2ベアメタルインスタンスで稼働 • VMwareソフトウェアへの管理者アクセスが可能 • セルフマネージド型&パートナーによるマネージド型 ❶ • AWSの最新Foundation Model ❷Amazon SageMaker Unified Studio • データ処理、SQLによる分析、AI/MLモデル開発、⽣成AIアプリ 開発に利用されるAWSのツールを統合 ❸ • Amazon SageMaker Unified Studioに統合され、その⼀部とし て提供 • ⽣成AIアプリケーションを素早く構築・カスタマイズするための インタフェースを提供 ❹ • ユーザからのリクエストに基づいて、最も低いコストで必要な品 質の応答が期待できるモデルにリクエストを動的にルーティング する ❺Amazon Bedrock Prompt Caching • 複数回呼び出されるプロンプトとその応答をキャッシュすること で効率化する
  6. 1.AIOps:可観測性、耐障害性、拡張性 • Amazon BedrockのAutomated Reasoning Check & Multimodal toxicity detection

    with image supportを活用した高度なAPM分析 • Amazon Qによる包括的なシステムインサイトを活用したAI駆動の運用管理 2.NextGenのクラウドマイグレーションとクラウドインフラの再考: • EKS Hybrid Nodesを活用し、ハイブリッドAI/ML基盤を実現 • モデル配信を最適化するためのインテリジェントなワークロードルーティングとキャッ シング戦略の実装 • クラウドネイティブの原則を取り入れつつ運用効率を維持する移行パターンの開発