Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CloudNative な目線で Google Cloud Release Note を診る

CloudNative な目線で Google Cloud Release Note を診る

Kento Kimura

March 18, 2024
Tweet

More Decks by Kento Kimura

Other Decks in Technology

Transcript

  1. CloudNative な目線で Google Cloud Release Note を診る 18th Mar, Jagu'e'r

    Next ’24『The way to Next ’24』 Kento Kimura
  2. Self-Introduction • 所属:Technical Solutions / Sales Engineer • 担当:パブリッククラウドのアーキテクト知識を活かした  Datadog

    のプリセールス技術支援 • 資格:Google Cloud 全 11 資格、AWS 全 12 資格、Azure 13 資格 • 表彰:Google Cloud Partner Top Engineer 2023-24 Jagu'e'r Award 2023 優秀賞 木村 健人 (Kento Kimura) Datadog Japan GK Technical Solutions Sales Engineering History データセンター運用保守 → パブリッククラウド技術支援 → プリセールス技術支援 Community Jagu’e’r デジクラ人材育成分科会 運営リード O11y-SRE/CloudNative/TechWriters 分科会 運営メンバー Partner Top Engineer 2023 Partner Top Engineer 2024
  3. GKE Enterprise エディション Anthos の後継としてできた、Goolge Cloud 内外でのマルチクラスタ運用機能 • フリートによる、他クラウド・オンプレミス上のクラスタを統合管理 •

    GitOps・ポリシー制御・クラスター権限管理、セキュリティスキャン機能 クラスターをフリートに所属させ、Google Cloud 外でも Cloud Console, CLI で管理ができる! ※クラスターモード(Autopilot, Enterprise)やデータプレーン(V1, V2)とは別機能。 それぞれの GKE クラスターでモード・データプレーン・エディションが選択できる 4
  4. TPU ノード in GKE AI ワークロードを実行するために TPU を利用するノードが構成できる機能 • AI

    モデルのトレーニングから推論までのワークロードを実行 • TPU のプロビジョニング・スケーリング・スケジュール・修復・アップデートを自動化 • TPU のメトリクス・ログ・エラーレポートを Cloud Monitoring, Logging へ連携 Google Cloud ならではの TPU を用いた、効率的な AI ワークロードの実行が GKE で可能! Vertex AI と統合され、最新のオープン AI モデルの推論をスケーラブルな環境で実行できるように… Release notes - Feb 26: GKE now supports Gemma (2B, 7B), Google's new state-of-the-art open models. 5
  5. Cloud Run マルチコンテナ(サイドカー) 最大10個のマルチコンテナを Cloud Run インスタンスで実行できる機能 • サイドカーデプロイで、プロキシ・監視エージェント・アプリケーションの分離を実現 •

    マルチコンテナで、複雑なスケーリングが不要な Kubernetes ワークロードの移行 マネージド Knative サービスとして、k8s の運用負荷を軽減してコンテナを利用できる! 6 Cloud Run Instance Sidecar container Ingress container Cloud Run Instance Monitoring agent Network Proxy Backend application Frontend application
  6. Cloud Run + Prometheus サイドカーデプロイで Prometheus メトリクスを GMP に収集できる •

    サイドカーデプロイで、監視エージェントをデプロイしマネージドサービスへ連携 • OpenTelemetry や 3rd Party の監視エージェントの正式対応が続きそう(希望) サイドカーの利点を活かして、監視エージェントを Cloud Run 上で安定的に運用できる! 7 Cloud Run Instance Prometheus container Ingress container Cloud Monitoring API
  7. Cloud Run の GPU/TPU 対応 現状:GKE ではコンテナによる MLOps が kubeflow

    によって実現できる Good • コンテナの俊敏性・可搬性・冪等性を活かして、環境構築や本番適用が容易 • kubeflow によって AI/ML に必要なワークロードを k8s で実現できる • GKE は GPU/TPU ノードを利用でき、効率的にモデルのトレーニング・推論を行える Issue! • kubeflow で扱うサービスメッシュや基盤自体の運用・管理負荷 • AI/ML 技術者にとって本質的ではない k8s 学習コストの増大 マネージドサービスの Cloud Run で GPU/TPU が使えれば k8s を意識しなくて良い! 9
  8. Cloud Run 監視情報へのアクセス・カスタム 現状:Cloud Run の監視情報は Cloud Monitoring, Logging に自動的に連携される

    Good • マネージドサービスとして、設定せずにメトリクス・ログ確認できる • コンテナの標準出力をログとして簡単に記録できる Issue! • 粒度の荒いメトリクスのみでは、何が来ているかがわかりづらい • O11y で重要なシグナルの相関が難しく、監視エージェントを導入する Cloud Run で監視情報へのアクセス・カスタマイズができれば、O11y を向上できる! 10