CloudRun, Spanner に対する負荷試験の反省とオブザーバビリティによるアプローチ

CloudRun, Spanner に対する負荷試験の反省とオブザーバビリティによるアプローチ株式会社サイバーエージェント茨木啓瑚（いばらきけいご）

• 自己紹介 • 本日の流れ • 作っているシステムと負荷試験について • 上手く行った点 • もう少し上手くできた点
• これから取り組みたい点 • まとめ 2

自己紹介 3

茨木啓瑚（いばらきけいご） • 所属 ◦ サイバーエージェント > AI 事業本部
• 業務内容 ◦ 広告配信システムの構築 @oyasumi_pant s 4

本日の流れ 5

• 実際に作っているサービスや負荷試験について • オブザーバビリティ的な観点で取り組めた知見や反省 • “もっとこういうことできそう！” の議論がしたい本日の流れ 6

作っているシステムと負荷試験について 7

広告配信システムとは？ 8

広告配信システムのイメージ配信面 1. 枠情報のリクエスト 0. クリエイティブ登録 3.
広告の返答配信サーバー計測サーバー広告主クリエイティブ集計用DB 4. 閲覧・クリック・CV 2. 最適な広告の選定 5. 予算・配信結果集計メインDB Storage 大まかな流れ 9

広告配信システムのアーキテクチャ配信面 1. 枠情報のリクエスト 0. クリエイティブ登録 3. 広告の返答
CloudRun CloudRun 広告主クリエイティブ BigQuery 4. 閲覧・クリック・CV 2. 最適な広告の選定 5. 予算・配信結果集計 Spanner GCS Google Cloud に置き換え PubSub 10

大体こんな処理をしています配信サーバーの例配信サーバー 11

システムの処理と要件配信サーバーの例配信サーバー　1. 100 を超える処理 12

システムの処理と要件配信サーバーの例配信サーバー　1. 100 を超える処理　2. 100 msec 以内にレスポンス
13

システムの処理と要件配信サーバーの例配信サーバー　1. 100 を超える処理　2. 100 msec 以内にレスポンス
　3. 10,000 qps を超えるリクエスト 14

どんな負荷試験をしたの？ 15

負荷試験の詳細想定したシナリオ　1. 1台あたりのインスタンスで処理可能な QPS の限界値を測定 16

負荷試験の詳細想定したシナリオ　1. 1台あたりのインスタンスで処理可能な QPS の限界値を測定　2. P(99) で 10,000
QPS のリクエストを 100msec 以内に返す 17

QPS のリクエストを 100msec 以内に返す　3. 30,000 QPS 程度のスパイクで P(99) で 100msec 以内に返す 18

QPS のリクエストを 100msec 以内に返す　3. 30,000 QPS 程度のスパイクで P(99) で 100msec 以内に返す 19 詳細はこちらに記載しております！ https://zenn.dev/oyasumipants/articles/3aaecc8c082d33

ダッシュボードの紹介 Cloud Run 20 Spanner CloudRun Spanner を中心にメトリクスの計測を可能にした

オブザーバビリティツール DATADOG Vector Cloud Logging 使用ツール一覧 Cloud Trace Cloud Monitorin
g 21

オブザーバビリティツール Cloud Logging 使用ツール一覧 22 Cloud Run DATADOG Vector Cloud
Trace Cloud Monitoring DATADO G ログの収集トレースの収集メトリクスの収集標準ログの収集トレースの収集メトリクスの収集

これらを踏まえた反省ここから話すこと 23 配信面 1. 枠情報のリクエスト 0. クリエイティブ登録
3. 広告の返答広告主クリエイティブ BigQuery 4. 閲覧・クリック・CV 2. 最適な広告の選定 5. 予算・配信結果集計 Spanner GCS PubSub Cloud Run Cloud Run 23 1. 上手く行った点 2. もう少し上手くできた点 3. これから取り組みたい点

上手く行った点 24

上手く行った点 3つの観点 25 配信面 1. 枠情報のリクエスト 0. クリエイティブ登録
3. 広告の返答広告主クリエイティブ BigQuery 4. 閲覧・クリック・CV 2. 最適な広告の選定 5. 予算・配信結果集計 Spanner GCS PubSub Cloud Run Cloud Run 25 1. CloudRun に対する話 2. Spanner に対する話 3. 配信サーバ全体に対する話

CloudRun に対する話配信面 1. 枠情報のリクエスト 0. クリエイティブ登録 3.
広告の返答広告主クリエイティブ BigQuery 4. 閲覧・クリック・CV 2. 最適な広告の選定 5. 予算・配信結果集計 Spanner GCS CloudRun PubSub Cloud Run Cloud Run 26

リソースのポイントを抑える CloudRun のスケールポイントを抑える • 既存インスタンスの 1分間の平均 CPU 使用率 • 1分間でのリクエストの同時実行数と比較した現在の同時実行数
• インスタンスの最大数 • インスタンスの最小数 https://cloud.google.com/run/docs/about-instance-autoscaling?hl=ja CloudRun 27

リソースのポイントを抑える https://cloud.google.com/monitoring/api/metrics_gcp?hl=ja#gcp-run CloudRun のポイントをメトリクスに起こす最大同時リクエスト Cloud Run Revision - Max
Concurrent Requests CloudRun の CPU 使用率 Cloud Run Revision - Container CPU Utilization 現状のインスタンス数 Cloud Run Revision - Instance Count 28

メトリクスを組み合わせて活用 • Container Instance を 1に設定する • CPU 使用率が 60%
程度になった時の同時実行数を見極める https://zenn.dev/google_cloud_jp/articles/cloudrun-concurrenc y 同時実行数を見定める Instance は 1台に固定 29

CloudRun Spanner に対する話配信面 1. 枠情報のリクエスト 0. クリエイティブ登録
3. 広告の返答広告主クリエイティブ BigQuery 4. 閲覧・クリック・CV 2. 最適な広告の選定 5. 予算・配信結果集計 GCS Spanner PubSub CloudRun Spanner 30

リソースのポイントを抑える Spanner のポイントを抑える • ”今回は” CPU 使用率が 65% 以下になるように •
スキーマ設計を最適化する • クエリの最適化をする https://cloud.google.com/run/docs/about-instance-autoscaling?hl=ja Spanner 31

Spanner とオブザーバビリティ Key Visualizer https://cloud.google.com/blog/ja/topics/developers-practitioners/understanding-cloud-spanner-performance-metrics-scale-key-visuali zer • データ分布とホットスポットを可視化し、ボトルネックを特定 •
適切に負荷分散することで、スケーラブルなパフォーマンスを維持 Key Visualizer 32

Spanner スキーマ設計のベスプラヒートマップパターン均等分布ヒートマップで読み取り・書き込みが均等に行われている一定のホットキー特定の行範囲が時系列で一貫してアクセスが多い単調増加
シーケンシャルキーを示すアンチパターン一定の頻度短時間での行単位のシーケンシャルな読み取り・書き込み 33 https://cloud.google.com/blog/ja/topics/developers-practitioners/understanding-cloud-spanner-performance-metrics-scale-key-visuali zer

Spanner スキーマ設計のベスプラスキーマ変更の Before After 単調増加型でシーケンシャルスキャンスキーマ変更アクセスが分散される 34

配信サーバー全体に対する話配信面 1. 枠情報のリクエスト 0. クリエイティブ登録 3. 広告の返答
広告主クリエイティブ BigQuery 4. 閲覧・クリック・CV 2. 最適な広告の選定 5. 予算・配信結果集計 Spanner GCS アプリケーション PubSub CloudRun CloudRun CloudRun Spanner 35

APM を使ったボトルネック解消 Span・Trace の活用 • APM の Trace を活用し、複数のサービス層を横断的に分析
• 遅延発生の原因になってた Cloud Resource へのアクセスを最適化するために、In-Memory に乗せる • Cloud Resource へのアクセス回数を削減し、レスポンス時間を改善ボトルネックになっていそうな箇所がいくつか見つかるボトルネックになっていそうな箇所がいくつか見つかる 36

もう少し上手くできた点 37

もう少し上手くできた点 2つの観点 38 配信面 1. 枠情報のリクエスト 0. クリエイティブ登録
3. 広告の返答広告主クリエイティブ BigQuery 4. 閲覧・クリック・CV 2. 最適な広告の選定 5. 予算・配信結果集計 Spanner GCS PubSub Cloud Run Cloud Run 38 1. クォータの整理と可視化 2. 重要なポイントの抑え忘れ

クォータの整理と可視化 CloudRun クォータ ex... https://cloud.google.com/run/quotas?hl=ja 説明上限インスタンスあたりの同時リクエストの最大数 HTTP/2
クライアント接続あたりの同時ストリームの最大数リクエストごとのタイムアウトまでの最大時間 HTTP/1 リクエストの最大サイズ HTTP/1 レスポンスの最大サイズインスタンスごとの 1秒あたりのアウトバウンド接続 1,000 100 60分 HTTP/1 サーバーを使用する場合は 32MiB. HTTP/2 サーバーを使用する場合は無制限. Transfer-Encoding：chunked またはストリーミングメカニズムを使用しない場合は 32MiB 700 様々なクォータが設定されている 39

クォータの整理と可視化 • “インスタンスごとの HTTP/1 コンテナポートへの 1 秒あたりのインバウンドリクエスト数”
が 800 という制約がある • この制約のために HTTP/2 に切り替え、処理できるリクエスト数が爆増 • クォータを把握した上でメトリクスに起こすことで更に早く問題解決できたはず... CloudRun のクォータ 1min 辺り 4,800qps から伸びてない... https://cloud.google.com/run/quotas?hl=ja 40

抑えきれてなかった重要なポイント本来はリソースのポイントを抑えるでやっておきたかった、、、 • クライアントとデータベース間のやり取りをセッションで行い、読み取り・書き込みトランザクションを実行できる •
適切なセッション管理がリソース効率と性能を高める Spanner のセッション項目説明 Min Sessions Max Sessions Num Channels 1つのクライアントが実行すると予想される同時トランザクション数に設定 1つのクライアントが実行できる同時トランザクションの最大数に設定 [MaxSessions / 100 ] に設定 1つの gRPC チャネルで最大 100 件のリクエストを同時に処理可能 https://cloud.google.com/spanner/docs/sessions?hl=ja 41

重要なポイントを再度可視化 https://cloud.google.com/blog/ja/products/spanner/troubleshooting-cloud-spanner-applications-with-opencensus-metri cs OpenCensus • メトリクス収集やトレースを簡単に行えるオープンソースライブラリ • Spanner と組み合わせることで、データ
ベースクエリやレイテンシなどの重要なメトリクスを可視化・分析可能 • 問題発生時の根本原因を効率的に特定し、迅速なトラブルシューティングが実現可能 42

重要なポイントを再度可視化 OpenCensus でセッションの可視化 B 同時に利用中となるセッションの最大数 max_in_use_sessions A 許可されているセッションの最大数 max_allowed_sessions C
現在プール存在するセッションの総数 num_sessions_in_pool D 実際に開かれているセッションの数 open_session_count 設定した max 数に達していないことを確認 43

これから取り組みたい点 44

これから取り組みたい点 4つの観点 45 配信面 1. 枠情報のリクエスト 0. クリエイティブ登録
3. 広告の返答広告主クリエイティブ BigQuery 4. 閲覧・クリック・CV 2. 最適な広告の選定 5. 予算・配信結果集計 Spanner GCS PubSub Cloud Run Cloud Run 45 1. 詳細化しきれていないメトリクス 2. システムで重要になる点の言語化 3. 3つの柱の融合 4. メトリクスを育てていく

詳細化しきれていないメトリクス https://cloud.google.com/blog/ja/products/serverless/cloud-run-now-supports-multi-container-deployme nts サイドカーの可視化実際にサイドカーが影響して context cancel が問題に... •
サイドカーアーキテクチャの採用が容易となり、複雑なアプリケーションを効率的に運用可能 • CPU 使用率や Memory 使用率を Container 毎に詳細に出せるようにしたい 46

システムで重要になる点の言語化クラウドプロバイダを観測する • オブザーバビリティに関しては「何が重要か」という分類ができる • オブザーバビリティによってシステムを理解することは、特定のビジネス/ 技術的目標の達成
に役立つのかを考える https://www.oreilly.co.jp/books/9784814401024/ 7章インフラストラクチャの観測 47

技術目標の達成のためには？技術目標の言語化 https://www.oreilly.co.jp/books/9784814401024/ • 処理が膨大な中で低レイテンシを実現したい • クラウドとの接続を減らし Container Memory
を活用しまくる • Memory をより詳細に可視化したい 48 A が占める割合 B が占める割合 C が占める割合 D が占める割合 Cloud Run Container Memory

3本の柱の融合の重要性を考慮融合によるメリット 49 トレースメトリクスログ • ログに Trace ID
や Span ID を記録することで、異常発生時に前後関係が明確になり、原因の特定が容易になる • メトリクスを基に高負荷な箇所を特定し、関連するトレースを追跡できるようにする

メトリクスを育てていく 50 ダッシュボードの整理 • 実は重要なメトリクスは限られていることに気づく • 「何故重要なのか？」の共通認識が取れているようにしたい
• DATADOG 上に持ってこられていない重要なメトリクスも持ってきたい負荷試験を通して実際に欲しいメトリクスが絞られたセッション数を DD 上でも見れるようにしたい

メトリクスを育てていくアイデア 51 メトリクスの言語化 • 歴史的な背景が不明になった場合や、新しく入ってくるメンバーに対して、当該メトリクスが「何故重要なのか？」を記載しておける https://speakerdeck.com/recruitengineers/datadoglive2024-mopp?slide=48
参考：うちにも入れたい Datadog

OpenTelemetry 導入予定...！ https://www.oreilly.co.jp/books/9784814401024/ • OpenTelemetry の概要から導入・実運用までを解説し、システムの可視性と信頼性向上を支援する入門書 • OpenTelemetry
の思想やこれから目指す立ち位置も記載してあり、導入したくなる入門 OpenTelemetry 52

まとめ 53

まとめ 54 アプリケーションに APM を仕込み、ボトルネックの解消ができたことは大きな成果だが、さらなる改善の余地がある特に、サイドカーの影響を可視化することで、より詳細なボトルネック分析とパフォーマンス向上が期待できる。アプリケーションで重要な点を言語化し、適切なモニタリングを行うことが今後の課題 Cloud Service
全体の特性を理解し、サービスごとの重要なポイントやクォータを抑えて可視化することが不可欠である Cloud Run や Spanner に限らず、各サービスの制約を把握し、適切なリソース管理を行うことで、安定した運用が可能になる負荷試験で得た教訓は、本番運用にも活用すべきである負荷試験を単なる事前検証で終わらせるのではなく、本番環境でも継続的にオブザーバビリティを高めることで、運用改善を実現する

ご清聴ありがとうございました 55

CloudRun, Spanner に対する負荷試験の反省と オブザーバビリティによるアプローチ

CloudRun, Spanner に対する負荷試験の反省と オブザーバビリティによるアプローチ

More Decks by Keigo Ibaraki

Other Decks in Programming

Featured

Transcript

CloudRun, Spanner に対する負荷試験の反省とオブザーバビリティによるアプローチ

CloudRun, Spanner に対する負荷試験の反省とオブザーバビリティによるアプローチ