アクセスピークを制するオートスケール再設計: 障害を乗り越えKEDAで実現したリソース管理の最適化

自己紹介山下雅人クラウド経費・クラウド債務支払 SRE チームリーダーバックエンドエンジニアとSREの経験を活かして活動中 Kaigi on
Rails Organizer

今日話すこと AWS移行プロジェクト - オンプレミスからクラウドへ障害と課題発見 - アクセスピーク時のオートスケール問題 KEDA導入 - リクエスト数に応じたスケーリング
データ活用最適化 - 適切なレプリカ数の導出

AWS環境への移行プロジェクト

過去のマネーフォワードのアーキテクチャについて

（マネーフォワード中出氏, ITmedia Cloud Native Week 2022春基調講演, 2022年より引用）

桃園脱却

クラウド経費・クラウド債務支払のAWS環境移行 🏢 移行前 📟 オンプレミスVM 🗃️ 共有DB → ☁️ 移行後
🚀 EKS 🗄️ 専用DB

AWS環境におけるオートスケール設計

そもそもなぜオートスケールが必要なのかビジネス面から考えてみる

AIの力を借りて考える Illustration © unDraw.co

ビジネス面から見たオートスケールの必要性機会損失の防止と顧客体験の最大化キャンペーンや突発的なアクセスピーク時でもサービスを安定稼働させることで、販売機会の損失を防ぐインフラコストの最適化アクセスピーク時以外はリソースを自動で縮小し、過剰なリソース確保によるコストを削減事業成長への迅速な対応サービスの利用者増加や事業拡大に伴い、将来的に増大するアクセスピークにも柔軟に対応
ビジネスの成長をITインフラが支えられるようにする

クラウド経費・クラウド債務支払におけるアクセスピークとは？

アクセスピークの特徴利用ユーザーは月末月初にかけて経費申請や承認をするためにアクセスすることが多い確定申告時期〜年度始め付近にかけてもアクセスが多くなる月初〜月末におけるリクエスト数の遷移

アクセスピーク時におけるオートスケール設計 📊 分析対象メトリクス: CPU使用率、メモリ使用量観察期間: 1日および1週間目的: リクエスト数との相関関係を調査 ⚙️
設計方針リクエスト増加パターンを分析し、適切な閾値を設定する

リクエスト数とCPU使用率の関係 1日の推移午前中: リクエスト数とCPU使用率が上昇日中: 高い水準を維持夜間: 両メトリクスが減少傾向 1週間の推移
平日: 日中に両メトリクスが増加月曜日が最もアクセスが集中土日: 両メトリクスともに低い水準で推移リクエスト数とCPU使用率に相関あり

リクエスト数とメモリ使用量の関係 1日の推移終日: リクエスト数の変動に関わらずメモリ使用量は横ばいで推移 1週間の推移平日・休日: メモリ使用量は常に横ばいで推移リクエスト数とメモリ使用量には相関なし

過去データから導いた考察 CPU使用率がボトルネックになると想定リクエスト数とCPU使用率の連動性を確認メモリ使用量が横ばいであったため、CPU使用率が先にネックになると想定オートスケール機能にはHPAを採用 Kubernetesの基本機能、豊富な他社事例と運用ノウハウ AWS環境での運用経験不足をカバー KEDAの選択肢もあったが必要になった時に検討と判断

CPU使用率の閾値検討 HPAではRequest値を基準とした閾値となっている確実にスケールされることを考慮閾値を60%に設定 https://kubernetes.io/docs/tasks/run- application/horizontal-pod-autoscale/

迎えたAWS環境への移行当日

迎えたAWS環境への移行当日 AWS移行、無事完了！🎉

2024年12月月初 AWS環境に移行後初のアクセスピーク日

鳴り響くアラート ⚠️ Slackでの外形監視エラー 🔥 p95レスポンスタイムの異常増加 ⚠️ HPAによるスケールが機能せずシステム全体が危機的状況に陥る

暫定対策状況把握アクセス数に対してpodが不足していた CPU閾値をトリガーとしたHPAが機能していなさそうメモリ不足の傾向が見られる緊急対応 minReplicasを大幅に増加 podのメモリ割り当てを増加アクセスピークを乗り切ることに成功

振り返り: なぜ問題が起きたのか

障害の振り返り: CPU使用率メトリクスの推移障害発生期間: アプリ全体でCPU使用率は50%以下程度で推移 HPAのCPU閾値は60%のためスケールしなかった障害発生期間におけるCPU使用率の推移グラフ

障害の振り返り: メモリ使用率の推移障害発生期間: アプリ全体でメモリ使用率が100%近くで推移 livenessProbe(プロセス生存確認)がメモリ不足の影響で失敗メモリ不足によりアプリケーションが不安定になりPodが停止障害発生期間におけるメモリ使用率の推移グラフ

障害の振り返り: そして悪循環へ

障害の振り返り: 今後の対応方針緊急対応（短期対策）暫定的にminReplicasを増加させサービス継続月末月初のアクセスピークに対応可能な体制を確保根本対策（長期解決策）リソース最適化: メモリ割り当ての見直しと適正化スケール機能強化: オートスケール設計の見直し
閾値最適化: CPU使用率の閾値を実態に合わせて調整

オートスケール設計の改善ポイント

オートスケール設計の改善ポイント閾値設定の根本的見直し CPU使用率との相関性に依存したスケール設計負荷の根本原因であるリクエスト数を直接監視データ分析における注意点相関関係は「現時点での傾向」として参考程度に留める将来的にボトルネックとなるリソースは変化する可能性あり

新技術導入における慎重なアプローチなぜ最初からKEDAを選ばなかったのか？新しい技術スタックへの学習コストの高さトラブル発生時の対応ノウハウの不足段階的導入のメリットまずは実績のあるHPAで運用開始問題が発生してから改善を検討する段階的アプローチ結果として今回の経験により最適解が見えた

オートスケール改善のアプローチ検討障害の根本原因を解決するために、複数のアプローチを検討データ活用アプローチアクセスパターンの分析結果を活用予測可能な負荷変動への対応技術改善アプローチより適切な監視メトリクスの採用柔軟なスケーリング機能の導入

静的 vs 動的スケーリングの判断静的スケーリング（cron）固定的なスケジュールでは細かな調整が困難突発的なアクセス変動に対応できない動的スケーリングリアルタイムでの負荷変動に柔軟対応より精密なリソース管理が可能動的スケーリングでより適切な監視指標が必要

KEDAを活用したリクエスト数ベースのオートスケーリングへ

Kubernetes Event-Driven Autoscalingとはイベントをトリガーにアプリケーションをオートスケーリング可能メッセージキューの長さやDBの行数など様々な"イベント"をトリガーに指定可能コスト効率の最大化 (ゼロスケールイン)
Podの数を自動的に0台にまでスケールイン可能 https://keda.sh/

KEDAの役割 Operator: イベントソースを監視しインスタンス数を調整 Metrics Server: 外部メトリクスを HPAに提供し、スケーリングを判断 Scalers: 各イベントソースに接続、
現在の使用状況を取得 CRDs: カスタムリソースを使用してアプリケーションがスケーリングをすべきかを定義

オートスケール再設計: リクエスト数の閾値追加 Datadogとの連携 Datadogでリクエスト数をモニタリング中 Datadogのリクエスト数を参照取得したリクエスト数に応じてオートスケールさせる閾値算出の進め方移行前の性能試験におけるエンドポイントに着目 AWS環境上の同エンドポイントにおける処理能力から算出

KEDAの閾値をどう決めるか？- 私たちのアプローチ

基準値の算出 - データ分析から平均処理能力を算出

Podの処理能力を定量化する

実用的なKEDAの閾値を導き出す KEDAで使用するリクエスト閾値の確定

オートスケール再設計: CPU使用率は継続採用リクエスト数では捉えきれない負荷への対応アクセス数が閾値に満たない状況でもCPU使用率が上昇するケースを考慮システム可用性の向上 Datadogサービス停止時のフェイルセーフ機能として動作監視システムの単一障害点を回避し、サービス継続性を確保リクエスト数とCPU使用率の二重監視体制により信頼性向上

オートスケール再設計: CPU使用率閾値の最適化問題の特定設定していた60%閾値では反応が遅すぎることが判明閾値の調整変更前: 60% → 変更後: 45%（15%の緩和）
期待される効果アクセスピーク時の早期スケールアウト実現サービス応答性の改善とユーザー体験の向上

オートスケール再設計: メモリ使用率を組み込むか？検討結果メモリ使用率は閾値として採用しない理由ガベージコレクション実行により使用率が不規則に変動するスケーリングトリガーとしての予測可能性と信頼性に欠けるメモリ集約的なアプリケーションは事前設定で対応すべき

KEDA設計の最終仕様採用する監視指標リクエスト数: エンドポイントの処理能力に基づく閾値設定 CPU使用率: 障害時の検証結果を反映し45%に設定（従来60%から緩和）除外する監視指標メモリ使用率: ガベージコレクションによる不規則な変動の
ため除外

オートスケール再設計後のKEDA適用日中: アクセス増加に伴い正常にスケールアウトが動作夜間: アクセス減少に伴いスケールインが正常に動作 KEDAによるスケールアウト・スケールインの動作結果

最適なレプリカ数の導出

KEDAを活用できたので次はレプリカ数を見直す

移行当時のレプリカ数事前性能試験の結果に基づいて設定 AWS環境移行時に性能試験を実施し、HPAの適切なレプリカ数を算出 minReplicas: 平常時のアクセスを処理するのに必要な台数 maxReplicas: アクセスピーク時に対応できる台数

アクセス数比率でレプリカ数を最適化最小アクセス数における理想現在のminReplicasの約1/3の台数で稼働可能現状 minReplicasの台数のまま夜間も稼働課題余剰コストが毎日発生夜間と日中のアクセス数比率

KEDAでのminReplicaCount決定までの流れメトリクス分析夜間のCPU使用率: 10%程度夜間のリクエスト数: 数千程度負荷要因の考慮外部要求: 外部API、社内プロダクト連携内部処理:
夜間バッチ、定期データ処理これらを総合的に考慮してminReplicaCountの目標値を決定

目標値に向けたminReplicaCountの削減の進め方案1: 一気に削減メリット: コスト削減を即座に実現リスク: 予想外の挙動でサービス影響の可能性案2: 段階的削減メリット:
安全性を確保しながら削減リスク: コスト削減の効果実現に時間がかかる案2を採用: 段階的な削減と監視で目標値を目指す

クラウド経費・クラウド債務支払での監視方法について

常時監視 AWS移行時から監視設定済みアラート設定 Datadogで各種メトリクスの閾値監視通知異常検知時にSlackへ自動通知対応 SREをメインに調査、対応

フィードバックと対応既存の会議体制を活用参加者・体制 SREチーム + 開発メンバー週次で定期開催確認内容各種メトリクス確認、異常波形の原因特定・対応情報共有・連携
双方の実施済み変更を共有し、システム状況を理解

minReplicaCount削減と監視のサイクルを構築

段階的なminReplicaCountの削減実施 minReplicaCount削減結果 AWS環境移行時と比較し60%削減に成功サービス影響なしで実現 →段階的なアプローチによる安全な最適化完了

レプリカ数の最適化達成

まとめ技術的改善オートスケーリング: ピーク時も最適なレプリカ数で稼働運用自動化: 手動でのレプリカ調整が不要にコスト最適化リソース効率化: 必要な時に必要な分だけ稼働大幅なコスト削減:
minReplicaCount 60%減を達成チーム効率化工数削減: 監視・調整作業からの解放価値創出: 機能開発・改善により多くの時間を投入可能

宣伝

スポンサーブースのお知らせ

ありがとうございました

アクセスピークを制するオートスケール再設計: 障害を乗り越えKEDAで実現したリソース管理の最適化

アクセスピークを制するオートスケール再設計: 障害を乗り越えKEDAで実現したリソース管理の最適化

More Decks by M-Yamashita

Other Decks in Technology

Featured

Transcript