Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SRE が駆動するプロダクト品質と アーキテクチャ進化の仕組み

Avatar for Naomichi Yamakita Naomichi Yamakita
September 18, 2025
160

SRE が駆動するプロダクト品質と アーキテクチャ進化の仕組み

Avatar for Naomichi Yamakita

Naomichi Yamakita

September 18, 2025
Tweet

More Decks by Naomichi Yamakita

Transcript

  1. © Metaps Holdings, Inc. ⾃⼰紹介 ベトナム‧ハノイでのオフショア事業⽴ち上げからキャリアをスタートし、 アプリケーション開発からマネジメントまでを経験 2015 年に当社参画。徐々にクラウドインフラにも携わり、現在は横断的な テックリードや

    SRE チーフエンジニアとして従事 「AWS DevDay Tokyo」登壇、「Amazon Web Services ブログ」、 「builders.flash」寄稿、「Community Builder」メンバーなど 昨年より SRE のためのダッシュボード「srest」プロダクトオーナーを兼任 ⼭北 尚道 株式会社メタップスホールディングス srest プロダクトオーナー 兼 SRE マネジャー Naomichi Yamakita @sre_yamakita 2
  2. © Metaps Holdings, Inc. 4 srest とは • AWS アカウント運⽤における

    コスト管理の⼿間を削減 するサービス ◦ 複数の AWS コスト関連サービスを組み合わせ、シンプルで使いやすいダッシュボードで AWS コストデータを多⾓的に可視化 ◦ 詳細なコスト分析を⾏うことができ、継続的な AWS コスト最適化 を⽀援
  3. srest は SRE チームから⽣まれたプロダクト • 社内外含め、複数のプロダクトを SRE チームが横断して管理 • AWS

    や Datadog、PagerDuty など、様々 なサービスから通知されるイベントログ を⼀元的に管理するため内製で作られた • srest = SRE + Rest (SRE を休ませる) とい う造語
  4. コスト可視化へのシフトチェンジ • AWS を横断的に管理する上で、各 プロダ クトの運⽤にかかるコストの可視化 が必 要に • AWS

    請求アカウントでアカウントごとの コストデータは確認できるが、別の Organization のコストを⾒るにはアカウ ントの切り替え作業が発⽣してしまう
  5. © Metaps Holdings, Inc. 可視化 詳細分析 AWS Cost Explorer 操作が簡単で素早くデータを確認可能。データ保

    持期間はデフォルトで 13 ヶ⽉。 AWS Data Exports (CUR 2.0) AWS Cost Categories コストの⽣データを CSV や、Amazon QuickSight に連携す る形で提供。Cost Categories や Budgets と連携すること で、コストの按分やアラート通知も可能。 コストアナリティクス 必要最⼩限の機能に絞り開発者以外にも分かりやすい UI を提供。データ保持は 13 ヶ⽉以上可能 コストアロケーション コストの取り込みから 可視化、按分、 アラート通知 までを⼀元管理。 異常検知 AWS Budgets AWS Cost Anomaly Detection Amazon SNS アカウント単位での異常検知が可能。 Amazon SNS と連携することで通知も可能。 コストインサイト AWSサービスごとのコスト異常を⾃動で検知し通知。コ スト上昇を早期発⾒ し、原因特定の⼯数を削減。 AWS と srest の可視化‧詳細分析機能⽐較
  6. © Metaps Holdings, Inc. • コンテナオーケストレーション ◦ ECS? EKS? •

    オブザーバビリティ ◦ CloudWatch? Datadog? New Relic? • デプロイメント ◦ Rolling Update? Blue-Green? Canary? • IaC ◦ CloudFormation? Terraform? CDK? • ログ管理 ◦ CloudWatch? S3? 技術選定はどうしてますか? (AWS)
  7. © Metaps Holdings, Inc. srest のケース • srest の SRE

    チームでは、プロダクトの成⻑段階と要件に応じて 段階的に技術選定 を ⾏っている • 初期フェーズでは開発速度を重視し、運⽤コストが低く学習コストの低い技術 を採⽤ • データ量の増加やパフォーマンス要件の変化に応じて、過度な先⾏設計を避けつつ、 実際の課題が明確になった適切なタイミングでリアーキテクト を実施
  8. • アーキテクチャ設計 • IaC • CI/CD • セキュリティ • オブザーバビリティ

    • 運⽤‧オンコール体制 • BI ツールの選定 • 開発⾔語の選定 • フレームワークの選定 • 開発規約の作成 • API 設計 • データベース設計 • アプリケーションの実装 • テストツール導⼊ srest はインフラ基盤‧開発含め SRE チームで設計
  9. © Metaps Holdings, Inc. • 開発時間の確保 ◦ SRE は 稼働時間の

    20〜50% を開発 に割き、プロダクトの改善に直接貢献 • 仕組み理解による信頼性向上 ◦ アプリケーションの構成や仕組みを深く理解し、運⽤‧監視‧可⽤性設計に フィードバック • ダッシュボード活⽤で課題抽出 ◦ ⽇常的にダッシュボードを活⽤し、プロダクトのボトルネックを可視化 SRE が開発に携わる上でのガイドライン
  10. プロトタイプ アーキテクチャ (2023年) • AWS や Datadog のイベントをトリガーと するイベント駆動アプリケーション •

    システムの特性上、アプリケーションとイ ンフラが密に連携するため、インフラ基盤 は Terraform、アプリケーションと連携す るエンドポイントは Serverless Framework で実装 • イベントは突発的なスパイクアクセスが発 ⽣するため、ECS ではなくスケーラビリ ティの⾼い Kinesis + Lambda 構成 を採 ⽤
  11. DWH への移⾏ (2025年) • srest が扱う AWS のコストデータは CUR (Cost

    and Usage Reports) 形式。AWS の 利⽤形態にもよるが、1 年あたり 1 アカウ ント数百万〜数千万レコードのデータ量 となる • OpenSearch で⼤規模なデータを⾼速に書 き込むにはシャーディング + Bulk API と なるが、費⽤感の割に⾼スループットは出 しづらい • 今⽉より、ClickHouse への移⾏検証 を開 始
  12. • 列指向データベース (OLAP) のため⾼速な 集計が可能 ◦ 分析クエリで必要な列のみを読み込むた め、⾏指向 DB と⽐較して⼤幅に⾼速

    • ⼀般的な SQL 構⽂が使える ◦ 標準 SQL に近い構⽂でクエリ可能、学習 コストが低い • ⾼速なリアルタイム検索 ◦ 数⼗億⾏のレコードに対しても秒未満での 応答が可能。Materialized Views を作成す ることで、複雑な集計結果を事前計算して 保存し、重い集計処理でも瞬時に結果を取 得可能 ClickHouse の特徴
  13. © Metaps Holdings, Inc. データ基盤の移⾏選定理由 データ基盤 選定理由 移行理由 DocumentDB *

    ログデータを柔軟に扱いたい * マスターデータを扱える * 導入、月額コストが低い * メモリの使用効率 * マスターデータの運用コスト OpenSearch Service * 時系列ログを柔軟に扱える * コスト機能においては、書き込み速度 がボトルネックとなる * 月額コスト ClickHouse * 列指向のため、コスト機能 (Parquet データ) との相性が良い * 大規模集計を効率的に行える プロトタイプ (2023年) ログ機能 (2024年) コストの横断 (2025年)
  14. © Metaps Holdings, Inc. • 重要なのは「完璧な技術選定」を最初から⽬指すのではなく、現在の課題を解決しつ つ、将来の拡張性も考慮した段階的なアプローチ • SRE の視点から、運⽤‧監視‧コスト

    の観点も含めて総合的に判断し、必要に応じて ⼤胆にアーキテクチャを⾒直すことで、持続可能なプロダクト開発を実現 する プロダクト成⻑に合わせたリアーキテクト戦略