Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
GMO Research Tech Conference 2023
Search
Naomichi Yamakita
November 01, 2023
0
16
GMO Research Tech Conference 2023
Naomichi Yamakita
November 01, 2023
Tweet
Share
More Decks by Naomichi Yamakita
See All by Naomichi Yamakita
プロダクト横断で可視化する ダッシュボードの開発
naomichi
0
240
第一回ライブラリ開発について考える会
naomichi
0
72
Serverless Application Repositoryでトイルを削減する
naomichi
0
280
SRE的観点から日常を振り返る
naomichi
0
840
Deep dive into cloud design
naomichi
0
18
インフラを横断して可視化するダッシュボードの開発
naomichi
0
12
SREってどんな仕事___メタップスがSREチームを立ち上げたキッカケとこれから_.pptx.pdf
naomichi
0
10
SRE Innovation in Metaps
naomichi
0
270
マイクロサービスを支えるインフラアーキテクチャ/microservice-infra-architecture
naomichi
1
3.6k
Featured
See All Featured
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
25
1.8k
How GitHub (no longer) Works
holman
310
140k
jQuery: Nuts, Bolts and Bling
dougneiner
61
7.5k
Designing on Purpose - Digital PM Summit 2013
jponch
115
7k
GraphQLの誤解/rethinking-graphql
sonatard
67
10k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
27
820
Reflections from 52 weeks, 52 projects
jeffersonlam
346
20k
Rails Girls Zürich Keynote
gr2m
93
13k
Code Reviewing Like a Champion
maltzj
520
39k
The Language of Interfaces
destraynor
154
24k
Building an army of robots
kneath
302
42k
Faster Mobile Websites
deanohume
305
30k
Transcript
1 SREチームを立ち上げてインフラ 基盤プラットフォームを構築した話 株式会社メタップスホールディングス 2023年11月1日 © Metaps Holdings, Inc.
2 © Metaps Holdings, Inc. ベトナム・ハノイでのオフショア事業立ち上げからキャリアをスタートし、アプリケーション 開発からマネジメントまでを経験 2015年に株式会社メタップスに参画。徐々にクラウドインフラにも携わり、現在は同社で 横断的なテックリードやSREチーフエンジニアとして従事 2022年からはSREのための分散型プラットフォーム「SRE:shine」のプロダクトオーナー
を兼務 AWS Dev Day Tokyo https://pages.awscloud.com/rs/112-TZM-766/images/G-1.pdf メタップスにおけるECSデプロイ戦略 https://aws.amazon.com/jp/blogs/news/ecs-deployment-strategy-at-metaps/ メタップスが取り組むシステム運用状況を可視化するダッシュボード開発 https://aws.amazon.com/jp/builders-flash/202210/metaps-monitoring-dashboard-development/ Platform strategy SRE Chief engineer Naomichi YAMAKITA プラットフォーム戦略部 SREチーフエンジニア 山北 尚道 プロフィール
3 © Metaps Holdings, Inc. • SREはSite Reliability Engineeringを実現するエンジニアリング手法 •
システムを俯瞰的に捉え、インフラ設計・運用の自動化・障害対応・アプリケー ションのパフォーマンス最適化といった観点から可用性を担保し、システムの信 頼性を向上させることを目的とする SREとは?
4 © Metaps Holdings, Inc. SREの責務
5 © Metaps Holdings, Inc. 数値で見るSRE • SWE: 40人 •
SRE: 5人 • 運用プロダクト: 13 • 機能改善: 385件/1,600日 (1ヶ月辺り7.2件のアップデートを実施 ) • アラート通知: 224回/月 • オンコール: 4回/月 • ポストモーテム: 1回/2ヶ月
6 © Metaps Holdings, Inc. 以前まで開発体制
7 © Metaps Holdings, Inc. SREチーム発足後の体制
8 © Metaps Holdings, Inc. メタップスHDにおけるSREのミッション • インフラ運用におけるスペシャリストとして活動し、堅牢で信頼性の高いプラット フォームを設計・構築する •
運用の効率化を図る自動化の実装、緊急時のオンコール対応、クラウドネイティ ブな技術を利用したアプリケーション開発の支援、そしてセキュリティの強化を行 なう
9 © Metaps Holdings, Inc. SREチームの立ち上げ (2018年) • きっかけは「SREサイトリライアビリティエンジニアリング」 •
インフラコード化 (IaC) への挑戦 ◦ 当時、周囲にもSREに関する知見はほとんどなく、情報が限られていた ◦ 初めの試みとして、インフラの構成を深く理解し、それをコードとして表現する作業に着手した ▪ このアプローチはインフラ管理の透明性を高め、変更管理を スムーズに行なう土台を作ることができた • 続発する課題への取り組み ◦ デプロイを自動化したい ◦ ログの分析基盤が欲しい ◦ 負荷対策でオートスケーリングしたい
10 © Metaps Holdings, Inc. インフラ基盤の安定化と継続的な改善 (2019〜2020年) • 安定したインフラ基盤の提供 ◦
インフラ監視基盤の導入、オンコール体制の整備、サーバーレス構成 (マイクロサービスアーキ テクチャ) への移行など • インフラ基盤を多数のプロダクトに水平展開できる体制に ◦ 様々なプロダクトに対してインフラ基盤をスムーズに展開できるプラットフォームを構築 ◦ 各プロダクトは月に数本の機能アップデートを実施し、システムの効率性や安定性を向上させ、 同時にコストの最適化を実現できた
11 © Metaps Holdings, Inc. 基本的なインフラアーキテクチャ
12 © Metaps Holdings, Inc. • 調査プロセスをプレイブック、運用に関する手順をランブックの形でドキュメント 化。障害発生時にトラブルシュートを提案する仕組みを実装 • オンコールはSREメンバー全員が参加し、障害対応の属人化を防ぐ
オンコール体制
13 © Metaps Holdings, Inc. チームを編成 (2021年) • Platform SREs
◦ プロダクト開発に参加し、開発チームと連携してシステムの安定運用・サイトの信頼性向上に取 り組む • Embedded SREs ◦ インフラ基盤の構築や開発体験の向上をミッションとし、横断的に利用可能なプラットフォーム の設計・開発を推進する
14 © Metaps Holdings, Inc. • 運用するプロダクトが増えるにつれSREの負荷が上がる ◦ アラートの取りこぼしや早期検知が困難に •
各種イベントログを集約したダッシュボード「SRE:shine」をSREチーム主導で開 発 ◦ イベントログの可視化 ◦ アラートの通知 ◦ トイルを削減するアプリケーションの提供 インフラの可視化 (2022年〜)
15 © Metaps Holdings, Inc. • 大変だったこと ◦ 知見がない中、試行錯誤でチームを成長させた •
良かったこと ◦ 開発チームがドメインロジックに専念できる環境を整備できた ◦ プロダクト横断型のチームとして、安定性の高いインフラ基盤を実現できた ◦ SREチームメンバーはダッシュボード開発への関与を通じ、開発スキルを身につけることができ た • 今後の取り組み ◦ ダッシュボードのリリース SREチーム発足から5年経過して