Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
GMO Research Tech Conference 2023
Search
Naomichi Yamakita
November 01, 2023
0
26
GMO Research Tech Conference 2023
Naomichi Yamakita
November 01, 2023
Tweet
Share
More Decks by Naomichi Yamakita
See All by Naomichi Yamakita
今こそ聞きたい!ガバメントクラウド
naomichi
0
8
AWSにおける横断的なログ分析と コストの管理
naomichi
1
5.3k
失敗から始まるリアーキテクト: SREの実践例で見る改善の道筋
naomichi
0
680
プロダクト横断で可視化する ダッシュボードの開発
naomichi
0
330
第一回ライブラリ開発について考える会
naomichi
0
99
Serverless Application Repositoryでトイルを削減する
naomichi
0
310
SRE的観点から日常を振り返る
naomichi
0
1k
Deep dive into cloud design
naomichi
0
51
インフラを横断して可視化するダッシュボードの開発
naomichi
0
36
Featured
See All Featured
Documentation Writing (for coders)
carmenintech
73
4.9k
Faster Mobile Websites
deanohume
308
31k
Balancing Empowerment & Direction
lara
1
510
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
10
1k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
KATA
mclloyd
31
14k
Side Projects
sachag
455
43k
Writing Fast Ruby
sferik
628
62k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
45
7.5k
Scaling GitHub
holman
461
140k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.8k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
21
1.4k
Transcript
1 SREチームを立ち上げてインフラ 基盤プラットフォームを構築した話 株式会社メタップスホールディングス 2023年11月1日 © Metaps Holdings, Inc.
2 © Metaps Holdings, Inc. ベトナム・ハノイでのオフショア事業立ち上げからキャリアをスタートし、アプリケーション 開発からマネジメントまでを経験 2015年に株式会社メタップスに参画。徐々にクラウドインフラにも携わり、現在は同社で 横断的なテックリードやSREチーフエンジニアとして従事 2022年からはSREのための分散型プラットフォーム「SRE:shine」のプロダクトオーナー
を兼務 AWS Dev Day Tokyo https://pages.awscloud.com/rs/112-TZM-766/images/G-1.pdf メタップスにおけるECSデプロイ戦略 https://aws.amazon.com/jp/blogs/news/ecs-deployment-strategy-at-metaps/ メタップスが取り組むシステム運用状況を可視化するダッシュボード開発 https://aws.amazon.com/jp/builders-flash/202210/metaps-monitoring-dashboard-development/ Platform strategy SRE Chief engineer Naomichi YAMAKITA プラットフォーム戦略部 SREチーフエンジニア 山北 尚道 プロフィール
3 © Metaps Holdings, Inc. • SREはSite Reliability Engineeringを実現するエンジニアリング手法 •
システムを俯瞰的に捉え、インフラ設計・運用の自動化・障害対応・アプリケー ションのパフォーマンス最適化といった観点から可用性を担保し、システムの信 頼性を向上させることを目的とする SREとは?
4 © Metaps Holdings, Inc. SREの責務
5 © Metaps Holdings, Inc. 数値で見るSRE • SWE: 40人 •
SRE: 5人 • 運用プロダクト: 13 • 機能改善: 385件/1,600日 (1ヶ月辺り7.2件のアップデートを実施 ) • アラート通知: 224回/月 • オンコール: 4回/月 • ポストモーテム: 1回/2ヶ月
6 © Metaps Holdings, Inc. 以前まで開発体制
7 © Metaps Holdings, Inc. SREチーム発足後の体制
8 © Metaps Holdings, Inc. メタップスHDにおけるSREのミッション • インフラ運用におけるスペシャリストとして活動し、堅牢で信頼性の高いプラット フォームを設計・構築する •
運用の効率化を図る自動化の実装、緊急時のオンコール対応、クラウドネイティ ブな技術を利用したアプリケーション開発の支援、そしてセキュリティの強化を行 なう
9 © Metaps Holdings, Inc. SREチームの立ち上げ (2018年) • きっかけは「SREサイトリライアビリティエンジニアリング」 •
インフラコード化 (IaC) への挑戦 ◦ 当時、周囲にもSREに関する知見はほとんどなく、情報が限られていた ◦ 初めの試みとして、インフラの構成を深く理解し、それをコードとして表現する作業に着手した ▪ このアプローチはインフラ管理の透明性を高め、変更管理を スムーズに行なう土台を作ることができた • 続発する課題への取り組み ◦ デプロイを自動化したい ◦ ログの分析基盤が欲しい ◦ 負荷対策でオートスケーリングしたい
10 © Metaps Holdings, Inc. インフラ基盤の安定化と継続的な改善 (2019〜2020年) • 安定したインフラ基盤の提供 ◦
インフラ監視基盤の導入、オンコール体制の整備、サーバーレス構成 (マイクロサービスアーキ テクチャ) への移行など • インフラ基盤を多数のプロダクトに水平展開できる体制に ◦ 様々なプロダクトに対してインフラ基盤をスムーズに展開できるプラットフォームを構築 ◦ 各プロダクトは月に数本の機能アップデートを実施し、システムの効率性や安定性を向上させ、 同時にコストの最適化を実現できた
11 © Metaps Holdings, Inc. 基本的なインフラアーキテクチャ
12 © Metaps Holdings, Inc. • 調査プロセスをプレイブック、運用に関する手順をランブックの形でドキュメント 化。障害発生時にトラブルシュートを提案する仕組みを実装 • オンコールはSREメンバー全員が参加し、障害対応の属人化を防ぐ
オンコール体制
13 © Metaps Holdings, Inc. チームを編成 (2021年) • Platform SREs
◦ プロダクト開発に参加し、開発チームと連携してシステムの安定運用・サイトの信頼性向上に取 り組む • Embedded SREs ◦ インフラ基盤の構築や開発体験の向上をミッションとし、横断的に利用可能なプラットフォーム の設計・開発を推進する
14 © Metaps Holdings, Inc. • 運用するプロダクトが増えるにつれSREの負荷が上がる ◦ アラートの取りこぼしや早期検知が困難に •
各種イベントログを集約したダッシュボード「SRE:shine」をSREチーム主導で開 発 ◦ イベントログの可視化 ◦ アラートの通知 ◦ トイルを削減するアプリケーションの提供 インフラの可視化 (2022年〜)
15 © Metaps Holdings, Inc. • 大変だったこと ◦ 知見がない中、試行錯誤でチームを成長させた •
良かったこと ◦ 開発チームがドメインロジックに専念できる環境を整備できた ◦ プロダクト横断型のチームとして、安定性の高いインフラ基盤を実現できた ◦ SREチームメンバーはダッシュボード開発への関与を通じ、開発スキルを身につけることができ た • 今後の取り組み ◦ ダッシュボードのリリース SREチーム発足から5年経過して