Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SRE Innovation in Metaps
Search
Naomichi Yamakita
August 04, 2021
Technology
370
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
SRE Innovation in Metaps
組織にSREを取り入れたことで起きた変革
Naomichi Yamakita
August 04, 2021
More Decks by Naomichi Yamakita
See All by Naomichi Yamakita
現場で試したAI駆動開発
naomichi
0
28
ClickHouse活用によるパフォーマンス改善について
naomichi
0
160
SRE が駆動するプロダクト品質と アーキテクチャ進化の仕組み
naomichi
0
210
今こそ聞きたい!ガバメントクラウド
naomichi
0
62
AWSにおける横断的なログ分析と コストの管理
naomichi
1
7k
失敗から始まるリアーキテクト: SREの実践例で見る改善の道筋
naomichi
0
890
プロダクト横断で可視化する ダッシュボードの開発
naomichi
0
410
第一回ライブラリ開発について考える会
naomichi
0
140
Serverless Application Repositoryでトイルを削減する
naomichi
0
360
Other Decks in Technology
See All in Technology
現地で盛り上がった WWDC26 Keynote
zozotech
PRO
1
250
2026TECHFRESH畢業分享會 - Lightning Talk - E起 See See : 電商推薦讀心術? 數據說了算
line_developers_tw
PRO
0
1k
AIっぽい文章を採点して人間らしく直すアプリを作ってみた
yama3133
2
190
AIネイティブな開発のサプライチェーンリスク対策 〜激動の開発現場でリスクに立ち向かう〜【ZennFes】
cscengineer
PRO
2
130
新しいUbuntu/GNOMEが使いたいからXからWaylandへ移行頑張ってるの巻 2026-06-20
nobutomurata
0
100
エラーバジェットのアラートのタイミングを考える.pdf
kairim0
0
150
【NRUG vol.18】なぜ多くのオブザーバビリティ導入は失敗するのか
nrug_member
0
130
中期計画、2回作ってみた ~業務委託と正社員、両方の視点から~
demaecan
1
750
Chainlitで作るお手軽チャットUI
ynt0485
0
240
AI駆動開発を通して感じた、 AI時代のデザイナーの役割変化
whisaiyo
3
2.1k
SONiCのLinuxベースを活かしたZabbix監視
sonic
0
160
AIソロプレナー時代に2ヶ月で20人増員した事業創造会社の開発組織の話
miyatakoji
0
660
Featured
See All Featured
Measuring & Analyzing Core Web Vitals
bluesmoon
9
860
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.4k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.5k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.8k
Scaling GitHub
holman
464
140k
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
1
1.3k
The Curse of the Amulet
leimatthew05
1
13k
Java REST API Framework Comparison - PWX 2021
mraible
34
9.4k
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
580
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
1
1.4k
Building AI with AI
inesmontani
PRO
1
1.1k
How to make the Groovebox
asonas
2
2.2k
Transcript
SRE Innovation in Metaps 組織にSREを取り入れたことで起きた変革
Who are you? Naomichi Yamakita Metaps SRE Manager / Tech
Lead naomichi-y
メタップスの概要
従来の開発体制
SREチーム編成後の開発体制
メタップスのSREに求められる役割 インフラ設計・構築 開発支援 ・要件ヒアリング ・技術選定 ・設計 ・SLI / SLOの策定 ・環境構築
・クラウドネイティブに適した設計のサポート ・インテグレーション ・パフォーマンス分析 ・開発支援ツールの開発 インフラ運用 ・サービスの監視 ・オンコール対応 ・ポストモーテム ・システムの信頼性向上 ・スケーラビリティの改善 ・構成管理のアップデート ・運用の自動化 ・各種ミドルウェアのチューニング ・コスト最適化 ・セキュリティ改善 ・監査対応 ・ランブック / プレイブックの作成
SREのミッション • メタップスグループにおけるインフラ運用のエキスパート ◦ インフラ基盤となるプラットフォームの設計・構築をはじめ、運用の自動化、オンコール対応、クラウ ドネイティブな視点からのアプリケーション開発支援、セキュリティ対策といった幅広いスキル・知見 が求められる • 運用フレームワークの各社展開 ◦
インフラ運用の要となるフレームワークを各社展開すると共に、 SREがインフラ運用やアプリケー ション開発を支援。各社で培ったノウハウを取り入れつつ、フレームワークの強化・定常的な構成管 理のアップデートを目指す
アプリケーション基盤
SREチームによるインフラ基盤の提供 IaC Terraform GitHub / AWS / Datadog / PagerDuty
インフラ監視 Datadog Infrastructure / Datadog Synthetics インフラ・SLO・不正ログの監視 クラウド基盤 Amazon ECS / AWS Fargate AWS Well-Architectedをベースとした設計 インシデント管理 PagerDuty / Growi DatadogやSentryと連携し、障害発生時に 電話やPush通知を介してオンコール担当者 に連絡を行う CI CircleCI ログ収集基盤 Fluentd ログの整形・アラート通知・配送 デプロイ genova Slackから対話形式によるECS / Fargateへのデ プロイ、GitHub連携の自動デプロイをサポート ログ分析基盤 Kibana / Athena / Datadog Logs / Google BigQuery APM Datadog APM & Continuous Profiler アプリケーションのパフォーマンス分析 IPS / IDS Trend Micro Cloud One Workload Security エラー監視 Sentry BI Metabase / Google Data Portal
• 月に10〜20のアップデートを実施。各プロダクトへの展開を行う • 先月実施したタスクの例 ◦ ECS Execの有効化 ◦ Terraform 1.0へのアップグレード
◦ IAMアカウントのMFA必須化 インフラ構成のアップデート
インフラ構成をアップデートするメリット • インフラは「作って終わり」ではない • インフラ基盤となるSaaSやツールは日々機能アップデートが行われている • インフラ構成を最新の状態にアップデートすることで、システムの自動化や安定性 の向上、コストの削減などが見込まれる
• Embedded SRE + On-Call SRE ◦ SREメンバーは全てのプロダクトを対象にオンコール ローテーションで組み込まれる •
障害対応は全てのSREエンジニアが対応可能 ◦ 障害対応を属人化させない オンコール体制
サービスの信頼性を可視化 • DatadogでSLI / SLOを定義 • 一定の閾値を下がったプロダクトはアラートを通知
Metaps GameDayの実施 • 目的 ◦ システムに故意に障害を発生させ、復旧手順のトラブルシュートを学習する • シナリオ ◦ AWSのAZ障害が発生し、サービスサイトへの接続が不安定となった
• ゴール ◦ サービスへの接続が安定すること • ルール ◦ 事前に復旧手順をまとめたランブックを作成 (事前まで非公開) • 結果 ◦ https://qiita.com/organizations/metaps
組織にSREを取り入れたことで起きた変革 • 責任分界点の分離により、SREはインフラ、開発チームは開発に集中することでお 互いのパフォーマンスが向上 • クラウドネイティブに適した設計手法や運用、セキュリティといった知見が集まり、会 社全体を通してプロダクトごとの課題を可視化
SRE Meet up