Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SREという働き方
Search
ryuichi1208
July 09, 2023
Technology
3
430
SREという働き方
ryuichi1208
July 09, 2023
Tweet
Share
More Decks by ryuichi1208
See All by ryuichi1208
入門 バックアップ
ryuichi1208
19
7.7k
AI前提のサービス運用ってなんだろう?
ryuichi1208
8
1.4k
効果的なオンコール対応と障害対応
ryuichi1208
8
3.4k
コロナ禍とその後:地方エンジニアが学んだキャリア戦略の変遷
ryuichi1208
5
310
入門オンコール対応
ryuichi1208
9
3.4k
MySQLのOOMと戦った話
ryuichi1208
6
2.8k
障害対応を楽しむ7つのコツ
ryuichi1208
8
4.6k
超入門 SRE
ryuichi1208
9
3.7k
SLO Docsのすゝめ
ryuichi1208
8
3.1k
Other Decks in Technology
See All in Technology
Aurora_BlueGreenDeploymentsやってみた
tsukasa_ishimaru
1
110
LeSS Yoake 2024 スポンサーセッション
riki_hiraoka
0
270
AIを使って小説を書こう!【2024/10/25講演資料】
kamomeashizawa
0
160
Emacs x Nostr
hakkadaikon
1
110
TinyMLの技術動向
kyotomon
2
230
Measuring the Success of Developer Experience
nikokivela
1
130
品質の高い機能を”早く”提供するために技術的な面でチームでやったこと、やりたいこと
sansantech
PRO
2
220
30万人が利用するチャットをFirebase Realtime DatabaseからActionCableへ移行する方法
ryosk7
2
230
AWS CDK を活用した 大量 AWS アカウントへのプロビジョニング例 〜 SaaSus Platform の場合 〜 於 JAWS-UG CDK支部 #17
yaggy
1
220
ActiveRecord SQLインジェクションクイズ (Rails 7.1.3.4)
kozy4324
8
2k
サーバーレス SaaS における運用監視の負荷軽減のためのアプローチ
ririru0325
0
130
Comparing Apache Flink and Spark for Modern Stream Data Processing
sharonx
0
170
Featured
See All Featured
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
31
2.6k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
46
2.1k
A designer walks into a library…
pauljervisheath
202
24k
How to Ace a Technical Interview
jacobian
275
23k
Bootstrapping a Software Product
garrettdimon
PRO
305
110k
RailsConf 2023
tenderlove
29
870
Imperfection Machines: The Place of Print at Facebook
scottboms
264
13k
Build The Right Thing And Hit Your Dates
maggiecrowley
32
2.4k
Fashionably flexible responsive web design (full day workshop)
malarkey
404
65k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
41
9.2k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
4
280
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
92
16k
Transcript
1 SREという働き方 渡部 龍一 / GMO PEPABO inc.
2 • SREとは「Site Reliability Engineering」の頭文字をとった言葉 • 日本語では「サイト信頼性エンジニアリング」 • チームトポロジーの分類で考えると2つの側面があるチーム ◦
イネイブリングチーム ◦ プラットフォームチーム プラットフォームグループにおけるSRE
3 やってること
4 • PdM + SREチーム + アプリケーションチームで週次で実施 • サービスの信頼性に関する内容を共有する会 ◦
可用性に関連するイベントの共有 (メンテやアプデ)、各SLIの確認 ◦ SLO違反した際は事前に定義したポリシーに従って担当者をアサインして対応 ◦ インフラのコストなどもこの会で確認し削減出来そうなものがないかを確認 • SLI/SLOは四半期ごとに見直しを実施 SLI/SLOキープ
5 • パブリッククラウド(AWS/GCP)とプライベートクラウドの管理 ◦ キャパシティプランニング ◦ Terraform/Puppet/Ansibleの実装/レビュー ◦ 監視システムの設計 /構築やアラートの設定
◦ コストの最適化 ◦ オンコール対応 インフラ管理
6 • 便利CLIツール ◦ プライベートクラウド向けツール • 監視ツール ◦ MackerelプラグインやPrometheusプラグインを実装 •
Kubernetes関連 ◦ kubectlのプラグイン ◦ カスタムコントローラー • 便利SlackBot ◦ ChatOPSが盛んなのでSlackから使える便利Botを実装 • パフォーマンスチューニング ◦ N+1の改善/スロークエリ対応 ソフトウェアエンジニアリング
7 • k8s Operatorで運用負担減&ハイブリッドクラウドのコスト最適化をした話 • オンプレk8sとEKSの並行運用の実際 • SUZURIのマルチクラウド化で乗り越えたクラウド毎の「差分」を紹介します • Amazon
EFS を利用して管理運用をスリム化する • 入門障害対応 • オンコール体制をアップデートした話 チームメンバーの登壇資料/テックブログとか
8 最後に
9 • 中途 ◦ https://open.talentio.com/r/1/c/pepabo/pages/45336 • 新卒 ◦ https://recruit.pepabo.com/features/graduate/ 採用やってます!