Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SREという働き方
Search
ryuichi1208
July 09, 2023
Technology
4
480
SREという働き方
ryuichi1208
July 09, 2023
Tweet
Share
More Decks by ryuichi1208
See All by ryuichi1208
AI前提のサービス運用について再考する
ryuichi1208
6
1.2k
A Shallow Dive into the World of TCP
ryuichi1208
1
560
入門リトライ
ryuichi1208
19
7.3k
超入門SRE 2025
ryuichi1208
4
1.4k
Goで作って学ぶWebSocket
ryuichi1208
5
3.7k
コード化されていない稼働中のサーバを移設_再構築する技術
ryuichi1208
20
13k
AI前提のサービス運用ってなんだろう?
ryuichi1208
9
1.9k
入門 バックアップ
ryuichi1208
22
10k
効果的なオンコール対応と障害対応
ryuichi1208
9
3.9k
Other Decks in Technology
See All in Technology
さくらのIaaS基盤のモニタリングとOpenTelemetry/OSC Hokkaido 2025
fujiwara3
3
460
マネジメントって難しい、けどおもしろい / Management is tough, but fun! #em_findy
ar_tama
7
1.2k
AIエージェントが書くのなら直接CloudFormationを書かせればいいじゃないですか何故AWS CDKを使う必要があるのさ
watany
9
2.3k
NewSQLや分散データベースを支えるRaftの仕組み - 仕組みを理解して知る得意不得意
hacomono
PRO
3
190
サイバーエージェントグループのSRE10年の歩みとAI時代の生存戦略
shotatsuge
4
420
いつの間にか入れ替わってる!?新しいAWS Security Hubとは?
cmusudakeisuke
0
140
20250707-AI活用の個人差を埋めるチームづくり
shnjtk
6
4k
SREの次のキャリアの道しるべ 〜SREがマネジメントレイヤーに挑戦して、 気づいたこととTips〜
coconala_engineer
1
150
american airlines®️ USA Contact Numbers: Complete 2025 Support Guide
supportflight
1
110
Rethinking Incident Response: Context-Aware AI in Practice
rrreeeyyy
1
130
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
3
970
オーティファイ会社紹介資料 / Autify Company Deck
autifyhq
10
130k
Featured
See All Featured
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
26k
[RailsConf 2023] Rails as a piece of cake
palkan
55
5.7k
How to Ace a Technical Interview
jacobian
278
23k
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
The Power of CSS Pseudo Elements
geoffreycrofte
77
5.9k
Documentation Writing (for coders)
carmenintech
72
4.9k
Mobile First: as difficult as doing things right
swwweet
223
9.7k
Designing for humans not robots
tammielis
253
25k
The Language of Interfaces
destraynor
158
25k
Build The Right Thing And Hit Your Dates
maggiecrowley
36
2.8k
Java REST API Framework Comparison - PWX 2021
mraible
31
8.7k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Transcript
1 SREという働き方 渡部 龍一 / GMO PEPABO inc.
2 • SREとは「Site Reliability Engineering」の頭文字をとった言葉 • 日本語では「サイト信頼性エンジニアリング」 • チームトポロジーの分類で考えると2つの側面があるチーム ◦
イネイブリングチーム ◦ プラットフォームチーム プラットフォームグループにおけるSRE
3 やってること
4 • PdM + SREチーム + アプリケーションチームで週次で実施 • サービスの信頼性に関する内容を共有する会 ◦
可用性に関連するイベントの共有 (メンテやアプデ)、各SLIの確認 ◦ SLO違反した際は事前に定義したポリシーに従って担当者をアサインして対応 ◦ インフラのコストなどもこの会で確認し削減出来そうなものがないかを確認 • SLI/SLOは四半期ごとに見直しを実施 SLI/SLOキープ
5 • パブリッククラウド(AWS/GCP)とプライベートクラウドの管理 ◦ キャパシティプランニング ◦ Terraform/Puppet/Ansibleの実装/レビュー ◦ 監視システムの設計 /構築やアラートの設定
◦ コストの最適化 ◦ オンコール対応 インフラ管理
6 • 便利CLIツール ◦ プライベートクラウド向けツール • 監視ツール ◦ MackerelプラグインやPrometheusプラグインを実装 •
Kubernetes関連 ◦ kubectlのプラグイン ◦ カスタムコントローラー • 便利SlackBot ◦ ChatOPSが盛んなのでSlackから使える便利Botを実装 • パフォーマンスチューニング ◦ N+1の改善/スロークエリ対応 ソフトウェアエンジニアリング
7 • k8s Operatorで運用負担減&ハイブリッドクラウドのコスト最適化をした話 • オンプレk8sとEKSの並行運用の実際 • SUZURIのマルチクラウド化で乗り越えたクラウド毎の「差分」を紹介します • Amazon
EFS を利用して管理運用をスリム化する • 入門障害対応 • オンコール体制をアップデートした話 チームメンバーの登壇資料/テックブログとか
8 最後に
9 • 中途 ◦ https://open.talentio.com/r/1/c/pepabo/pages/45336 • 新卒 ◦ https://recruit.pepabo.com/features/graduate/ 採用やってます!