Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SREという働き方
Search
ryuichi1208
July 09, 2023
Technology
4
500
SREという働き方
ryuichi1208
July 09, 2023
Tweet
Share
More Decks by ryuichi1208
See All by ryuichi1208
AI前提のサービス運用について再考する
ryuichi1208
5
1.3k
A Shallow Dive into the World of TCP
ryuichi1208
1
590
入門リトライ
ryuichi1208
20
7.4k
超入門SRE 2025
ryuichi1208
4
1.4k
Goで作って学ぶWebSocket
ryuichi1208
5
3.8k
コード化されていない稼働中のサーバを移設_再構築する技術
ryuichi1208
20
14k
AI前提のサービス運用ってなんだろう?
ryuichi1208
9
1.9k
入門 バックアップ
ryuichi1208
22
11k
効果的なオンコール対応と障害対応
ryuichi1208
9
4k
Other Decks in Technology
See All in Technology
AI時代におけるデータの重要性 ~データマネジメントの第一歩~
ryoichi_ota
0
700
新規事業におけるGORM+SQLx併用アーキテクチャ
hacomono
PRO
0
420
SCONE - 動画配信の帯域を最適化する新プロトコル
kazuho
1
130
Dylib Hijacking on macOS: Dead or Alive?
patrickwardle
0
380
Azureコストと向き合った、4年半のリアル / Four and a half years of dealing with Azure costs
aeonpeople
1
220
[2025年10月版] Databricks Data + AI Boot Camp
databricksjapan
1
110
やる気のない自分との向き合い方/How to Deal with Your Unmotivated Self
sanogemaru
1
530
事業開発におけるDify活用事例
kentarofujii
3
690
技育祭2025【秋】 企業ピッチ/登壇資料(高橋 悟生)
hacobu
PRO
0
120
現場データから見える、開発生産性の変化コード生成AI導入・運用のリアル〜 / Changes in Development Productivity and Operational Challenges Following the Introduction of Code Generation AI
nttcom
0
330
[Codex Meetup Japan #1] Codex-Powered Mobile Apps Development
korodroid
2
1k
LLMアプリの地上戦開発計画と運用実践 / 2025.10.15 GPU UNITE 2025
smiyawaki0820
1
670
Featured
See All Featured
A Tale of Four Properties
chriscoyier
161
23k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
Facilitating Awesome Meetings
lara
56
6.6k
A designer walks into a library…
pauljervisheath
209
24k
Building Applications with DynamoDB
mza
96
6.7k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
33
2.5k
Building Adaptive Systems
keathley
44
2.8k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
31
2.7k
It's Worth the Effort
3n
187
28k
Imperfection Machines: The Place of Print at Facebook
scottboms
269
13k
Designing for Performance
lara
610
69k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.2k
Transcript
1 SREという働き方 渡部 龍一 / GMO PEPABO inc.
2 • SREとは「Site Reliability Engineering」の頭文字をとった言葉 • 日本語では「サイト信頼性エンジニアリング」 • チームトポロジーの分類で考えると2つの側面があるチーム ◦
イネイブリングチーム ◦ プラットフォームチーム プラットフォームグループにおけるSRE
3 やってること
4 • PdM + SREチーム + アプリケーションチームで週次で実施 • サービスの信頼性に関する内容を共有する会 ◦
可用性に関連するイベントの共有 (メンテやアプデ)、各SLIの確認 ◦ SLO違反した際は事前に定義したポリシーに従って担当者をアサインして対応 ◦ インフラのコストなどもこの会で確認し削減出来そうなものがないかを確認 • SLI/SLOは四半期ごとに見直しを実施 SLI/SLOキープ
5 • パブリッククラウド(AWS/GCP)とプライベートクラウドの管理 ◦ キャパシティプランニング ◦ Terraform/Puppet/Ansibleの実装/レビュー ◦ 監視システムの設計 /構築やアラートの設定
◦ コストの最適化 ◦ オンコール対応 インフラ管理
6 • 便利CLIツール ◦ プライベートクラウド向けツール • 監視ツール ◦ MackerelプラグインやPrometheusプラグインを実装 •
Kubernetes関連 ◦ kubectlのプラグイン ◦ カスタムコントローラー • 便利SlackBot ◦ ChatOPSが盛んなのでSlackから使える便利Botを実装 • パフォーマンスチューニング ◦ N+1の改善/スロークエリ対応 ソフトウェアエンジニアリング
7 • k8s Operatorで運用負担減&ハイブリッドクラウドのコスト最適化をした話 • オンプレk8sとEKSの並行運用の実際 • SUZURIのマルチクラウド化で乗り越えたクラウド毎の「差分」を紹介します • Amazon
EFS を利用して管理運用をスリム化する • 入門障害対応 • オンコール体制をアップデートした話 チームメンバーの登壇資料/テックブログとか
8 最後に
9 • 中途 ◦ https://open.talentio.com/r/1/c/pepabo/pages/45336 • 新卒 ◦ https://recruit.pepabo.com/features/graduate/ 採用やってます!