Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
オンコール運用をほんの少し効率的に行うためのTips
Search
coconala_engineer
August 06, 2024
0
260
オンコール運用をほんの少し効率的に行うためのTips
PagerDuty on Tour TOKYO 2024のLT資料。
https://www.pagerduty.co.jp/pagerdutyontourtokyo/
coconala_engineer
August 06, 2024
Tweet
Share
More Decks by coconala_engineer
See All by coconala_engineer
WafCharm導入で激変!プロダクトの未来を守るためのTips
coconala_engineer
0
16
多様なロール経験が導いたエンジニアキャリアのナビゲーション
coconala_engineer
1
210
未来を創るエンジニアを採用・育成するための制度とマインドセット
coconala_engineer
0
35
VPoE Meetup Vol.1 VPoEとして実践してきたことと反省点
coconala_engineer
3
310
エンジニアマネージャーになった理由を振り返ってみた
coconala_engineer
0
490
Developer Experienceを向上させる基盤づくりの取り組み事例集
coconala_engineer
0
220
Vue.jsで入力フォームにリアルタイムハイライト機能を自前実装した話
coconala_engineer
0
69
技術広報経験0のEMがエンジニアブランディングを始めてみた
coconala_engineer
2
250
事業会社におけるセキュリティ・ ITガバナンス強化への道のり
coconala_engineer
0
39
Featured
See All Featured
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
32
2.7k
Typedesign – Prime Four
hannesfritz
40
2.4k
Product Roadmaps are Hard
iamctodd
PRO
49
11k
Bootstrapping a Software Product
garrettdimon
PRO
305
110k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
127
18k
How to Think Like a Performance Engineer
csswizardry
22
1.2k
The World Runs on Bad Software
bkeepers
PRO
65
11k
Measuring & Analyzing Core Web Vitals
bluesmoon
4
170
Bash Introduction
62gerente
608
210k
Git: the NoSQL Database
bkeepers
PRO
427
64k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
330
21k
Why Our Code Smells
bkeepers
PRO
335
57k
Transcript
Copyright coconala Inc. All Rights Reserved. オンコール運用をほんの少し効率的に 行うための Tips 株式会社ココナラ
川崎 雄太 2024/08/06 PagerDuty on Tour TOKYO 2024
Copyright coconala Inc. All Rights Reserved. 自己紹介(川崎 雄太) 2 川崎
雄太 Yuta Kawasaki @yuta_k0911 株式会社ココナラ システムプラットフォーム部 部長 / Head of Information SRE / 情シス / セキュリティ領域のEM SRE NEXT 2024のコアメンバー 今年の抱負:現状打破 ✨
Copyright coconala Inc. All Rights Reserved. 3 Agenda PagerDutyを使い始める前のオンコール運用 PagerDutyを工夫して使ってみた
いま取り組んでいること 2 1 3
Copyright coconala Inc. All Rights Reserved. PagerDutyを使い始める前のオンコール運用 Chapter 01 4
Copyright coconala Inc. All Rights Reserved. PagerDuty導入前のオンコール運用の課題 5 オンコール運用が建設的に回っていたとは言い難い 以下の課題によって、クリティカルなイ
ンシデントの対応が遅れた。 1. アラート発生時のオンコール担 当者が誰かわかりにくく、フォ ローが遅れがち。 2. アラートの通知がメールのみな ので、反応が遅れがち。 3. ↑の結果として、 MTTA(平均確 認時間)が約 10分程度。
Copyright coconala Inc. All Rights Reserved. MTTAが長い🤔 ↓ クリティカルな障害の対応が遅れる💦 ↓
ユーザーが離れていってしまう😭 ↓ このループから脱却せねば! 💪 6
Copyright coconala Inc. All Rights Reserved. ココナラで PagerDutyを使ってみた Chapter 02
7
Copyright coconala Inc. All Rights Reserved. ココナラでPagerDutyを導入した目的 8 MTTAの短縮+αを実現したかった 前述の課題対応として、大きくは以下の3つを
実現したいと考えていた。 1. 複数の監視ツールのアラートを集約 し、架電する仕組みの実現。 2. オンコール担当者不在 or 一定時間 反応がなかったときの自動エスカレー ションの実現。 3. 解決が難しいアラートの速やかな上 位エスカレーションの実現。
Copyright coconala Inc. All Rights Reserved. ココナラのざっくりとしたオンコール運用環境 9
Copyright coconala Inc. All Rights Reserved. やっぱりツールを使う中で、課題ってあるよね 🤔 その1 10
運用をツールにアジャストする必要があった まずはPagerDutyの使い方を知っているエ ンジニアが少なく、ツールの使い方の勉強 や試行錯誤するところから着手した。(今 ほど、コミュニティが発達していなかっ たので…) また、労務観点・就業規則観点含むオ ンコール対応のルールを作り込む 必 要があり、ドキュメントの整備が必要だっ た。
Copyright coconala Inc. All Rights Reserved. やっぱりツールを使う中で、課題ってあるよね 🤔 その2 11
PagerDutyをより効率的に使うために試行錯誤した オンコール運用を円滑かつ効率的に実践 していくための手段を模索した。 (今はその機能がPagerDutyにローンチさ れているものもありますが)当時は自作し て利活用することで、”かゆいところに手 が届く”状態を実現していた。 その結果、 PagerDuty導入の効果を 最大化できたと言える。
Copyright coconala Inc. All Rights Reserved. 試行錯誤することで、MTTAを 1分程度(当初の 10分の1)まで 短縮することができた!!🎉🎉
12
Copyright coconala Inc. All Rights Reserved. いま取り組んでいること Chapter 03 13
Copyright coconala Inc. All Rights Reserved. AI Opsの利活用 14 人は人のやるべきことに集中する
PagerDutyはAI Opsに関する機能を多数 ローンチしている。(以下は一例) ・アラートの統合と集約 ・障害対応内容の示唆 ・Runbookの実行 ・ポストモーテムの作成 etc 人でないとできないところにフォーカスできれ ば、よりオンコール対応がスムーズに進 められる。
Copyright coconala Inc. All Rights Reserved. PagerDutyユーザーコミュニティの盛り上げ 15 「自分の当たり前は誰かの発見」という前提で発信する 新機能の紹介や現時点で未
利用の機能に対する他社の 活用事例などのベストプラ クティスをシェアしあう機 会を創出していく。 イコール、 PagerDutyの ユーザーコミュニティがよ り盛り上がると嬉しい! 😁
Copyright coconala Inc. All Rights Reserved. ココナラでは車輪の再発明を いくつかしてしまっていますが💦 PagerDutyを利活用することで、 オンコール運用の質が
格段に上がります!!😁 16
Copyright coconala Inc. All Rights Reserved. 17 昨年アドベントカ レンダーへ投稿し た記事が表彰!
🎉 ぜひ、こちらも見て いただけると嬉しい です。
Copyright coconala Inc. All Rights Reserved. 18 ぜひ、PagerDuty FANBOOK もご覧ください!!
Fin
Copyright coconala Inc. All Rights Reserved. Appendix Chapter 06 20
Copyright coconala Inc. All Rights Reserved. PagerDutyに関するココナラのアウトプット 21 • PagerDutyの事例掲載
◦ https://www.pagerduty.co.jp/customers/coconala/ • PagerDuty Summit 2023の登壇レポート ◦ https://zenn.dev/coconala/articles/ca9a60341721f7 • Findy Toolsのレビュー ◦ https://findy-tools.io/products/pagerduty/3/16 • アドベントカレンダーの記事 ◦ https://zenn.dev/coconala/articles/56796b24415ec8
Copyright coconala Inc. All Rights Reserved. PagerDutyのココナラ利用事例動画 22
Copyright coconala Inc. All Rights Reserved. 事例その1:当日のオンコール担当者を Slackに通知 23 エンジニア全体でオンコール体制の理解を促進
毎日10時にオンコールシフトを切り 替える運用をしており、切り替えタイ ミングで当日のオンコール担当 者をエンジニア全体がいるチャ ンネルへ通知。 自身のカレンダーに自分のオンコー ルシフトを連携しているメンバーが 大多数だが、この通知で認識漏 れを防ぐことも目的としている。
Copyright coconala Inc. All Rights Reserved. 事例その2:アラート発生時に当日のオンコール担当者へメンション 24 より気づきやすい仕組みとリマインダを自動化
Copyright coconala Inc. All Rights Reserved. 事例その3:アラートのキーワードを元に Runbookを通知 25 アラート対応の効率化を実現
既出のアラートであらかじめRunbookを用 意しているものは、アラートの通知内容 からキーワードを抽出し、 Runbookを Slackに通知。 これによって、Slackを見るだけでイン シデント対応を進めることが可能 、か つ、オンコール担当者以外もアラート 対応を円滑に進めることができる。