Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
PagerDutyで始めるか対応の自動化
Search
さいちゃん
January 13, 2023
Business
0
1.4k
PagerDutyで始めるか対応の自動化
さいちゃん
January 13, 2023
Tweet
Share
More Decks by さいちゃん
See All by さいちゃん
ここがすごいよ! AWS Systems Manager!
saichan11
0
2.3k
デベロッパーセキュリティ強化! ~シフトレフトで安全な開発を~
saichan11
0
1.1k
Dome9_IAMSaftyで考えるIAMベストプラクティス.pdf
saichan11
0
790
Other Decks in Business
See All in Business
バイブコーディング入門:ビジネスを加速させる迅速なプロトタイピング術
ncdc
0
160
株式会社TableCheck - 会社紹介 Company Profile
tablecheckac
0
2k
CREによる顧客のキャッチアップを加速する仕組み作り / Creating a mechanism to accelerate customer catch-up through CRE
woody_kawagoe
1
250
malna-recruiting-pitch
malna
0
9.1k
“成果”を出すためのプレゼン準備 プレゼン資料作成の前にやること
bunnchinn3
1
130
Tools & Treasures: Find Auction Items That WOW
auctria
PRO
0
170
新規投資家向け資料20250815
junkiogawa
0
3k
コミューン株式会社_採用候補者様向け資料
commune
PRO
1
3.7k
【DearOne】Dear Newest Member
hrm
2
11k
Rakus Career Introduction
rakus_career
0
390k
株式会社デイトラ FACT BOOK 2025
daytra
0
300
【UI/UXデザイナー職】中途採用向け会社説明資料(テックファーム株式会社)
techfirm
0
320
Featured
See All Featured
Build your cross-platform service in a week with App Engine
jlugia
231
18k
Reflections from 52 weeks, 52 projects
jeffersonlam
352
21k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
9
810
Building Flexible Design Systems
yeseniaperezcruz
328
39k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
36
2.5k
Making the Leap to Tech Lead
cromwellryan
135
9.5k
Making Projects Easy
brettharned
117
6.4k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.1k
Designing for Performance
lara
610
69k
Code Review Best Practice
trishagee
70
19k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
30
9.7k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
188
55k
Transcript
PagerDutyで始める インシデント対応の自動化 1 クラスメソッド株式会社 アライアンス統括部 サイード ラティファ栄美里
自己紹介 サイード ラティファ栄美里(さいちゃん) • 所属 ◦ アライアンス統括部 ◦ テックG ◦
セキュリティ系のSaaS製品を担当 • ブログ
3 アジェンダ 1. インシデント対応の重要性 ◦ 初めに考えておくこととゴール 2. PagerDutyの概要 ◦ PagerDutyとは
◦ 特徴と主な機能 3. PagerDutyでインシデント対応自動化を行う ◦ イベントの作成 ◦ エスカレーションポリシーの作成 ◦ スケジュールの作成
4 インシデント対応の責任者を任されたら まず何をしますか?
5 インシデント対応の際に考えておくべきこと 「インシデントに誰が対応するのか」 「インシデントの優先度はどの程度なのか」 「復旧までにかかる時間はどの程度を想定するのか」 「対応者以外には誰に通知するべきか」 「担当者が不在/他の件の対応中の場合誰が対処するのか」 「チーム内でインシデント対応後の分析やレポートの共有 をしておきたい」 インシデント対応といっても
考えなければならない事はたくさん・・ (優先度によっても変化)
6 RTOについて RTO(目標復旧時間) ”RTO(Recovery Time Objective)とは、システム障害発生時、「どのくらいの時間で (いつまでに)」システムを復旧させるかの目標値です。 RTOは、システムの利用者(顧客)を視野に入れると、システム停止やサービス中断が 許される時間と言い換えることもできます。 よって、RTOの設定は、利益損失との兼ね合いによって定められます。”
[ RTOとは:富士通用語解説 ]
7 インシデント対応のゴール • インシデント対応フローの作成 • エスカレーション • 適切なトリアージの設定 • 修復の自動化の活用
• インシデントの分析と情報共有 インシデント発生時の初期対応が素早くなり システム復旧までを最小の時間で行うことができる
8 PagerDutyの概要
9 PagerDutyとは • インシデント対応やオンコール管理を楽にする • AWSサービスや監視ソフトウェア等360以上の様々な ツールと統合可能 • ツールが発する大量のアラートを分析し、対応する •
PagerDutyの特徴 ◦ オンコール・エスカレーション管理 ◦ 高度なイベント分析・分類 ◦ インシデントの可視化・分析 ◦ 専用スマートフォンアプリ インシデント 対応が楽に!!
10 PagerDutyの主な機能 データの回収・蓄積 データの分析・まとめ チームへの通知 応用
11 PagerDutyの主な機能 • オンコール管理 ◦ モニタリングツールとの統合 ◦ 自動エスカレーション通知(電話、SMS、メール等) ◦ スケジュール管理
• イベントインテリジェンス ◦ アラートグルーピング(重複したアラートの仕分け) ◦ Past Incidents(類似の問題が過去どれほどの頻度で発生したか) • モダンインシデントレスポンス ◦ オンライン会議ツールとの連携 ◦ 対応チームのテンプレート作成 • ビジビリティ ◦ ITインフラ環境をダッシュボードで一元化 ◦ リアルタイムに状況把握 • アナリティクス ◦ 各メンバー、各チームの勤務時間、パフォーマンスの記録
12 PagerDutyでインシデント対応 の自動化
13 何を自動化するべきか チームのアラートとオー ケストレーション トリアージと 状態の分析 情報の提供 修復の 自動化 インシデント発
生 インシデント発生時の対応プロセス インシデント発生時の対応プロセスを 大きく4つに分けそれぞれのフェーズを自動化 することでインシデント対応全体を自動化する
14 それぞれの自動化 • チームのアラートとオーケストレーション ◦ 適切な対応者にアラート通知を行う ◦ ここを自動化することで応答時間と動員時間を短縮する ◦ 対応者同士が通信する場所(
SMSや電話、ビデオ会議など)の確保 • トリアージと状態分析 ◦ 問題が発生しているサービスから情報を収集し分析する ◦ 収集した情報から優先度を決定する • ビジネスコミュニケーション ◦ 最新情報を提供するためのリマインダーやタイマーの設定 ◦ インシデントのステータスに応じて自動更新を送信する ◦ 更新を送信する機能をチャットのチャンネルに追加する • 修復の自動化 ◦ インシデント対応を進めるにつれて見えてきた傾向をもとに修復フェーズを自動化
15 簡単な手順 • サービスの作成 • エスカレーションポリシーの作成 • スケジュールの作成 必須
16 サービスの作成 • PagerDuty では、サービスを、価 値を提供し、チームが完全に所有 する個別の機能として考えている • 他のサービスやAWSとの統合の設 定
• そのサービスを所有しているチーム を明確化する • 通知間隔の設定やその他の グルーピングに関する 情報の設定 ブログ:アラート管理ができる PagerDutyとnOpsを統合させてみた
17 エスカレーションポリシーの作成 • インシデントが起きた際に誰にどん な順番で通知を送るのかを定めた ルール • 最初の対応者が不在/対応中の 場合誰に通知を送るのか(2次オン コール受付)
• 対応者から応答がない場合どのく らいの時間待機するのか • 何度ポリシーを繰り返すのか • スケジュールをポリシーとして選択 することも可能
18 スケジュールの作成 • インシデントが発生した場合に誰が対応するのかスケジュール管理可能(シフ ト表のようなイメージ) • エスカレーションポリシーの担当者の欄にスケジュールを選択することも可能
19 最後にまとめ • インシデント発生時の初期対応を素早くすることで最小の時 間でインシデントに対応できる • 対応の自動化にはプロセスを分解して考える必要がある • 自動化でよりインシデント対応そのものに集中できる
20