Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
PagerDutyで始めるか対応の自動化
Search
さいちゃん
January 13, 2023
Business
0
1.4k
PagerDutyで始めるか対応の自動化
さいちゃん
January 13, 2023
Tweet
Share
More Decks by さいちゃん
See All by さいちゃん
ここがすごいよ! AWS Systems Manager!
saichan11
0
2.3k
デベロッパーセキュリティ強化! ~シフトレフトで安全な開発を~
saichan11
0
1.1k
Dome9_IAMSaftyで考えるIAMベストプラクティス.pdf
saichan11
0
780
Other Decks in Business
See All in Business
GMOフィナンシャルHD 会社紹介資料
gmofh_hr_team
0
50k
【Progmat】受益証券発行信託に係る税制改正の背景と今後のST市場
progmat
0
220
Sapeet Recruiting
sapeet
0
3.1k
エレコム株式会社 中途採用説明資料
elecom_hr
0
150
【DearOne】Dear Newest Member
hrm
2
10k
jinjer recruiting pitch
jinjer_official
0
74k
大AI時代を長く活躍するための 「コンフォート・ゾーン」の新解釈
mkitahara01985
0
970
5年勤めた印刷屋から ITエンジニアに転職した話
ichigats
0
170
デジタル証券株式会社・会社紹介
dts
0
730
ties|クラウド顧客・案件管理システム - サービスのご紹介
so_kotani
2
430
特別講義 理系のための法学入門
seko_shuhei
2
2.4k
フルカイテン株式会社 採用資料
fullkaiten
0
67k
Featured
See All Featured
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
26k
Scaling GitHub
holman
460
140k
Adopting Sorbet at Scale
ufuk
77
9.5k
4 Signs Your Business is Dying
shpigford
184
22k
Six Lessons from altMBA
skipperchong
28
3.9k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
Designing for humans not robots
tammielis
253
25k
Stop Working from a Prison Cell
hatefulcrawdad
271
21k
Thoughts on Productivity
jonyablonski
69
4.7k
Producing Creativity
orderedlist
PRO
346
40k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.7k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
20
1.3k
Transcript
PagerDutyで始める インシデント対応の自動化 1 クラスメソッド株式会社 アライアンス統括部 サイード ラティファ栄美里
自己紹介 サイード ラティファ栄美里(さいちゃん) • 所属 ◦ アライアンス統括部 ◦ テックG ◦
セキュリティ系のSaaS製品を担当 • ブログ
3 アジェンダ 1. インシデント対応の重要性 ◦ 初めに考えておくこととゴール 2. PagerDutyの概要 ◦ PagerDutyとは
◦ 特徴と主な機能 3. PagerDutyでインシデント対応自動化を行う ◦ イベントの作成 ◦ エスカレーションポリシーの作成 ◦ スケジュールの作成
4 インシデント対応の責任者を任されたら まず何をしますか?
5 インシデント対応の際に考えておくべきこと 「インシデントに誰が対応するのか」 「インシデントの優先度はどの程度なのか」 「復旧までにかかる時間はどの程度を想定するのか」 「対応者以外には誰に通知するべきか」 「担当者が不在/他の件の対応中の場合誰が対処するのか」 「チーム内でインシデント対応後の分析やレポートの共有 をしておきたい」 インシデント対応といっても
考えなければならない事はたくさん・・ (優先度によっても変化)
6 RTOについて RTO(目標復旧時間) ”RTO(Recovery Time Objective)とは、システム障害発生時、「どのくらいの時間で (いつまでに)」システムを復旧させるかの目標値です。 RTOは、システムの利用者(顧客)を視野に入れると、システム停止やサービス中断が 許される時間と言い換えることもできます。 よって、RTOの設定は、利益損失との兼ね合いによって定められます。”
[ RTOとは:富士通用語解説 ]
7 インシデント対応のゴール • インシデント対応フローの作成 • エスカレーション • 適切なトリアージの設定 • 修復の自動化の活用
• インシデントの分析と情報共有 インシデント発生時の初期対応が素早くなり システム復旧までを最小の時間で行うことができる
8 PagerDutyの概要
9 PagerDutyとは • インシデント対応やオンコール管理を楽にする • AWSサービスや監視ソフトウェア等360以上の様々な ツールと統合可能 • ツールが発する大量のアラートを分析し、対応する •
PagerDutyの特徴 ◦ オンコール・エスカレーション管理 ◦ 高度なイベント分析・分類 ◦ インシデントの可視化・分析 ◦ 専用スマートフォンアプリ インシデント 対応が楽に!!
10 PagerDutyの主な機能 データの回収・蓄積 データの分析・まとめ チームへの通知 応用
11 PagerDutyの主な機能 • オンコール管理 ◦ モニタリングツールとの統合 ◦ 自動エスカレーション通知(電話、SMS、メール等) ◦ スケジュール管理
• イベントインテリジェンス ◦ アラートグルーピング(重複したアラートの仕分け) ◦ Past Incidents(類似の問題が過去どれほどの頻度で発生したか) • モダンインシデントレスポンス ◦ オンライン会議ツールとの連携 ◦ 対応チームのテンプレート作成 • ビジビリティ ◦ ITインフラ環境をダッシュボードで一元化 ◦ リアルタイムに状況把握 • アナリティクス ◦ 各メンバー、各チームの勤務時間、パフォーマンスの記録
12 PagerDutyでインシデント対応 の自動化
13 何を自動化するべきか チームのアラートとオー ケストレーション トリアージと 状態の分析 情報の提供 修復の 自動化 インシデント発
生 インシデント発生時の対応プロセス インシデント発生時の対応プロセスを 大きく4つに分けそれぞれのフェーズを自動化 することでインシデント対応全体を自動化する
14 それぞれの自動化 • チームのアラートとオーケストレーション ◦ 適切な対応者にアラート通知を行う ◦ ここを自動化することで応答時間と動員時間を短縮する ◦ 対応者同士が通信する場所(
SMSや電話、ビデオ会議など)の確保 • トリアージと状態分析 ◦ 問題が発生しているサービスから情報を収集し分析する ◦ 収集した情報から優先度を決定する • ビジネスコミュニケーション ◦ 最新情報を提供するためのリマインダーやタイマーの設定 ◦ インシデントのステータスに応じて自動更新を送信する ◦ 更新を送信する機能をチャットのチャンネルに追加する • 修復の自動化 ◦ インシデント対応を進めるにつれて見えてきた傾向をもとに修復フェーズを自動化
15 簡単な手順 • サービスの作成 • エスカレーションポリシーの作成 • スケジュールの作成 必須
16 サービスの作成 • PagerDuty では、サービスを、価 値を提供し、チームが完全に所有 する個別の機能として考えている • 他のサービスやAWSとの統合の設 定
• そのサービスを所有しているチーム を明確化する • 通知間隔の設定やその他の グルーピングに関する 情報の設定 ブログ:アラート管理ができる PagerDutyとnOpsを統合させてみた
17 エスカレーションポリシーの作成 • インシデントが起きた際に誰にどん な順番で通知を送るのかを定めた ルール • 最初の対応者が不在/対応中の 場合誰に通知を送るのか(2次オン コール受付)
• 対応者から応答がない場合どのく らいの時間待機するのか • 何度ポリシーを繰り返すのか • スケジュールをポリシーとして選択 することも可能
18 スケジュールの作成 • インシデントが発生した場合に誰が対応するのかスケジュール管理可能(シフ ト表のようなイメージ) • エスカレーションポリシーの担当者の欄にスケジュールを選択することも可能
19 最後にまとめ • インシデント発生時の初期対応を素早くすることで最小の時 間でインシデントに対応できる • 対応の自動化にはプロセスを分解して考える必要がある • 自動化でよりインシデント対応そのものに集中できる
20