Upgrade to Pro — share decks privately, control downloads, hide ads and more …

オンコール運用をほんの少し効率的に行うためのTips

coconala_engineer
August 06, 2024
190

 オンコール運用をほんの少し効率的に行うためのTips

PagerDuty on Tour TOKYO 2024のLT資料。
https://www.pagerduty.co.jp/pagerdutyontourtokyo/

coconala_engineer

August 06, 2024
Tweet

More Decks by coconala_engineer

Transcript

  1. Copyright coconala Inc. All Rights Reserved. 自己紹介(川崎 雄太) 2 川崎

    雄太 Yuta Kawasaki @yuta_k0911 株式会社ココナラ システムプラットフォーム部 部長 / Head of Information SRE / 情シス / セキュリティ領域のEM SRE NEXT 2024のコアメンバー 今年の抱負:現状打破 ✨
  2. Copyright coconala Inc. All Rights Reserved. PagerDuty導入前のオンコール運用の課題 5 オンコール運用が建設的に回っていたとは言い難い 以下の課題によって、クリティカルなイ

    ンシデントの対応が遅れた。 1. アラート発生時のオンコール担 当者が誰かわかりにくく、フォ ローが遅れがち。 2. アラートの通知がメールのみな ので、反応が遅れがち。 3. ↑の結果として、 MTTA(平均確 認時間)が約 10分程度。
  3. Copyright coconala Inc. All Rights Reserved. MTTAが長い🤔 ↓ クリティカルな障害の対応が遅れる💦 ↓

    ユーザーが離れていってしまう😭 ↓ このループから脱却せねば! 💪 6
  4. Copyright coconala Inc. All Rights Reserved. ココナラでPagerDutyを導入した目的 8 MTTAの短縮+αを実現したかった 前述の課題対応として、大きくは以下の3つを

    実現したいと考えていた。 1. 複数の監視ツールのアラートを集約 し、架電する仕組みの実現。 2. オンコール担当者不在 or 一定時間 反応がなかったときの自動エスカレー ションの実現。 3. 解決が難しいアラートの速やかな上 位エスカレーションの実現。
  5. Copyright coconala Inc. All Rights Reserved. やっぱりツールを使う中で、課題ってあるよね 🤔 その1 10

    運用をツールにアジャストする必要があった まずはPagerDutyの使い方を知っているエ ンジニアが少なく、ツールの使い方の勉強 や試行錯誤するところから着手した。(今 ほど、コミュニティが発達していなかっ たので…) また、労務観点・就業規則観点含むオ ンコール対応のルールを作り込む 必 要があり、ドキュメントの整備が必要だっ た。
  6. Copyright coconala Inc. All Rights Reserved. やっぱりツールを使う中で、課題ってあるよね 🤔 その2 11

    PagerDutyをより効率的に使うために試行錯誤した オンコール運用を円滑かつ効率的に実践 していくための手段を模索した。 (今はその機能がPagerDutyにローンチさ れているものもありますが)当時は自作し て利活用することで、”かゆいところに手 が届く”状態を実現していた。 その結果、 PagerDuty導入の効果を 最大化できたと言える。
  7. Copyright coconala Inc. All Rights Reserved. AI Opsの利活用 14 人は人のやるべきことに集中する

    PagerDutyはAI Opsに関する機能を多数 ローンチしている。(以下は一例) ・アラートの統合と集約 ・障害対応内容の示唆 ・Runbookの実行 ・ポストモーテムの作成 etc 人でないとできないところにフォーカスできれ ば、よりオンコール対応がスムーズに進 められる。
  8. Copyright coconala Inc. All Rights Reserved. PagerDutyユーザーコミュニティの盛り上げ 15 「自分の当たり前は誰かの発見」という前提で発信する 新機能の紹介や現時点で未

    利用の機能に対する他社の 活用事例などのベストプラ クティスをシェアしあう機 会を創出していく。 イコール、 PagerDutyの ユーザーコミュニティがよ り盛り上がると嬉しい! 😁
  9. Fin

  10. Copyright coconala Inc. All Rights Reserved. PagerDutyに関するココナラのアウトプット 21 • PagerDutyの事例掲載

    ◦ https://www.pagerduty.co.jp/customers/coconala/ • PagerDuty Summit 2023の登壇レポート ◦ https://zenn.dev/coconala/articles/ca9a60341721f7 • Findy Toolsのレビュー ◦ https://findy-tools.io/products/pagerduty/3/16 • アドベントカレンダーの記事 ◦ https://zenn.dev/coconala/articles/56796b24415ec8
  11. Copyright coconala Inc. All Rights Reserved. 事例その1:当日のオンコール担当者を Slackに通知 23 エンジニア全体でオンコール体制の理解を促進

    毎日10時にオンコールシフトを切り 替える運用をしており、切り替えタイ ミングで当日のオンコール担当 者をエンジニア全体がいるチャ ンネルへ通知。 自身のカレンダーに自分のオンコー ルシフトを連携しているメンバーが 大多数だが、この通知で認識漏 れを防ぐことも目的としている。
  12. Copyright coconala Inc. All Rights Reserved. 事例その3:アラートのキーワードを元に Runbookを通知 25 アラート対応の効率化を実現

    既出のアラートであらかじめRunbookを用 意しているものは、アラートの通知内容 からキーワードを抽出し、 Runbookを Slackに通知。 これによって、Slackを見るだけでイン シデント対応を進めることが可能 、か つ、オンコール担当者以外もアラート 対応を円滑に進めることができる。