Upgrade to Pro — share decks privately, control downloads, hide ads and more …

入門オンコール対応

ryuichi1208
July 26, 2024
3.5k

 入門オンコール対応

ryuichi1208

July 26, 2024
Tweet

Transcript

  1. 技術部プラットフォームグループ 2021年 中途入社 4 自己紹介 渡部 龍一 Watanabe Ryuichi •

    ロール: SRE • 仙台から来ました。北海道は2ヶ月ぶり2回目 • SNS: @ryuichi_1208 • 好きなこと: 障害対応、EOL対応 • 好きなラーメン: 仙台っ子ラーメン(豚骨醤油)
  2. 5

  3. 17 • アラートの受信と確認 ◦ Webページに繋がらない、閾値以上の時間がかかっている • インシデントの分類と優先順位付け • 初期(⼀次)対応 ◦

    重⼤なインシデントの場合は即エスカレーションするケースも • 詳細なトラブルシューティング • 対応できない場合は開発の担当者などへエスカレーション ◦ エンジニア以外にも告知を出す担当者や事業の責任者などへも共有 オンコール対応では何をやるのか?
  4. 21 • 平⽇⽇中にサーバが落ちたら ◦ そのタイミングで対応する • 平⽇夜間にサーバが落ちたら ◦ 翌⽇の営業⽇に対応する •

    連休中にサーバが落ちたら ◦ 翌営業⽇に対応する サーバが落ちてサービスが繋がらない状態
  5. 26 • システムの安定稼働 ◦ システムのダウンタイムを最⼩限に抑えるために、迅速な対応が求められる ◦ オンコール体制は、システムの安定稼働を維持するための重要な⼿段 • 顧客満⾜度の向上 ◦

    問題が発⽣した際に迅速に対応することで、顧客の信頼を維持し、サービス品質を向上させ ることができる • ビジネス継続性の確保 ◦ 重要なシステムやサービスの中断を最⼩限に抑えることで、ビジネスの継続性を確保できる オンコールの⽬的
  6. 42 • アラートの⼀次受け、⾃分で解決できる場合 ◦ ⼿動オペレーションで正常な状態へ戻す ◦ 根本対応まで実装 ▪ 設計/実装不備、チューニング不⾜はPull Requestの作成までやって翌営業⽇でリリース

    • ⼀次受けした後に⾃分で解決できない場合は詳しい⼈にエスカレーション ◦ どのくらいの時間調べてわからなければエスカレーションするかを事前に決めておく ▪ サービスの信頼性に直結する部分なので重要! オンコール当番になった際にやっていること② 対応
  7. 45 • シナリオベースの訓練の実施 ◦ 過去のオンコールで発⽣した対応をモブオペ形式で再現して対応を確認する ◦ さまざまなシナリオを想定して対応を練習することで、実際のインシデントに対する対応⼒ を強化する のが狙い •

    Playbook(Runbook)の整備 ◦ システム運⽤や管理において発⽣する作業や⼿順を⽂書化したもの ◦ 特定のインシデントやタスクを迅速かつ効率的に処理するためのガイドライン ◦ アラート -> 対応を⾃動化しにくいものはドキュメントとして⽤意している オンコールトレーニング②
  8. 51 • ノイズの削減 ◦ 緊急ではないアラートや冗⻑なアラートを除去し、重要なものだけが通知されるように設定 • アラートの閾値の調整 ◦ 過度なアラートを避けるために、適切なしきい値を設定 •

    対応の⾃動化 ◦ ⼿動対応の負担を軽減 ▪ ⽌⾎対応ばっかりやってるとアラートは減らない ▪ 理想は⽌⾎対応とかせずに根本対応までをアラートが出た時点でやれると良い ▪ 根本原因を把握して今後発⽣しないor発⽣しても⾃動対応の状態まで持っていく アラートを減らす取り組み
  9. 56 • SRE サイトリライアビリティエンジニアリング / オライリージャパン • サイトリライアビリティワークブック / オライリージャパン

    • SREの探求 / オライリージャパン • システム運⽤アンチパターン / オライリージャパン • ⼊⾨ 監視 / オライリージャパン • 運⽤設計の教科書 / 技術評論社 • システム障害対応の教科書 / 技術評論社 • システム障害対応 実践ガイド / 翔泳社 • PagerDuty FANBOOK Vol.1 参考書籍など