Upgrade to Pro — share decks privately, control downloads, hide ads and more …

効果的なオンコール対応と障害対応

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for ryuichi1208 ryuichi1208
September 12, 2024

 効果的なオンコール対応と障害対応

Avatar for ryuichi1208

ryuichi1208

September 12, 2024
Tweet

More Decks by ryuichi1208

Other Decks in Technology

Transcript

  1. 2

  2. 4 アジェンダ 1. ⾃⼰紹介、サービスの紹介 2. イントロダクション 3. オンコール対応の現状と改善策 4. 障害対応

    5. (コラム) 障害対応を楽しむコツ 6. 統合的アプローチと最適化のための提案 7. まとめ
  3. 技術部プラットフォームグループ 2021年 中途入社 6 自己紹介 渡部 龍一 Watanabe Ryuichi •

    ロール: SRE • SNS: @ryuichi_1208 • 仙台市在住 • 好きなこと: 障害対応、EOL対応
  4. 9 • 国内最⼤級のECサイト作成サービス ◦ 無料で始められる ◦ 流通規模が⼤きくても使える • 2005年にサービス開始 ◦

    現在のショップ数は約4万店舗 ◦ 現在の流通総額は約2000億円 カラーミーショップ
  5. 20 • アラートの受信と確認 ◦ Webページに繋がらない、閾値以上の時間がかかっている • インシデントの分類と優先順位付け • 初期(⼀次)対応 ◦

    重⼤なインシデントの場合は即エスカレーションするケースも • 詳細なトラブルシューティング • 対応できない場合は開発の担当者などへエスカレーション ◦ エンジニア以外にも告知を出す担当者や事業の責任者などへも共有 オンコール対応では何をやるのか?
  6. 28

  7. 31

  8. 33 • ノイズの削減 ◦ 緊急ではないアラートや冗⻑なアラートを除去し、重要なものだけが通知されるように設定 • アラートの閾値の調整 ◦ 過度なアラートを避けるために、適切なしきい値を設定 •

    対応の⾃動化 ◦ ワークアラウンドの対応ばかりやってるとアラートは減らない ◦ 理想は⽌⾎対応とかせずに根本対応までをアラートが出た時点でやれると良い ◦ 根本原因を把握して今後発⽣しない or 発⽣しても⾃動対応の状態まで持っていく アラートを減らす取り組み
  9. 47

  10. 51 • なぜ繋がらないのかを調べていく ◦ 外形監視のアラートだけでは「なぜウェブサイトへ繋がらないのか」が分からない ◦ 直近でのシステムへ加えた変更を調べる ▪ デプロイした、サーバーの設定を変更、管理画面操作 ▪

    なにもしていないけど ... ◦ サービスを構成するコンポーネントから怪しい部分を調べていく ▪ 仮設->確認を繰り返していくフェーズ ▪ ロードバランサ、ウェブアプリ、 DB、ネットワーク、外部連携サービス 障害原因調査
  11. 52 • 根本対応 ◦ 繋がらない原因の特定が行えた場合の対応 ◦ 再発しないよう状態までコード修正や設定の修正までを行う • ワークアラウンド対応 ◦

    止血対応と呼んでいる ◦ 自分が持っている復旧するかもしれない対応手段を試していく ◦ 原因はわかっていなくてもつながるように優先的に対応する (再起動、ロールバック ) 復旧作業の実施
  12. 67 • 障害を前提としてシステム設計 ◦ 単⼀障害点(Single Point of Failure, SPOF)の排除 ◦

    フォールトトレラント設計 全体の信頼性強化 サーバーに直接アクセス LBを通してアクセス
  13. 70 • SLI/SLOの導⼊により、オンコールや障害対応の⽬標を定量化し、改善の基準を 明確にする ◦ SLI = サービスレベル指標 ▪ 例)

    リクエスト成功率、レスポンス時間、エラーレート ◦ SLO = サービスレベル⽬標 ▪ 例) 「リクエスト成功率99.9%」や「平均レスポンス時間500ms以下」 ◦ 定期的にSLOを⾒直し、パフォーマンスを最適化するためのアプローチを導⼊ SLI/SLOの導⼊と継続的改善
  14. 74

  15. 79 • SRE サイトリライアビリティエンジニアリング / オライリージャパン • サイトリライアビリティワークブック / オライリージャパン

    • SREの探求 / オライリージャパン • システム運⽤アンチパターン / オライリージャパン • ⼊⾨ 監視 / オライリージャパン • ウェブオペレーション / オライリージャパン • 運⽤設計の教科書 / 技術評論社 • システム障害対応の教科書 / 技術評論社 • システム障害対応 実践ガイド / 翔泳社 • PagerDuty FANBOOK Vol.1 参考書籍など