Upgrade to Pro — share decks privately, control downloads, hide ads and more …

障害対応の人間的側面

 障害対応の人間的側面

「成長企業に学ぶ!インシデントマネジメントのノウハウ」で話した資料です。
https://buysell-technologies.connpass.com/event/319994/

障害対応の人間的側面に焦点を当て、組織における障害対応の重要性を論じています。障害対応の目的、責任、対応、文化の四つの柱に基づき、人間行動の動機付けや責任の持ち方の重要性について考察しています。特に、原因究明よりも迅速な復旧を優先し、障害対応を通じたチームのレジリエンスを高める必要性を強調しています。信頼構築や感謝の表現が障害対応の効果を高め、ヒューマンエラーの報告とその取り扱いについても触れており、人的負債の考え方などに触れています。

katsuhisa_

June 11, 2024
Tweet

More Decks by katsuhisa_

Other Decks in Technology

Transcript

  1. 11 あなたの報酬の発生源にも影響があるから • ECのような性質のサービス場合、 システムが利用できない時間帯は販売の機会損失が発生する • SLA ( Service Level

    Agreement ) を守るため ◦ SLAでは一般的に、違反時の返金等が定められている • 顧客との信頼を維持する ◦ SaaSの場合、解約リスクにつながることも • 人命・社会問題につながるようなケースもあるはず
  2. 12 でもさ、障害ってなに? • 障害と不具合ってなにが違う? ◦ ログイン機能の不具合と、 いいね機能の不具合ってなにが違う? • 障害と処理遅延ってなにが違う? •

    どれくらい継続すると深刻なんだっけ? • SLI( Service Level Indicator)や 障害レベル( Severity Levels )を話すことで 認識がそろっていく
  3. 13 稼働率 週間停止時間 月間停止時間 年間停止時間 99% 1.68 時間 7.2 時間

    3.65 日 99.9% 10.1 分 43.2 分 8.76 時間 99.95% 5 分 21.6 分 4.38 時間 99.99% 1.01 分 4.32 分 52.56 分 99.999% 6 秒 25.9 秒 5.26 分 稼働率目標とサービス停止時間との関係
  4. 19 障害対応の責任ってなによ • オンコール待機時間中に、 ◦分以内に反応してPCをとりあえず開くこと? • 復旧までぜんぶ対応すること? • そもそも、いつはじまって、いつ終わる? ◦

    どうやったら障害対応が開始するのか ◦ 復旧とはどういう状態か →これらの情報をもとに期待される振る舞いが決まっていく
  5. 22 https://yakst.com/ja/posts/5588 • インシデント指揮官 (IC = Incident Commander) • 主任SME

    (SME = Subject Matter Expert) • 外部通信役 (External Liaison) • 書記官 (Scribe) 障害対応における役割分担の例
  6. 28 原因究明よりも復旧を優先する • ソースコードを調べて、正しくなおしたくなる 人間の気持ちはめちゃくちゃわかる • でもまずは不格好でも良いので、復旧を優先しよう ◦ フェイルセーフ …

    被害拡大をおさえる ◦ フェイルソフト … 全体の機能・処理を劣化させても 一部機能を守る • 事後振り返りのためのログや情報は保持されるように 『システムはなぜダウンするのか』
  7. 32 レジリエンス型のチームを目指す 責任者断罪型 仲良しサークル型 チームレジリエンス型 犯人を探さない × ◦ ◦ 謝って終わりにしない

    × ◦ ◦ チームの関係性を深める × ◦ ◦ 困難をきちんと振り返る × × ◦ 教訓を獲得する × × ◦ 『チームレジリエンス』
  8. 33 障害につよい、立ち上がるチームにしていくには • 振り返りを習慣にする ◦ 困難の後は感情的になるが、 日頃から振り返っておけば、落ち着いて話すことができる ◦ ー『チームレジリエンス』 •

    「当然」「べき」「ねばならない」思考から逃れる ◦ イヤな気分やマイナス感情がつよいと、 立ち直る時間が長くなる ◦ 「感謝」の反対は「当たり前」だと肝に命じ、感謝を伝える ◦ ー『レジリエンス入門』
  9. 35 誤処理エラー 省略エラー 知識型エラー ミステイクエラー 10% 不作為エラー 30% 規則型エラー 進行エラー

    1% 怠慢エラー 5% スキル型エラー スリップエラー 0.1% ラプスエラー 0.3% 『ミスを減らす秘訣』 ヒューマンエラーのほとんどは省略エラーに起因する “ 実際には、何もしないことが最大のエラーだ。 ”
  10. 41 • 執行役員 VP of Engineering @ 株式会社スタディスト • 一般社団法人

    SRE NEXT 代表理事 • https://x.com/katsuhisa__ 話者紹介: 北野 勝久 / @katsuhisa__
  11. 42

  12. 43 参考文献 • 『人間とは何か』 • 『ヒューマンエラーは裁けるか』 • 『システムはなぜダウンするのか』 • 『ミスを減らす秘訣』

    • 『チームレジリエンス』 • 『レジリエンス入門』 • 『心理的安全性とアジャイル』