Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ポストモーテムの基礎知識と最新事例 / Fundamentals of Postmortem

Isao Shimizu
October 20, 2023

ポストモーテムの基礎知識と最新事例 / Fundamentals of Postmortem

2023/10/20 ゆるSRE勉強会 #2
https://yuru-sre.connpass.com/event/293783/

Isao Shimizu

October 20, 2023
Tweet

More Decks by Isao Shimizu

Other Decks in Technology

Transcript

  1. ©MIXI About me 清⽔ 勲 @isaoshimizu 2011年〜 株式会社ミクシィ(現MIXI) • 2011年8⽉〜

    SNS「mixi」運⽤エンジニア • 2014年4⽉〜 モンスターストライク SRE • 2018年2⽉〜 家族アルバム みてね SRE • 2022年1⽉〜 SREグループ マネージャー • 2023年4⽉〜 基盤開発グループ マネージャー • 週末は社会⼈吹奏楽団での活動(楽団⻑、トロンボーン約30年、たまに指揮者)。 キャンプとクラフトビールが好き。 • New Relic User Group 運営
  2. ©MIXI ポストモーテムの基礎知識 post-mortem 1) a medical examination of a dead

    person's body in order to find out the cause of death: 2) a discussion of an event after it has happened, especially of what was wrong with it or why it failed: 2)における例⽂ After we lose a game, there's usually a post-mortem over a few beers. https://dictionary.cambridge.org/dictionary/english/post-mortem
  3. ©MIXI ポストモーテムの基礎知識 l ポストモーテムとは、想定外のインシデントが発⽣した後に書かれる内部向けの報告書、振 り返りのこと l ⾮難をしないこと l 再度同じ問題を起こさないように、根本となる原因を突き⽌め、再発防⽌をおこないます l

    インフラやサーバーのトラブルにおいてよく⽤いられますが、どんな問題においてもポスト モーテムを作り、振り返り、再発防⽌を⾏うことで学びとなり、信頼性を⾼めることにつな がります l インフラ障害対応とポストモーテム(以前私が書いた記事) https://mixi-developers.mixi.co.jp/fault-handling-and-postmortem-6f46547b9b13
  4. ©MIXI Honeycomb社のオブザーバビリティプラットフォームにおける障害 l 「Incident Review: What Comes Up Must First

    Go Down」 l 2023年7⽉25⽇、13:40〜14:48 (UTC) まで影響があった l The incident、Analysis、Conclusionの3つの⼤項⽬ l 発⽣: MySQLのデッドロックが発⽣、クエリキャッシュもなくなり過負荷となった。フィー チャーフラグを切り替えてバグを回避しようとしたが、停⽌されるはずのホストが停⽌され ず、完全な再起動が必要に。この不具合はずっと存在していたが気づかないものだった。 l 是正措置: キャッシュの強化、新しいスキーマで更新クエリの競合を減らす、パフォーマン スとコストを安定させる⽅法を検討 https://www.honeycomb.io/blog/incident-review-what-comes-up-must-first-go-down