Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
BASEにおける インシデント対応フローと工夫
Search
02
February 21, 2024
Programming
0
1.1k
BASEにおける インシデント対応フローと工夫
インシデントマネジメント 事態収拾のための取り組みに迫る Lunch LT の登壇で使用したスライドです
https://findy.connpass.com/event/309400/
02
February 21, 2024
Tweet
Share
More Decks by 02
See All by 02
PHP8.4におけるJITフレームワークIRと中間表現について理解を深める
cocoeyes02
1
360
RemoveだらけのPHPUnit 12に備えよう
cocoeyes02
0
620
PHP RFC: Deprecate implicitly nullable parameter types をサクッと話す
cocoeyes02
0
450
PHPUnit 11 概論
cocoeyes02
5
2.1k
Random\Randomizer クラスで日常のあれこれを解決しよう! / Random\Randomizer class solves familiar trouble
cocoeyes02
1
930
AWS Lambdaから始める Devチームの小さなDevOps改善 〜QCDどれも諦めない運用を目指して〜 / Start to improving small DevOps with AWS Lambda by Dev Team
cocoeyes02
0
1.3k
PHPUnit 10 概論 / Introduction of PHPUnit 10
cocoeyes02
3
9.1k
テスト駆動開発本をPHPで写経してみた / Copy Test Driven Development Code by PHP
cocoeyes02
0
490
テストコードリーディングのみでPHPUnitの仕様を理解してみる / Try to understand PHPUnit specification with test code reading only
cocoeyes02
1
2.7k
Other Decks in Programming
See All in Programming
複数ドメインに散らばってしまった画像…! 運用中のPHPアプリに後からCDNを導入する…!
suguruooki
0
430
PHPのガベージコレクションを深掘りしよう
rinchoku
0
240
AIエージェントを活用したアプリ開発手法の模索
kumamotone
1
740
イベントソーシングによってインピーダンスミスマッチから解放された話
tkawae
1
330
PHPer's Guide to Daemon Crafting Taming and Summoning
uzulla
2
1k
NestJSのコードからOpenAPIを自動生成する際の最適解を探す
astatsuya
0
180
20250326_生成AIによる_レビュー承認システムの実現.pdf
takahiromatsui
17
5.3k
RubyKaigiで手に入れた HHKB Studioのための HIDRawドライバ
iberianpig
0
1k
requirements with math
moony
0
520
AI Agentを利用したAndroid開発について
yuchan2215
0
210
Coding Experience Cpp vs Csharp - meetup app osaka@9
harukasao
0
110
自分のために作ったアプリが、グローバルに使われるまで / Indie App Development Lunch LT
pixyzehn
1
120
Featured
See All Featured
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.4k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Optimising Largest Contentful Paint
csswizardry
35
3.2k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
120k
Fireside Chat
paigeccino
37
3.3k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
118
51k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
129
19k
Statistics for Hackers
jakevdp
798
220k
Rails Girls Zürich Keynote
gr2m
94
13k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
45
9.5k
Transcript
インシデントマネジメント 事態収拾のための取り組みに迫る Lunch LT 2024/02/21 @02 BASEにおける インシデント対応フローと工夫
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASE BANK チーム 02
大津 和槻 :@cocoeyes02 2021/02~ BASE, Inc. 自己紹介 登壇 執筆 登壇応援中!
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASEとは? 3 コンセプト: 誰でも簡単に使える
ネットショップ作成サービス • 商品・注文管理 • ショップデザイン • 顧客情報管理 などを行うショップオーナー向け機能 + • 商品検索 • 決済・注文(カート) などを行う購入者(カスタマー)向け機能 ネットショップ作成サービス「BASE」
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 最初に全体のフローについて話し、 それから各工程の工夫を お話しします 4
今回のトークでは
BASEにおける インシデント対応フロー
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASEにおける インシデント対応フロー インシデント発生! 6
障害発生検知 プレモーテム 復旧対応 再発防止・ クロージング
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASEにおける インシデント対応フロー インシデント発生! 7
障害発生検知 プレモーテム 復旧対応 再発防止・ クロージング
障害発生検知
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 障害発生検知 9 インシデントが発生した時には、インシデントチャンネルを作成します。 情報集約のため、インシデントチャンネル内でインシデント対応のやり取りをします。
また、インシデントチャンネルを作成すると、 自動でインシデントチャンネルにinviteする社内Slack botがあります。 どんなインシデントが起こっているかリアルタイムで知りたい人が多かったため、誕生しま した。
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 障害発生検知 10 例) 2/5のインシデントチャンネルに
自動でinviteされている
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 障害発生検知 11 例) 2/5のインシデントチャンネルに
自動でinviteされている
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASEにおける インシデント対応フロー インシデント発生! 12
障害発生検知 プレモーテム 復旧対応 再発防止・ クロージング
プレモーテム
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy プレモーテム 14 最初に同期的にオンラインで口頭で対応方針のすり合わせをします。 リモートワークであっても、Slack
ハドルやGoogle Meetなどで関係者が集まり、 すり合わせをしています。 他にも、インシデントコマンダー(インシデントの情報集約や意思決定をする人)や インシデントの重大度を決めます。 インシデントの重大度によって、主担当となる組織や責任範囲が変わってくるため、 プレモーテムの段階で決めます。 例)以下のインシデントでは、主担当となる組織や責任範囲は全く違う - ユーザの利益に影響がない軽微なインシデント - 信頼失墜に関わるセキュリティインシデント
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASEにおける インシデント対応フロー インシデント発生! 15
障害発生検知 プレモーテム 復旧対応 再発防止・ クロージング
復旧対応
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 復旧対応 17 インシデントコマンダーの指示のもと、それぞれ対応に当たります。 また、プレモーテムで決めたインシデントの重大度に対応したToDoリストが、
インシデントレポートに自動生成されます。 ToDoリストには、アクション、担当者、対応済 / 否のチェックボックスがあります。 アクション例) - インシデントレポートを作成する、インシデントコマンダーを決める - ユーザ告知の範囲や内容を決める、告知する、ヘルプページを作成する - 復旧対応を実施する、関係者を召集して再発防止案を考える / 実施する など...
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy BASEにおける インシデント対応フロー インシデント発生! 18
障害発生検知 プレモーテム 復旧対応 再発防止・ クロージング
再発防止・クロージング
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 再発防止・クロージング 20 再発防止策を考えて実施するため、ポストモーテムをやります。 すぐ決められそうだったらインシデントチャンネルにて、
しっかり話して決める必要があれば別途MTGでポストモーテムを行っています。 インシデントのクローズはCTOが行います。 インシデントレポートの記述が不十分だとクローズできないので、以下のような観点を 気にしながら記入します。 - インシデント発生〜終息までの時系列や、原因について不足なく書かれている - 暫定的でも復旧対応が完了している - 妥当な再発防止策を考えた上で、実施済みである
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy ブログもぜひ! 21 - マルチステークホルダー時代の障害対応フロー
- https://devblog.thebase.in/entry/2023/05/29/170154 - インシデント対応入門 〜初動フェーズ編〜 - https://devblog.thebase.in/entry/2023/12/02/110000 - なぜ我々はsession.cookieを変更しなければならなかったのか - 過去に起きたインシデントのレポートを外部向けに公開したブログ - https://devblog.thebase.in/entry/2022/04/13/114714
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 最後に 22 フローの整備にあたり、有志で書かれた社内ドキュメントも参考にされました。 →02が書いた
インシデント対応入門 〜初動フェーズ編〜 もその1つ トップダウン・ボトムアップ両方のアプローチがあり、今に至っています。 インシデント対応だけでなく、フローの整備も全員でやっていきましょう!
© 2012-2024 BASE, Inc. #インシデント マネジメント_findy 最後に バックエンド エンジニア SRE
フロントエンド エンジニア セキュリティ エンジニア QA エンジニア データ エンジニア etc… We are hiring! https://binc.jp/jobs