Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
CREから学ぶ障害対応術_暫定対応と恒久対応
Search
miyamu
September 25, 2025
0
360
CREから学ぶ障害対応術_暫定対応と恒久対応
miyamu
September 25, 2025
Tweet
Share
More Decks by miyamu
See All by miyamu
月間数億レコードのアクセスログ基盤を無停止・低コストでAWS移行せよ!アプリケーションエンジニアのSREチャレンジ💪
miyamu
0
110
20250514_AI 時代に備えよ!Markdown で発表スライドを作る技術
miyamu
0
1.8k
10年もののアプリケーションを運用・開発するアプリケーションエンジニアのDatadog活用術
miyamu
0
210
Featured
See All Featured
Accessibility Awareness
sabderemane
0
44
Practical Orchestrator
shlominoach
191
11k
Stewardship and Sustainability of Urban and Community Forests
pwiseman
0
110
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
48
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
720
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
59
The Curse of the Amulet
leimatthew05
1
7.8k
The Power of CSS Pseudo Elements
geoffreycrofte
80
6.1k
Into the Great Unknown - MozCon
thekraken
40
2.2k
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
170
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
300
Believing is Seeing
oripsolob
1
44
Transcript
CRE から学ぶ障害対応術 〜暫定対応と恒久対応〜 マネーフォワードビジネスカンパニーERP開発本部・福岡第一開発部 Technical Lead 宮村 紅葉 / Miyamura
Koyo
自己紹介 2
自己紹介 miyamu / 宮村紅葉 @KoyoMiyamura (X) koyo-miyamura (GitHub) 推しのプログラミング言語 Elixir
出身 熊本 経歴 2019年4月 面白法人カヤックに新卒入社 2021年9月 マネーフォワード福岡拠点ガーディアングループ(CRE) 2024年12月 クラウド経費テックリード これまで対応してきた障害は大小合わせると100は軽く超えています笑 3
障害対応でやりがち なこと 4
時間のかかる「恒久対応」から始めてしまう! 5
しかしこれではユーザーは困ってしまう! 6
Q. ユーザーが本質的に求めていることは? 7
A. とにかくいつも通り使わせてほしい! 8
障害対応において 大切なこと 9
暫定対応 -> 恒久対応 まずはとにかく止血をする(= 暫定対応) Datadog などでメトリクスを確認 / ログ収集 メトリクス・ログからユーザーへの影響を逆算して整理
なるべくビジネスモデルも踏まえて考える 例: エンタープライズユーザーへのインパクト ユーザー・ビジネスへの影響を最小限にする迅速な対応を優先 例: 一時的にバッチ処理を止める・サーバー台数を倍増する アンチパターンにこだらない その後にやっと恒久対応 Postmortem の実施 システム不具合を修正 ログ・メトリクスの拡充 10
暫定対応と恒久対応の順を逆にしてはいけない エンジニアは問題を見つけると解決したくなる しかし障害対応において第一に必要なのは「解決」ではなく「解消」 どうしても「これもっといいやり方あるんじゃない」とか思いがち エンジニアとして根本的な問題解決したい気持ちをグッと抑えて、泥臭くてもいい から、とにかくユーザーの不利益を最小限にしよう 11
CRE の経験は障害対応に活きる 普段から CS / カスタマーサクセス などの人々と会話する 障害時に、何を優先すべきかをクイックに聞ける CRE の経験によりユーザー目線を獲得できる
障害に困っているユーザーは必ずしも100%の解決策を求めていない 恒久対応時により幅広いアイデアが出る ユーザーがよく使う機能により重点的にログを仕込むなど 12
まとめ 13
まとめ システム障害でまず大事なのは恒久対応ではなく「暫定対応」 顧客ありきのシステム。ユーザーが一番不利益を被らないようにすることが大 事! CRE 経験は障害対応に活きる! 14