Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
障害はチャンスだ! 障害を前向きに捉える
Search
Recruit Technologies
November 04, 2020
Technology
1
600
障害はチャンスだ! 障害を前向きに捉える
2020/11/04_ Data Engineering Study #4「データ分析基盤の障害対応事例LT祭り」での、山田の講演資料になります
Recruit Technologies
November 04, 2020
Tweet
Share
More Decks by Recruit Technologies
See All by Recruit Technologies
Flutter移行の苦労と、乗り越えた先に得られたもの
rtechkouhou
3
11k
ここ数年間のタウンワークiOSアプリのエンジニアのチャレンジ
rtechkouhou
1
1.4k
大規模環境をAWS Transit Gatewayで設計/移行する前に考える3つのポイントと移行への挑戦
rtechkouhou
1
1.8k
【61期 新人BootCamp】TOC入門
rtechkouhou
3
41k
【RTC新人研修 】 TPS
rtechkouhou
1
40k
Android Boot Camp 2020
rtechkouhou
0
40k
HTML/CSS
rtechkouhou
10
49k
TypeScript Bootcamp 2020
rtechkouhou
9
45k
JavaScript Bootcamp 2020
rtechkouhou
1
42k
Other Decks in Technology
See All in Technology
RAGのサービスをリリースして1年3ヶ月が経ちました
segavvy
4
910
たくさん本を読んだけど 1年後には綺麗サッパリ!を乗り越えて 学習の鬼になるぞ👹
yum3
0
160
Classmethod Odyssey 登壇資料
yamahiro
0
390
DDDにおける認可の扱いとKotlinにおける実装パターン / authorization-for-ddd-and-kotlin-implement-pattern
urmot
4
390
コンテナ・K8s研修 - 後半 Kubernetes 基礎&ハンズオン【MIXI 24新卒技術研修】
mixi_engineers
PRO
1
120
dxd2024-生成AIに振り回された3か月間の成功と失敗/dxd2024-link-and-motivation
lmi
2
260
サービスの持続的な成長と技術負債について
siva_official
PRO
10
4.4k
スレットハンティングについて知っておきたいこと
hacket
0
130
VPoEの視点から見た、ヘンリーがサーバーサイドKotlinを使う理由 / Why Server-side Kotlin 2024
cho0o0
1
420
CEL(Common Expression Language)で書いた条件にマッチしたIAM Policyを見つける / iam-policy-finder
fujiwara3
0
710
プレイドにおけるDatadog APMの活用方法
plaidtech
PRO
2
120
LLMアプリケーションの評価の実践と課題 ~PharmaXにおける今後の展望~
pharma_x_tech
2
160
Featured
See All Featured
Designing on Purpose - Digital PM Summit 2013
jponch
113
6.6k
Git: the NoSQL Database
bkeepers
PRO
423
64k
10 Git Anti Patterns You Should be Aware of
lemiorhan
652
58k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
129
32k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
44
4.7k
How to Think Like a Performance Engineer
csswizardry
4
590
Thoughts on Productivity
jonyablonski
64
4.1k
The Pragmatic Product Professional
lauravandoore
29
6.1k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
24
1.8k
We Have a Design System, Now What?
morganepeng
46
7k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
26
1.8k
Leading Effective Engineering Teams 2024
addyosmani
3
300
Transcript
障害はチャンスだ! 障害を前向きに捉える 2020/11/04 Data Engineering Study #4 株式会社リクルート 山田 雄
Hobby & Ability ビール/日本酒/ゴルフ/トミカ/子育て 山田 雄(Yamada Yu) @nii_yan 社会人歴 20年ぐらい データエンジニア
(データ基盤の開発・運用) AWS/GCP/BigData/Mail/Hadoop...
None
None
None
データ基盤は一度出来ると使えるのが当 たり前になり、エンジニアは責められる 事があっても褒められる事はなくなる
なので 障害対応は とても重要です!
障害対応 によって得られる事もある
None
障害対応時に起きること モブプロ/ペアプロになり、他の人のコマンドを見られる その場にいる人での対応なので、知らないシステムでも仕様を知れる →障害対応は自身の能力を伸ばせるチャンス!! 障害対応には率先してあたりましょう 障害対応時のルールを事前に定めておくことも重要
障害は 振り返りが とても大事
ポストモーテム 障害の事後検証報告書 ポストモーテムを作る事によって障害復旧に携わった本人以外に、 組織も成長出来る。 googleで障害が起きた時などにも発表される ・BACKGROUND ・ISSUE SUMMARY ・ROOT CAUSE
・REMEDIATION AND PREVENTION ・DETAILED DESCRIPTION OF IMPACTなど・・・
ポストモーテム例 ▪概要 ▪インパクト ▪根本原因 ▪発生原因 根本原因よりも深堀りした内容 ▪対応 ▪教訓 ・うまくいったこと ・うまくいかなかったこと
・幸運だったこと ▪タイムライン ・yyyy-MM-dd HH:mm:ss など出来るだけ細かく ▪再発防止策
まとめ • 障害は起きないに越した事はない ◦ ですが、障害の起きないシステムは存在しない • 障害は、人も組織も成長出来るチャンスでもある ◦ 障害対応の仕方によって基盤の価値が変わる
Fin.