Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
reInventで学んだWebシステム運用のBadDayへの備え方 / How to Prep...
Search
yayoi_dd
January 29, 2025
Technology
0
46
reInventで学んだWebシステム運用のBadDayへの備え方 / How to Prepare for BadDay in Web System Operations Learned at reInvent
弥生株式会社 もくテク
AWS re:Invent 2024 参加報告会(2025/01/29)
https://mokuteku.connpass.com/event/340760/
yayoi_dd
January 29, 2025
Tweet
Share
More Decks by yayoi_dd
See All by yayoi_dd
弥生のQAエンジニア 品質保証活動と今後の課題 / Yayoi QA engineers, Quality assurance activities and future challenges
yayoi_dd
0
56
【弥生】20250130_AWSマルチアカウント運用セミナー登壇資料
yayoi_dd
2
1.6k
Amazon OpenSearchのコスト最適化とZeroETLへの期待 / Amazon OpenSearch Cost Optimization and ZeroETL Expectations
yayoi_dd
1
58
フロントエンドとバックエンド非同期連携パターンのセッションを見てきた話 / Talk about seeing a session on front-end and back-end asynchronous coordination patterns
yayoi_dd
0
58
AWS reInventで感じた世界に見る生成AIの競争 / Competition in Generative AI as Seen Around the World at AWS reInvent
yayoi_dd
0
56
データの意味を適切に伝えましょう データ可視化のお手本/Conveying the Meaning of Data Appropriately: Exemplary Data Visualization
yayoi_dd
0
69
「失敗」から学ぶこと ~ソフトウェア開発と失敗の歴史~/Learning from 'Failures': The History of Software Development and Failures
yayoi_dd
0
65
ソフトウェアアーキテクチャーの基礎 エンジニアリングに基づく体系的アプローチ/Fundamentals of Software Architecture: A Systematic Approach Based on Engineering
yayoi_dd
0
66
ソフトウェア開発における「パーフェクトな意思決定」/Perfect Decision-Making in Software Development
yayoi_dd
3
3.1k
Other Decks in Technology
See All in Technology
スケールアップ企業のQA組織のバリューを最大限に引き出すための取り組み
tarappo
4
1.2k
LINEギフトのLINEミニアプリアクセシビリティ改善事例
lycorptech_jp
PRO
0
320
ルートユーザーの活用と管理を徹底的に深掘る
yuobayashi
8
740
アプリケーション固有の「ロジックの脆弱性」を防ぐ開発者のためのセキュリティ観点
flatt_security
39
15k
大規模プロジェクトにおける 品質管理の要点と実践 / 20250327 Suguru Ishii
shift_evolve
0
320
デザインシステムのレガシーコンポーネントを刷新した話/Design System Legacy Renewal
kaonavi
0
130
モンテカルロ木探索のパフォーマンスを予測する Kaggleコンペ解説 〜生成AIによる未知のゲーム生成〜
rist
4
1.2k
ゆるくVPC Latticeについてまとめてみたら、意外と奥深い件
masakiokuda
2
190
Restarting_SRE_Road_to_SRENext_.pdf
_awache
1
220
MCP Documentation Server @AI Coding Meetup #1
yyoshiki41
1
1.4k
バックエンド留学した話/Backend study abroad story
kaonavi
0
130
SaaSプロダクト開発におけるバグの早期検出のためのAcceptance testの取り組み
kworkdev
PRO
0
540
Featured
See All Featured
BBQ
matthewcrist
88
9.6k
GraphQLとの向き合い方2022年版
quramy
45
14k
Rails Girls Zürich Keynote
gr2m
94
13k
Code Reviewing Like a Champion
maltzj
522
39k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
31
4.8k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
233
17k
Into the Great Unknown - MozCon
thekraken
36
1.7k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Embracing the Ebb and Flow
colly
85
4.6k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
2.9k
The Language of Interfaces
destraynor
157
24k
Producing Creativity
orderedlist
PRO
344
40k
Transcript
re:Inventで学んだ Webシステム運用のBad Dayへの備え方
自己紹介 宮崎 怜美(みやざき さとみ) 入社時期:2022年5月(中途) 担当サービス:スマート証憑管理 AWS経験:1年弱
休日の過ごし方:楽器演奏(クラリネット)、散歩
AWS re:Invent初参加の感想 とにかく楽しくて毎日が充実 ➢ 国際カンファレンスならではのスケールの大きさに感動 ➢ 参加したいセッションが多くて迷う 英語でのやり取りはやっぱり大変
➢ 雑談が一番難しい ➢ 準備しておいて良かったフレーズ ◼ セッション会場までの行き方を尋ねる ◼ ワークショップ中にわからない箇所を質問
参加したセッションの紹介① セッション形式:Chalk Talk 内容: ➢ レジリエンスの担保 ➢ 発生しうる障害にどう対処するか
◼ ビジネス損失の定量化 ◼ 障害発生のシナリオと対策検討の流れ ◼ 障害への備えと対処 参加した理由: ➢ セッションタイトルに惹かれて ➢ 自分が担当してきた業務と関連しそう
参加したセッションの紹介② 参加者からも多くの意見や質問が出る ➢ 発言するとステッカーがもらえる Speaker⇔参加者のやり取りでケーススタディを進めていく EC2をECSに置き換えると レジリエンスは変化する? YES!
NO! Depends!
ビジネス損失の定量化 障害発生時のビジネス損失を正確にとらえる ➢ 収益損失(違約金等も含む) ➢ ブランドイメージの低下 ➢ 障害に対処するエンジニアの生産性の低下
対応が必要かの判断 ➢ 見積もった損失が対応コスト下回る場合は許容もあり
障害発生のシナリオと対策検討の流れ ビジネス損失を想定する 例)インターネット通販で商品を購入できない 損失を発生させうる障害の種類を挙げる 例)商品購入時のログインに失敗する 障害発生のシナリオを洗い出す 例)認証システムがダウン 各シナリオへの備え(または対処)を検討する 例)マルチAZ、エラー検知の仕組みを導入 etc.
障害への備えと対処 アクションの種類 ➢ 探知(Detective) ➢ 予防(Preventive) ➢ 復旧(Recovery) ➢
テスト(Testing) アーキテクチャ図だけでは備えが十分か判断できない ➢ 安全にデプロイされる仕組みがあるか ➢ 障害復旧のプロセスは整備されているか etc. 現状で不足しているものがないか?
実際のセッションで議論した内容
担当サービスの状況を確認してみる シナリオ①関連システムの停止により処理が行えない エラー発生時のCloudWatch Alarm→Slack通知 SQSを使用し、リトライ/再実行可能に 上記の処理が正しく動作するかの検証 シナリオ②災害発生によるシステムダウン マルチAZ対応
データバックアップおよび別リージョンへのコピー バックアップデータから復元できることの検証 探知 復旧 テスト 予防 復旧 テスト この他にも、社内ガイドラインに従ってチームで対応を継続中
まとめ 議論を楽しめるのも現地参加のメリット ➢ エンジニア同士の白熱したやり取りから刺激をもらった ➢ 自分も発言できるとより楽しい(はず) これまでの運用業務をふりかえるきっかけになった ➢
自分の担当タスクの意義を再確認 ➢ 社内ガイドラインや相談に乗ってくれる有識者に改めて感謝 Thank you!