Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
reInventで学んだWebシステム運用のBadDayへの備え方 / How to Prep...
Search
yayoi_dd
January 29, 2025
Technology
0
75
reInventで学んだWebシステム運用のBadDayへの備え方 / How to Prepare for BadDay in Web System Operations Learned at reInvent
弥生株式会社 もくテク
AWS re:Invent 2024 参加報告会(2025/01/29)
https://mokuteku.connpass.com/event/340760/
yayoi_dd
January 29, 2025
Tweet
Share
More Decks by yayoi_dd
See All by yayoi_dd
“お客さま視点”を手に入れろ!! / Get the Customer’s Perspective!!
yayoi_dd
0
100
プロジェクト改善、まずは“ネタ出しの文化”から / Improving Projects Starts with a Culture of Idea Generation
yayoi_dd
0
100
使いにくい仕様を改善した件 / How We Improved a Difficult-to-Use Feature
yayoi_dd
0
110
弥生のQAエンジニア 品質保証活動と今後の課題 / Yayoi QA engineers, Quality assurance activities and future challenges
yayoi_dd
0
140
【弥生】20250130_AWSマルチアカウント運用セミナー登壇資料
yayoi_dd
2
4.7k
Amazon OpenSearchのコスト最適化とZeroETLへの期待 / Amazon OpenSearch Cost Optimization and ZeroETL Expectations
yayoi_dd
1
150
フロントエンドとバックエンド非同期連携パターンのセッションを見てきた話 / Talk about seeing a session on front-end and back-end asynchronous coordination patterns
yayoi_dd
0
96
AWS reInventで感じた世界に見る生成AIの競争 / Competition in Generative AI as Seen Around the World at AWS reInvent
yayoi_dd
0
80
データの意味を適切に伝えましょう データ可視化のお手本/Conveying the Meaning of Data Appropriately: Exemplary Data Visualization
yayoi_dd
0
110
Other Decks in Technology
See All in Technology
Large Vision Language Modelを用いた 文書画像データ化作業自動化の検証、運用 / shibuya_AI
sansan_randd
0
100
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
9k
業務自動化プラットフォーム Google Agentspace に入門してみる #devio2025
maroon1st
0
190
生成AIを活用したZennの取り組み事例
ryosukeigarashi
0
200
リーダーになったら未来を語れるようになろう/Speak the Future
sanogemaru
0
280
生成AI_その前_に_マルチクラウド時代の信頼できるデータを支えるSnowflakeメタデータ活用術.pdf
cm_mikami
0
110
いま注目しているデータエンジニアリングの論点
ikkimiyazaki
0
590
ZOZOのAI活用実践〜社内基盤からサービス応用まで〜
zozotech
PRO
0
170
ユニットテストに対する考え方の変遷 / Everyone should watch his live coding
mdstoy
0
120
FastAPIの魔法をgRPC/Connect RPCへ
monotaro
PRO
1
730
それでも私はContextに値を詰めたい | Go Conference 2025 / go conference 2025 fill context
budougumi0617
4
1.2k
Green Tea Garbage Collector の今
zchee
PRO
2
390
Featured
See All Featured
How to Ace a Technical Interview
jacobian
280
24k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.2k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
610
The Cost Of JavaScript in 2023
addyosmani
53
9k
Rebuilding a faster, lazier Slack
samanthasiow
84
9.2k
We Have a Design System, Now What?
morganepeng
53
7.8k
How to train your dragon (web standard)
notwaldorf
96
6.3k
Making Projects Easy
brettharned
119
6.4k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.4k
It's Worth the Effort
3n
187
28k
Build your cross-platform service in a week with App Engine
jlugia
232
18k
Transcript
re:Inventで学んだ Webシステム運用のBad Dayへの備え方
自己紹介 宮崎 怜美(みやざき さとみ) 入社時期:2022年5月(中途) 担当サービス:スマート証憑管理 AWS経験:1年弱
休日の過ごし方:楽器演奏(クラリネット)、散歩
AWS re:Invent初参加の感想 とにかく楽しくて毎日が充実 ➢ 国際カンファレンスならではのスケールの大きさに感動 ➢ 参加したいセッションが多くて迷う 英語でのやり取りはやっぱり大変
➢ 雑談が一番難しい ➢ 準備しておいて良かったフレーズ ◼ セッション会場までの行き方を尋ねる ◼ ワークショップ中にわからない箇所を質問
参加したセッションの紹介① セッション形式:Chalk Talk 内容: ➢ レジリエンスの担保 ➢ 発生しうる障害にどう対処するか
◼ ビジネス損失の定量化 ◼ 障害発生のシナリオと対策検討の流れ ◼ 障害への備えと対処 参加した理由: ➢ セッションタイトルに惹かれて ➢ 自分が担当してきた業務と関連しそう
参加したセッションの紹介② 参加者からも多くの意見や質問が出る ➢ 発言するとステッカーがもらえる Speaker⇔参加者のやり取りでケーススタディを進めていく EC2をECSに置き換えると レジリエンスは変化する? YES!
NO! Depends!
ビジネス損失の定量化 障害発生時のビジネス損失を正確にとらえる ➢ 収益損失(違約金等も含む) ➢ ブランドイメージの低下 ➢ 障害に対処するエンジニアの生産性の低下
対応が必要かの判断 ➢ 見積もった損失が対応コスト下回る場合は許容もあり
障害発生のシナリオと対策検討の流れ ビジネス損失を想定する 例)インターネット通販で商品を購入できない 損失を発生させうる障害の種類を挙げる 例)商品購入時のログインに失敗する 障害発生のシナリオを洗い出す 例)認証システムがダウン 各シナリオへの備え(または対処)を検討する 例)マルチAZ、エラー検知の仕組みを導入 etc.
障害への備えと対処 アクションの種類 ➢ 探知(Detective) ➢ 予防(Preventive) ➢ 復旧(Recovery) ➢
テスト(Testing) アーキテクチャ図だけでは備えが十分か判断できない ➢ 安全にデプロイされる仕組みがあるか ➢ 障害復旧のプロセスは整備されているか etc. 現状で不足しているものがないか?
実際のセッションで議論した内容
担当サービスの状況を確認してみる シナリオ①関連システムの停止により処理が行えない エラー発生時のCloudWatch Alarm→Slack通知 SQSを使用し、リトライ/再実行可能に 上記の処理が正しく動作するかの検証 シナリオ②災害発生によるシステムダウン マルチAZ対応
データバックアップおよび別リージョンへのコピー バックアップデータから復元できることの検証 探知 復旧 テスト 予防 復旧 テスト この他にも、社内ガイドラインに従ってチームで対応を継続中
まとめ 議論を楽しめるのも現地参加のメリット ➢ エンジニア同士の白熱したやり取りから刺激をもらった ➢ 自分も発言できるとより楽しい(はず) これまでの運用業務をふりかえるきっかけになった ➢
自分の担当タスクの意義を再確認 ➢ 社内ガイドラインや相談に乗ってくれる有識者に改めて感謝 Thank you!