Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2020/05/04 Fin-JAWS#12 「4/20に発生したAWS障害、何が起きてたの?」
Search
JunjiKoide
May 04, 2020
Technology
3
670
2020/05/04 Fin-JAWS#12 「4/20に発生したAWS障害、何が起きてたの?」
https://fin-jaws.connpass.com/event/174892/
JunjiKoide
May 04, 2020
Tweet
Share
More Decks by JunjiKoide
See All by JunjiKoide
re:Invent完全攻略ガイド
junjikoide
1
760
エンジニアに定年なし! AI時代にキャリアをReboot — 学び続けて未来を創る
junjikoide
1
350
ラスベガスの歩き方 2025年版(re:Invent 事前勉強会)
junjikoide
0
2k
2023/09/14 Fin-JAWS #32 「SIEM on Amazon OpenSearch Serviceを1年運用してわかったこと」
junjikoide
3
800
2021/03/22 Fin-JAWS #20 「AWS認定12冠制覇への道」
junjikoide
0
40
2020/03/31 JAWS DAYS 2020 オンライン 「最近AWSに移行してよかったと思ったこと」
junjikoide
0
41
2020/01/31 ログ勉強会 「WindowsのWEBサーバログをリアルタイム監視・可視化してみた」
junjikoide
0
55
2019/12/05 Fin-JAWS#7 「Transit Gateway Multicast」
junjikoide
0
50
2019/6/18 初心者支部 #18 「Direct Connectって何? どうやったら使えるの?」
junjikoide
0
47
Other Decks in Technology
See All in Technology
All About Sansan – for New Global Engineers
sansan33
PRO
1
1.3k
学生・新卒・ジュニアから目指すSRE
hiroyaonoe
2
510
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
10k
Data Hubグループ 紹介資料
sansan33
PRO
0
2.7k
15 years with Rails and DDD (AI Edition)
andrzejkrzywda
0
160
AI推進者の視点で見る、Bill OneのAI活用の今
sansantech
PRO
2
330
外部キー制約の知っておいて欲しいこと - RDBMSを正しく使うために必要なこと / FOREIGN KEY Night
soudai
PRO
11
4.2k
茨城の思い出を振り返る ~CDKのセキュリティを添えて~ / 20260201 Mitsutoshi Matsuo
shift_evolve
PRO
1
160
~Everything as Codeを諦めない~ 後からCDK
mu7889yoon
3
240
Sansan Engineering Unit 紹介資料
sansan33
PRO
1
3.8k
Meshy Proプラン課金した
henjin0
0
210
データ民主化のための LLM 活用状況と課題紹介(IVRy の場合)
wxyzzz
2
640
Featured
See All Featured
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
640
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
0
100
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
2k
Believing is Seeing
oripsolob
1
50
Crafting Experiences
bethany
1
46
Amusing Abliteration
ianozsvald
0
93
Reality Check: Gamification 10 Years Later
codingconduct
0
2k
How to Think Like a Performance Engineer
csswizardry
28
2.4k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
110
What’s in a name? Adding method to the madness
productmarketing
PRO
24
3.9k
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
0
140
Transcript
4/20に発生したAWS障害、 何が起きてたの? 2020/05/04 株式会社QUICK / 小出 淳二 3限:情報
2 Copyright © 2020 QUICK Corp. All Rights Reserved. 小出
淳二 Junji Koide ・株式会社QUICK ・フィンテック事業室 プリンシパル ソリュー ションアーキテクト ・Fin-JAWS運営 ・AWS認定資格10冠 情報安全確保支援士 re:Inventは2015,2016,2017 ,2019の4回参加。 ・趣味:海外旅行 訪問国は60カ国。 世界一周2回、パミール 高原横断 自己紹介
3 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ
・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ+ アクティブ構成って現実的なの?
4 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ
・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ +アクティブ構成って現実的な の?
5 Copyright © 2020 QUICK Corp. All Rights Reserved. 公式情報からわかること
Service Health Dashboard https://status.aws.amazon.com/ #AP_block
6 Copyright © 2020 QUICK Corp. All Rights Reserved. SQS
7 Copyright © 2020 QUICK Corp. All Rights Reserved. Lambda
8 Copyright © 2020 QUICK Corp. All Rights Reserved. Cloudwatch
9 Copyright © 2020 QUICK Corp. All Rights Reserved. CloudFormation
10 Copyright © 2020 QUICK Corp. All Rights Reserved. 下記時間帯に各サービスで障害発生
・SQS 18:56~22:04 ・Lambda 19:03~22:50 ・Cloudwatch 19:03~21:42 ・CloudFormation 19:00~21:40 (考察) ・SQSの障害が一番早い ・Lambdaは非同期処理のみ影響を受けている ・非同期処理と言えばSQSなので、SQS障害で他の サービスが巻き添え食ったのかな?
11 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ
・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ +アクティブ構成って現実的な の?
12 Copyright © 2020 QUICK Corp. All Rights Reserved. QUICKのサービスは大丈夫だったの?
→一部業務に影響があったが、 サービスとしては結果的に影響なし
13 Copyright © 2020 QUICK Corp. All Rights Reserved. 19:52
以下のRSSをSlack通知で検知
14 Copyright © 2020 QUICK Corp. All Rights Reserved. その後、AWSチームより下記内容を社内周知。
各システム担当に確認を依頼 ・東京リージョンの複数サービス(Lambda、 Cloudwatch、SQS、CloudFormation)で障 害中
15 Copyright © 2020 QUICK Corp. All Rights Reserved. 下記2システムに影響あり
① サーバレス情報収集 ② ログ分析基盤
16 Copyright © 2020 QUICK Corp. All Rights Reserved. 他には、
・CloudWatchイベントを利用し5分毎に実行している監視 処理が18:55以降実行されない(100%NGではない) ・S3イベント契機(ファイルPUT)で実行される処理が実 行されない ・CloudWatchイベントでEC2停止用Lambdaを実行してい るが、Lambdaが実行されずEC2が停止していない ・Cloudwatchイベントで定期的なバックアップ取得を実 行しているが実行されない などなど
17 Copyright © 2020 QUICK Corp. All Rights Reserved. ポイント:同期呼び出しのLambdaは問題なかった
例)API Gateway+Lambdaの構成とか (デフォルトだと同期呼び出しでInvokeされる) 非同期呼び出しのエラーハンドリングは、以下のクラメ ソさんブログが非常に参考になります。 https://dev.classmethod.jp/articles/asynchronous- lambda-error-handling-done-right/
18 Copyright © 2020 QUICK Corp. All Rights Reserved. ①
サーバレス情報収集 JAWS-UG 初心者支部#22 Fin-JAWS コラボ&ミニハンズオン会にて弊社 大熊が登壇し紹介させていただいた 構成。 https://www.slideshare.net/KahoriTakeda/ 20200129-jawsug-bgnr22
19 Copyright © 2020 QUICK Corp. All Rights Reserved. 構成・処理概要①
20 Copyright © 2020 QUICK Corp. All Rights Reserved. 構成・処理概要②
21 Copyright © 2020 QUICK Corp. All Rights Reserved. 4/20分の入力業務に関して全て手動実行
で対応済み。結局人手でリカバー
22 Copyright © 2020 QUICK Corp. All Rights Reserved. そんなウマい話しはなかった・・
23 Copyright © 2020 QUICK Corp. All Rights Reserved. ②
ログ分析基盤 https://classmethod.jp/cases/quick/
24 Copyright © 2020 QUICK Corp. All Rights Reserved. サーバレス構成
25 Copyright © 2020 QUICK Corp. All Rights Reserved. ・3時間ほどログの更新がほぼ停止状態
・そもそも20時過ぎ以降Athenaが全く使えなかった (Personal Health Dashboardもご確認ください) ・処理が22時過ぎ以降に遅延したため正しいフォルダに格納 されない 例)hours=13(JST22時台)に20時台のログが格納
26 Copyright © 2020 QUICK Corp. All Rights Reserved. 22時以降、遅延していた処理が順次実行され復旧
SQS NumberOfMessagesSent Lambda ConcurrentExecutions(全体) 同時実行数は要注意!(デフォルトで1アカウント1000)
27 Copyright © 2020 QUICK Corp. All Rights Reserved. EC2/API
RequestLimitExceeded Lambda Error 遅延処理が集中して実行されたため、Lambdaが呼び出すEC2/APIの スロットリングが発生。 Lambdaの処理内容によっては、Lambda同時実行数の予約を忘れずに!
28 Copyright © 2020 QUICK Corp. All Rights Reserved. ※API
Request Throttlingの仕様はこちら参照 (英語のみ) https://docs.aws.amazon.com/AWSEC2/latest/APIRefer ence/throttling.html 上限緩和も申請可能。
29 Copyright © 2020 QUICK Corp. All Rights Reserved. ※EC2/APIメトリクスのモニタリングはサ
ポートへの申請が必要。 https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/API Reference/monitor.html
30 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ
・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ +アクティブ構成って現実的な の?
31 Copyright © 2020 QUICK Corp. All Rights Reserved. ・監視モニタリングの強化(短期課題)
今回Cloudwatchが障害だったので障害通知遅延も想定し、 AWSサービス以外を中心に監視強化を検討する。 ・Zabbixによる検知 何らかの作り込みでLambda稼働を監視 ・他サービス(Mackerel、Datadog)での外形監視 →現状Mackerelは東京リージョンのみ! Datadogは他リージョン選択可能 ・他リージョンからのCloudwatchSynthetics外形監視
32 Copyright © 2020 QUICK Corp. All Rights Reserved. ・マネージドサービスの代替検討(中長期課題)
データ欠損なく超短時間で復旧するため、マネージドサー ビスの代替サブシステムを構築する(EC2プラットフォー ム上とか) お金かけてやれば当然構築は可能。しかし数年に1回ある かないか?の障害に対して、それに備えるコストは本当に 見合うのでしょうか?
33 Copyright © 2020 QUICK Corp. All Rights Reserved. システム/サービスの重要度に応じて、どこま
でリスクを許容しどこまでコストを掛けて対 応するかのバランスが重要。 でもマネージドサービスのリスクは可視化し にくいのでどこまで何を想定するかが難しい。 本当にRoute53がNGだったときまで考える?
34 Copyright © 2020 QUICK Corp. All Rights Reserved. アジェンダ
・障害内容 ・QUICKでは何が起きていたか ・課題および今後の対応 ・マルチリージョンのアクティブ+ アクティブ構成って現実的なの?
35 Copyright © 2020 QUICK Corp. All Rights Reserved. ・東京リージョンからのネットワーク遅延(クラメソ鈴木さん)
https://dev.classmethod.jp/articles/hongkong-ec2-s3-rtt/
36 Copyright © 2020 QUICK Corp. All Rights Reserved. 弊社サービスは、リアル株価の更
新がビジネスのコアなので、この ネットワーク遅延レベルであれば 大阪リージョン前提のマルチリー ジョンは十分検討可能!
弊社構成概略図 Corporate data center AWS Direct Connect (TY2) AWS Direct
Connect (CC1) AWS Cloud Availability Zone Public subne t Private subnet Public subne t Instances(web) Private subnet Instances(db) Private subnet Instances(web) Private subnet Instances(db) VPC 大阪リージョンとオンプレミス接続の構成については検討が必要。 オンプレ~OS1直接の専用線接続は高価。Direct Connect Gateway、 Transit Gateway Inter-Region Peering等検討していく。
38 Copyright © 2020 QUICK Corp. All Rights Reserved. 大阪ローカルリージョン、早くフル
リージョンになって! https://aws.amazon.com/jp/blogs/news/in-the-works-aws- osaka-local-region-expansion-to-full-region/
39 Copyright © 2020 QUICK Corp. All Rights Reserved. GWにこちらの動画を見て検討して
いこうと思っています。 https://www.youtube.com/watch?v=3K9AzSrCmiQ AWS re:Invent 2019: [REPEAT 2] Architecture patterns for multi-region active-active (ARC213-R2)
40 Copyright © 2020 QUICK Corp. All Rights Reserved. ご静聴ありがとう
ございました