9月2日木曜日に発生したAWS東京リージョンの大規模障害、原因はネットワークデバイスの新 プロトコル処理に潜在的なバグがあったこと。AWSが報告書を公開 - Publickey Summary of AWS Direct Connect Event in the Tokyo (AP-NORTHEAST-1) Region 4 NWの監視をして、有事の際に素早く検知し、 復旧/ステークホルダーとのコミュニケーションに 向けて動くことが大切
AZ-a Amazon CloudWatch Corporate data center VGW AWS Direct Connect DXGW ENI オンプレ ルータ スイッチ・ サーバなど AZ-c ENI AZ-d ENI 【AZごとにモニターを作る】 AZ単位の障害の検知に 【複数の宛先を設定する】 障害発生時の被疑箇所切り分けに ※重要なサーバとのNW疎通・パフォーマンス監視には、 それはそれで意味がある