RTT(Round Trip Time)およびパケット損失率のメトリクスを取得できるネットワークモニタリング機能です。 WAN WAN On-Premise Server Direct Connect VGW Server Router Router DXGW Server Direct Connect Probe AWS 今までもログやメトリクスが充実してたよね それでネットワークの切断や通信影響が確認できるのでは? ICMP/TCP モニタリング ICMP/TCP モニタリング 運用系通信
Gray Failure Gray Failureとは、システムが完全に停止せず、一部の機能が失われたりパフォーマンスが低下する障害。 ネットワークでは、通信機器のソフト・ハードエラー等によって大幅な遅延や断続的な通信断が生じるものの検知が難しい。 On-Premise Server Direct Connect VGW Server Router Router DXGW Server Direct Connect AWS ①Gray Failureにより大幅な遅延や 断続的な通信断が発生 ①Gray Failureにより大幅な遅延や 断続的な通信断が発生 WAN WAN ②異常な状態が検知できず ルートは切り替わらず ②異常な状態が検知できず ルートは切り替わらず 業務系通信
全体イメージ Network Monitor機能を試行するために、以下の環境を構築してみました。 RTTメトリクスの閾値超過アラームをトリガーとして、BGPフェイルオーバーのAPI実行によりルートを切り替えます。 On-Premise Server Direct Connect VGW Server Router Router DXGW Server Direct Connect AWS WAN WAN Probe Event Bridge CloudWatch Alarm Lambda SNS User Email ②BGPフェイルオーバー API実行 ①RTTメトリクス 閾値超過アラーム 業務系通信 運用系通信