v Segmentation Fault v コンテナの即時終了(exit code 0繰り返し再起動) v Essential container異常停止によるタスク連鎖停止 v 未処理の例外/panic ネットワーク関連のインシデント例 v VPCエンドポイント未設定 v セキュリティグループのルール不備 v サブネットのIPアドレス枯渇 v NATゲートウェイの障害/ルーティング不備 v DNS解決失敗 v NACLによるトラフィックブロック v ルートテーブルの設定不備 v VPCピアリング/Transit Gatewayの経路断 v PrivateLinkエンドポイントのSG不備 v DNS resolverの障害 v ENI割り当て上限到達 サービス間通信関連のインシデント例 v 依存サービスのタイムアウト v TLS/SSL証明書エラー v Cloud Map(サービスディスカバリ)のDNS伝播遅延 v フロントエンド→バックエンドAPI間の接続失敗 v gRPC/HTTP2の通信失敗 v サービス間のmTLS設定不備 ロードバランサー / WAF関連のインシデント例 v ヘルスチェック失敗 v ALBターゲットグループの不整合 v ALBリスナールールの設定ミス v WAFご検知 IAM・認証関連のインシデント例 v IAMタスクロールの権限不足 v IAMタスク実行ロールの権限不足 v SSM Parameter Store参照エラー v Secrets Manager参照エラー v KMS復号権限不足 v Service-linked roleの未作成 v Secrets Managerのローテ不整合 v KMSキーポリシーの権限不足 v ACM証明書の有効期限切れ ログ/オブザーバビリティ障害 v FluentBit設定エラーによるサイドカー停止 v CloudWatch Logsのロググループ未作成 v FireLensルーティング設定の誤り v ADOTサイドカーの過負荷 ECR/イメージレジストリ関連のインシデント例 v ECRイメージプル失敗 v ECR認証失敗 v ECRプルスルーキャッシュ権限不足 v ECRイメージ削除によるスケールアウト失敗 データベース関連のインシデント例 v Aurora / RDSフェイルオーバー v DynamoDBのスロットリング v S3バケットポリシーの拒否 デプロイメント関連のインシデント例 v Blue/Greenデプロイのロールバック失敗 v CodeDeployのBlue/Greenフック失敗 v 最小Healthy率の設定不備による全断 v デプロイメントサーキットブレーカー発動 v デプロイメント中のサーキットブレーカー誤発動 v ローリングアップデートの速度設定不備 v Capacity Providerの戦略ミスマッチ AWS環境・キャパシティ関連のインシデント例 v サービスクォータ超過 v AZ障害によるタスク配置不可 オートスケーリング関連のインシデント例 v スケーリングポリシーの設定不備 v スケーリングポリシーのクールダウン設定不備 v ターゲット追跡スケーリングのメトリクス遅延 v 最小/最大タスク数の設定ミス マルチコンテナ/サイドカーパターンのインシデント例 v コンテナ起動順序の依存関係違反 v 共有ボリュームのマウント競合 v Envoyプロキシ(App Mesh)の設定不備 v Init containerの失敗 v サイドカーのリソース競合 タスク定義/コンテナ設定のインシデント例 v イメージタグの間違い v メモリ/CPU割り当て不足 v 環境変数未設定・変更・削除 v コンテナポートの不一致 v ヘルスチェックパスの変更 v ログ設定の破損 v タスクロールの変更・権限不備 v サイドカー設定不備 v Secrets/SSMパラメータ参照不可 v 読み取り専用ファイルシステムへの書込み v tmpディレクトリの権限不足 v ディスク容量不足(ephemeral storage) v タスク定義のリビジョン指定ミス v タスク起動タイムアウト コンテナイメージビルド関連のインシデント例 v ENTRYPOINTの誤設定 v イメージアーキテクチャ不一致(arm64 vs amd64) v ベースイメージの脆弱性による起動ブロック v scratch/distrolessイメージでのCA証明書欠落 v ライブラリ/共有オブジェクト不足 v タイムゾーン設定不備 AIエージェントを上手に育ててあげることで、 これらに起因するインシデントにおいても、 柔軟に原因を特定してくれる どのようにAIエージェントを作ればよいか? (今日の本題)