1 9, 13, 20, 23, 30, 31 2Priority Classの設定ミスで重要度の高いPodのPriorityが低く再作成対象となった Yes 1 11, 15 3kube2iamのメモリ利用量過多によるOOM Killと大量のリスタートが発生、API Serverへの問い合わせが急増した Yes 1 15 4大量のDNS問い合わせによる名前解決の遅延、DNS稼働ノードの過負荷、問い合わせ元ノードのアウトバウンド通信過負荷 Yes 2 1, 13, 15, 26, 28, 30 5CronJob、Jobの設定ミスで大量のJobを実行、大量のPending Podによるスケジューリング過負荷、再実行ループ Yes 2 13, 15, 19, 22, 32 6Endpointの削除に時間がかかり、Ingressが削除済みのPodにトラフィックを送ってしまう Yes 2 10, 12 7kubeletのAPI Server問い合わせレート制限が低過ぎ、IAMクレデンシャルの取得ができない Yes 2 13, 14 8アップグレード時にOPAがAPI Serverを起動できないポリシーを適用してしまい、API Serverが起動しない Yes 2 8 9API Serverが利用できない状態でノード自動修復が機能し、ノード再作成が連鎖した Yes 2 8 10DaemonSetで監査ログを有効にしたところ大量のログがDisk I/Oを圧迫した Yes 2 15 11イメージプルが多すぎてレジストリから拒否された(ImagePullPolicy=Alwaysを意識せず設定していた) Yes 2 15 12HPAとDeploymentでレプリカ数設定に不一致があり、意図したレプリカ数にならなかった Yes 2 15 13ConfigMap/Secretの変更後にPodを明示的に再作成せず、複数あるPodが異なる設定で動作した Yes 2 17 14Node Pool移行時に旧Node PoolにEndpointが残る(CordonしたがDrain漏れ) Yes 2 24 15Pod Disruption Budgetを設定せずにPodが一斉に再作成される Yes 2 29 16敏感すぎるliveness proveでPodが頻繁に再作成される Yes 2 29 17Cluster Autoscalerのスケールイン猶予時間が短過ぎで、急激にノード数が減少する Yes 2 31 18アウトバウンド通信過多でconntrackテーブルが飽和、競合した Yes 3 6, 12, 15 19CPU Limitを設定していたが、CFSスケジューラの特性を理解できておらず想定以上のスロットリングが発生、CPUリソースを活かせない Yes 3 2 20Node、Podともにオートスケール設定をしていたが、VPCでのPod IP仕様理解不足によりIPアドレス割り当てできず、スケールに失敗した Yes 3 3 21VPC CNIのSNAT設定に関する情報が不十分であり、割り当てられるポートが不足した Yes 3 6 22PVが存在しない/別AZにありPodを起動できない Yes 3 15 23起動コンテナーが多すぎてファイルディスクリプタが枯渇した Yes 3 28 24kubeletからAPI Serverへのハートビート実装が考慮不足で、間のLBがTCPコネクションを定期的に切ってしまい、ノードがNotReadyとなる Yes 5 31 25Pod Lifecycle Event Generator relistなどコンテナーランタイムの処理がタイムアウトしNodeがNotReadyになる(過負荷、バグなど) Yes 10 12, 13, 25 26多ノード環境におけるDaemonSetのからAPI Serverへの問い合わせ過負荷 Yes 11 22 27設定ツールのバグでELBに不適切な設定を行い、API Serverが見えなくなる No - 27, 33 28conntrackテーブルの更新に失敗し、存在しないPodにアクセスし続けた(バグの疑い) No - 1 29Istioが未成熟 No - 4 30EC2のインスタンスメタデータを取得するKIAMの証明書有効期限が短過ぎ、問い合わせのたびに更新していた No - 5 31新規Node設定時にrpmファイルをダウンロードできなかった(URLに変更があったが、ハードコードしていた) No - 7 32PodがSIGTERMを受けてもGraceful Shutdownしない No - 10 33EC2のメンテナンスでetcdへの接続が切断する No - 13 34.kube下など大量の設定ファイルを定期的にスキャンするJobがDisk I/Oを圧迫 No - 15 35クラスターデプロイメントスクリプトのバグと不十分なドキュメントにより、クラスターを消失 No - 16 36HAProxy Ingressの使い方を誤解 No - 18 37管理ツールでマスターやNode Poolのアップグレードが止まる、もしくは長時間を要する(eviction条件など様々な要因) No - 21 38etcdのgRPCクライアントのバグ No - 29 39Linkerdのバグ No - 29 40etcdクラスターにスプリットが発生し、あらゆる動作が不適切に(当時はquorum readが既定ではなかった) No - 31