Upgrade to Pro — share decks privately, control downloads, hide ads and more …

サポートエンジニアから見たRancher運用の現場

 サポートエンジニアから見たRancher運用の現場

Avatar for Masashi Honma

Masashi Honma

August 28, 2025
Tweet

Other Decks in Technology

Transcript

  1. Rancher サポートケースの 10% が etcd 関連 • Kubernetesコンポーネントに絞ると70% が etcd

    関連 3 ※ 2021 年 1 月から現在まででSubject または Description に etcd を含むもの。
  2. etcd のよくある問題 (ディスクが遅い) • etcd のディスクが遅い → クラスタが不安定に ◦ 公式ドキュメントにも明記

    “A slow disk will increase etcd request latency and potentially hurt cluster stability.” https://etcd.io/docs/v3.6/op-guide/hardware/ • チケット登録が多めのお客様 ◦ etcd ログに took too long が出ているのでディスク交換を提 案 → クラスタが安定しチケット登録も減少。 https://etcd.io/docs/v3.6/faq/#what-does-the-etcd-warn ing-apply-entries-took-too-long-mean • 「遅い」ってどれくらい? ◦ took too long の最大値: 15 秒 = OK, 5 分 = NG。 4
  3. アップグレード時の問題 • アップグレード時の処理 ◦ 次バージョンのイメージをダウンロードする → ディスクアクセス増加 → etcd が遅延

    → クラス タが不安定に。 • 対処 ◦ イメージを事前にダウンロードしておく。 ◦ ディスクの高速化。 • ちなみに ◦ デフォルトでは 1 イメージずつダウンロードするので問題になるケースは多くない。 ◦ アップグレードを早くするために複数イメージダウンロードをしたりすると問題が起こる可能性 があがる。kubelet の serialize-image-pulls で変更可能 (非推奨)。 5
  4. etcd 代替 (Amazon RDS) • 弊社内プロジェクトにてetcd の代替を検討 ◦ 担当者「etcd はチケットが多いので避けたい」

    • 結果 ◦ etcd の替わりに k3s + Amazon RDS で構築し問題な く動作中。 ◦ Kubernetesアップグレード時のディスクアクセス増加 の影響を受けない。 ◦ Amazon RDS 自体のアップグレードは随時必要。 6
  5. その他の etcd 代替 • Google spanner ◦ Kubernetes 公式では 1

    クラスタに 5000 ノードが上限 [1] だが etcd の替わりに Spanner を 使い GKE で 65000 ノードをサポート [2]。 • カスタム etcd ◦ etcd の替わりにカスタム etcd を使用して EKS で 100,000 ノードをサポート [3]。 7 [1] https://kubernetes.io/docs/setup/best-practices/cluster-large/ [2] https://cloud.google.com/blog/ja/products/containers-kubernetes/gke-65k-nodes-and-counting?hl=ja [3] https://aws.amazon.com/jp/blogs/containers/under-the-hood-amazon-eks-ultra-scale-clusters/
  6. Supportability Review とは • 本来: クラスタをスキャンし、サポート対象であるか確認 ◦ 適切な Kubernetes バージョンや

    OS を使用しているか等。 ◦ かつては弊社 Premium Support Engineer が 4 週間掛けていた作業を自動化。 • クラスタ内の様々な問題を見つけるツールに発展 ◦ セキュリティ面の問題を確認。 ▪ コンテナイメージ → Trivy。 ▪ Kubernetes 設定 → kube-bench。 ▪ Rancher 設定 → Supportability Review。 https://github.com/rancher/rancher/security/advisories/GHSA-64jq-m7rq-768h • コミュニティ版もご提供予定 9