Upgrade to Pro — share decks privately, control downloads, hide ads and more …

On a mis du Chaos en production

On a mis du Chaos en production

BERTHAULT François

June 05, 2023
Tweet

More Decks by BERTHAULT François

Other Decks in Programming

Transcript

  1. Qui suis-je ? François Berthault Les Filles et les Garçons

    de la Tech “capitaine devops” ★ Dev&Ops ★ Architecte ★ Coach DevOps ★ SRE ★ Platform Engineer ★ Kubernetes et Observabilité ★ Chaos 💚 https://github.com/gelstudios/gitfiti
  2. ★ C’est quoi le Chaos ? ★ Pourquoi le Chaos

    ? ★ Le Chaos chez Carrefour Sommaire: $ Chaos_
  3. La théorie du chaos expliquée par Iann Malcolm purement et

    simplement, l'imprévisibilité dans le système complexe… L’exemple type est “l’effet papillon”, un papillon qui bat des ailes à pékin peut amener la pluie à la place du soleil à NYC - çà ne se reproduit jamais - çà a une forte influence sur le résultat final Jurassic Park C’est quoi la “Théorie du Chaos” ?
  4. Ces expériences suivent quatre étapes : 1. Définir un «

    état stable » comme une sortie mesurable d’un système qui indique un comportement normal. 2. Faire l’hypothèse que cet état d’équilibre se poursuivra dans le groupe témoin et dans le groupe expérimental. 3. Introduire des variations qui reflètent des événements réels, tels que les serveurs en panne, les disques durs défectueux, les connexions réseau coupées, etc. 4. Tenter de réfuter l’hypothèse en recherchant une différence d’état d’équilibre entre le groupe témoin et le groupe expérimental. La science du Chaos Engineering
  5. Chaos Night - (chez OneCloud) LogM : Observabilité OneCaas :

    Kubernetes VPod : Socle Cloud Azure/GCP
  6. Chaos Night : Modalités - Qui ? Toute l’équipe, composée

    de 7 personnes (des Dev et des Ops) - Où ? En présentiel et dans la même pièce ! - Quand ? De 18h à minuit - Périodicité ? 3 fois par an (Objectif)
  7. Chaos Night : Objectifs Casser intentionnellement des choses, Comparer les

    impacts mesurés avec les impacts attendus Corriger tout problèmes découverts ★ Apprendre ★ Partager ★ S’améliorer
  8. Chaos Night #1: Bilan ★ Manques de connaissances et de

    documentations ★ Des scénarios très typés “Ops” (le narrateur est un Ops) ★ Quelques petites sueurs froides ★ Prendre conscience d’un défaut d’alerting (trop d’alerte, pas assez précise, …) ★ Tout le monde a manipulé sur toutes les technologies de la plateforme ★ Une très bonne soirée de “Team Building” et des pizzas 🍕 ★ le récap de la soirée sur une feuille “excel” 🫣
  9. (template partagé par le paris chaos engineering user group ®

    ) Chaos Night #2: Préparer les scénarios
  10. Chaos Night #2: Bilan ★ Une très bonne soirée de

    “Team Building” et des pizzas 🍕 ★ Des scénarios pointus sur tous les domaines Dev et Ops. ★ Des fiches scénarios “stylés” ★ On a rempli notre backlog d’actions à mener
  11. ★ Corrompre les certificats https ★ Saturer les disques, cpu,

    mem ★ DNS ★ Perte de services kubernetes ★ Corrompre les fichiers de configuration ★ Saturation des indexes/shards elasticsearch ★ Perte de noeuds ★ Service account expiré ★ Configuration des Load-Balancer ★ Latence réseau ★ Destruction d’un cluster kubernetes de non prod (onecaas) Chaos Night - Expérimenter quoi ?
  12. ★ Scénarios de “Re-build” de la plateforme et de PRA

    plutôt que troubleshooting. ★ Expérimenter encore plus de scénario en Production ★ Expérimenter en journée ★ Automatiser des scénarios pour la partie Docker Chaos Night - La suite
  13. ChaosKube : Bilan ✅ • Simple • Kubernetes natif •

    Metrics • Trouver les faiblesses • Autonomie des équipes • Moins de pods bloqués ⛔ • Scope limité • Pas de centralisation
  14. Pour conclure ★ Comprendre le comportement normal du système. ★

    Simuler des scénarios réalistes. ★ Testez en conditions réelles. ★ Minimiser la zone de l'explosion.