Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SRE - Mythes et Réalité (Volcamp 2023)

WeScale
October 17, 2023

SRE - Mythes et Réalité (Volcamp 2023)

Il y a encore trop souvent une vision fantasmée de l’activité SRE, ce qui entraine mécaniquement des retours à la réalité qui sont parfois douloureux.

L’intention de ce talk est de faire un retour d’expérience SRE, sur ce que nous avons pu voir, Jean-Pascal et Henri, dans des entreprises de petites à grandes, des jeunes pousses ou de vénérables institutions.

L’idée est de vous armer pour éviter le maximum de déconvenues et rendre l’activité SRE la plus profitable et efficiente possible.

WeScale

October 17, 2023
Tweet

More Decks by WeScale

Other Decks in Technology

Transcript

  1. — Sommaire Le SRE 01 SRE - Mythes et Réalités

    00 02 Mythes vs Réalités 03 En pratique
  2. — C’est qui le gars à gauche ? Henri Gomez

    Cloud Advisor chez Wescale Engineering Manager ➔ En charge de l’équipe SRE Applicative puis Observabilité Head Of SRE ➔ Solution BigData en mode Editeur & SaaS (DAAS) IT Operations Manager ➔ Création de l’offre SaaS SonarCloud chez un éditeur
  3. — C’est qui le gars à droite ? Jean-Pascal Thiery

    Cloud Native Dev chez Wescale Gardien du MCO ➔ Basculer sereinement d’une base de données à une autre Tech lead Observabilité ➔ Mise en place du socle d’Observabilité unifié Tech lead developer ➔ Création d’une solution de backoffice du sol au plafond
  4. — Définition Le SRE 01 E S R E Reliability

    Disponibilité Utilisateurs Services Résilience Fiabilité Sécurité Sith Site Engineering Ingéniérie Ordre Méthode
  5. — SRE selon le SRE Book Le SRE 01 Les

    SRE Google sont des ingénieurs logiciels SRE is what happens when you ask a software engineer to design an operations team 50–60% are Google Software Engineers, The other 40–50% are candidates are very close
  6. — SRE selon le SRE Book Le SRE 01 50%

    du temps en développement (Création de valeurs) Automation systématique Eviter la croissance des équipes IT avec la croissance de l’infra Maintenir la vélocité de changement sans impact sur les SLO
  7. — SRE selon le SRE Book Le SRE 01 Il

    y a 4 ‘Golden Signals’ à suivre Erreur Latence Tra c Saturation
  8. — Missions historiques Le SRE 01 ➔ SRE is the

    new Ops dans un cadre qui s’étend à l’application ➔ La priorité, les services doivent être Up & Running ➔ Détection des problèmes avant qu’ils ne deviennent des incidents ➔ A la manoeuvre sur les Post Mortem ➔ Coûts d’exploitation
  9. — Nouvelles missions Définition du SRE 01 Du conseil, beaucoup

    de conseil Sur l’outillage Pool de connections Analyse de plan d'exécutions SQL Sur les pratiques de Run Qu’est-ce que l’observabilité La bonne et la mauvaise log Sur l’architecture Clusterisation et Redondance Stratégies et solution de cache
  10. — Nouvelles missions Définition du SRE 01 On mesure, beaucoup,

    pour aujourd’hui et demain Performances Capacity Planning Projection Futur FinOps
  11. — SRE par et pour Google Mythes vs Réalités 01

    ➔ La définition Google d’un SRE répond aux problématiques Google ➔ Une boite de Techs, qui font des produits Techs pour des Techs ➔ Les contraintes d’une entreprise majeure globale ➔ Des moyens sans commune mesure, tant techniques et qu’humains ➔ Une approche Software Engineering systématique (même pour les SRE/Ops) TO BE OR NOT TO BE
  12. — SRE, le super héro du Run Mythes vs Réalités

    01 ➔ Les solutions embarquent toujours plus de technologies ◆ Hyperviseurs, VM, Containers, SQL, NoSQL, Messaging, multiples langages, … ➔ Les stacks techniques sont de plus en plus complexes ◆ Redondance, systèmes de sécurité, multi-zones ➔ Il est compliqué d’être expert sur l’ensemble du scope ➔ Un SRE n’est pas un multi expert, mais un profil avec une large culture
  13. — SRE, le détecteur de Bug Mythes vs Réalités 01

    ➔ Étant omniscient, un SRE peut voir les Bugs ➔ You build it, you run it ➔ Les SLI et la taux d’erreurs sont les seuls vrai moyens de détecter les bugs pour un SRE ◦ Budget d’erreur ◦ C’est souvent trop tard ➔ La qualité des livrables est toujours de la responsabilité de l’équipe de dev
  14. — SRE, le bouclier ultime Mythes vs Réalités 01 ➔

    La sécurité est l’affaire de tous ➔ La résilience du site passe par son intégrité ➔ Le pentesting et la cybersécurité sont des domaines de l’informatique à part entière
  15. — Un dev qui est un ops qui fait du

    dev ? Mythes vs Réalités 01 ➔ Ne pas penser qu’un SRE est un expert dans tous les domaines ◆ SRE is the new FullStackDevSecFinDataOups ➔ Développeur, un profil à temps plein ➔ Un SRE peut avoir une forte culture développement ◆ Pour aider les Dev à analyser les problèmes jusqu’au code ◆ Il n’a pas vocation à remplacer les Dev
  16. — SRE != DevOps Mythes vs Réalités 01 S R

    E DevOps Operations Monitoring Capacity Planning Gestion d’incidents CI/CD Automatisation Config Management Infra As Code UNE CONFUSION COURANTE
  17. — SRE != CI/CD Mythes vs Réalités 01 ➔ Les

    SRE consomment de la CI/CD tout comme les autres acteurs ➔ Gardez en tête le “You build it, you run it !” ◆ Responsabiliser les équipes de réalisation sur le run • CI/CD • Observabilité • Sécurité
  18. — Les pré-requis En pratique 03 ➔ Une automation déjà

    présente pour développer et déployer en confiance ◆ Un SRE peut être un Dev d’infras, il aura aussi besoin d’une usine logicielle ➔ Un environnement de Run automatisable ◆ Les solutions d’Infra As Code doivent être utilisables ➔ Un monitoring ◆ Existant et qui sera amendé et amélioré ◆ A créer, dans une optique d’observabilité large
  19. — Les attentes En pratique 03 ➔ Des environnements sous

    contrôle ◆ Pour être prédictible et reproductible, les opérations manuelles sont à proscrire ➔ Être embarqué jour 1 sur des projets de changement de périmètres ◆ Nouveau project ◆ Nouvelle technologie ◆ Nouveau partenaire ➔ Connaître les SLA principaux ◆ Pour en déduire les premiers SLI et SLO ➔ Être écouté comme force de proposition ◆ Pour renforcer la résilience ◆ Pour collecter les mesures qui alimenteront l’observabilité
  20. — L’Equipe SRE En pratique 03 ➔ Privilégier de petites

    équipes ◆ Avec des scopes clairs ◆ Des frontières de responsabilité précises ◆ Connues de tous ➔ Avoir assez de seniors pour faire monter en compétences les juniors ◆ 1 senior pour 2 juniors max ➔ Derniers formés deviennent tuteurs ◆ Facilite l’onboarding des nouveaux, valide la compréhension des primo formés
  21. — Les Hard Skills En pratique 03 ➔ Sur la

    stack technique ◆ Hosting ◆ Data (SQL/NoSQL) ◆ Services Managés ◆ Services SaaS ➔ Sur les applicatifs ◆ Langages ◆ Frameworks ◆ En connaître pour pouvoir analyser une stack trace
  22. — Les Soft Skills En pratique 03 ➔ Savoir écouter

    ➔ Être un bon communiquant ➔ Ne pas avoir peur d’aller vers les autres ➔ Etre force de proposition ➔ Une bonne capacité à convaincre ➔ Savoir embarquer le plus grand nombre ➔ Savoir apprendre
  23. — Partage et pédagogie En pratique 03 ➔ Expliquer les

    problématique d'exploitabilité d’une plateforme ➔ Vis ma vie ➔ Embarquer dans la gestion de crise ◆ Résolution plus rapide et plus précises ◆ Co conception des remédiations ◆ Rédaction de post-mortem ➔ Expliquer les grands concepts ◆ Qualité de service ◆ SLA, SLI, SLO
  24. — De monitoring à Observabilité En pratique 03 ➔ Les

    infrastructures ➔ Les middlewares ➔ Les applications ➔ Les services ➔ Les partenaires ➔ Pour s’assurer de la conformité avec les SLA ➔ … tous les SLA✌
  25. — L’approche Accelerate En pratique 03 ➔ Délivrer de la

    valeur plus rapidement ◆ Change Lead Time ◆ Deployment Frequency ➔ Sans sacrifier la qualité de service ◆ Mean Time To Recovery ◆ Change Failure Rate https://en.wikipedia.org/wiki/Accelerate_(book) POUR PARTIR SUR DES BASES SIMPLES ET SOLIDES
  26. — Conclusion ➔ SRE because Hope is not a strategy

    ➔ HTTP 417 - Super Hero Expectation Failed ➔ Il est capital d’embarquer tous les acteurs ➔ L’observabilité est une des clés de la réussite