Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Postmortem: Aprendendo com falhas

Postmortem: Aprendendo com falhas

Esta apresentação apresentada a cultura de Postmortem e como ela pode nos ajudar a aprender com as falhas. Iremos discutir algumas das boas práticas e desafios para escrever um postmortem de alta qualidade além de como esta cultura vem ajudando a melhorar nossos processos e a qualidade dos serviços aqui na ContaAzul.

Diogo Nicoleti

November 25, 2017
Tweet

More Decks by Diogo Nicoleti

Other Decks in Technology

Transcript

  1. Agenda • Falhas • Postmortem 101 • Postmortem como cultura

    • Blameless • Boas práticas • Postmortem @ ContaAzul 3
  2. Postmortem 101 Um postmortem é um registro escrito de um

    incidente, seus impactos, as ações tomadas para mitigar e resolver ele, as causas raízes e as ações de follow-up para prevenir que este incidente ocorra novamente. 7
  3. Postmortem 101 Os principais objetivos de escrever um postmortem são:

    • Garantir que o incidente seja documentado • Entender bem todas as causas raízes • Implementar ações preventivas para reduzir a probabilidade e/ou o impacto da recorrência. • Compartilhar as aprendizagens com outras pessoas 8
  4. Postmortem como Cultura Introduzir a cultura de postmortem pode ser

    mais fácil falar do que fazer! Ela requer engajamento e cultivo contínuo entre as pessoas. 9
  5. Postmortem como Cultura As pessoas precisam perceber o valor entregue

    dado o custo de preparo! Lembre-se! Postmortem é uma oportunidade de aprendizagem, tornar nossos sistemas melhores e nossos clientes mais felizes! 10
  6. Postmortem como Cultura O ponto mais importante para que a

    cultura funcione é o princípio de blameless postmortem. Lembre-se! O objetivo é aprender e evoluir e não encontrar culpados! 11
  7. 12 Antes de falar de blameless postmortem precisamos entender porque

    o ciclo de name/blame/shame é nocivo: Blameless Postmortem
  8. 13 Blameless postmortem procuram ver os equívocos, erros, deslizes, et

    al. com uma perspectiva de aprendizagem e não uma forma de punir pessoas. Blameless Postmortem
  9. 14 Mas então os engenheiros estão “off the hook” com

    um processo de Blameless Postmortem?
  10. 15 Pelo contrário! Eles estão “on the hook” porém ajudando

    a tornar sua empresa e sistemas mais seguros e resilientes no final do dia. Mas então os engenheiros estão “off the hook” com um processo de Blameless Postmortem?
  11. 16 Eles são as pessoas que possuem o maior conhecimento

    sobre o incidente e que identificaram falhas em sistemas e processos. E eles podem dar todos os detalhes dos eventos ocorridos quando não existe o medo de punição.
  12. 18 Você não pode consertar pessoas, mas você pode consertar

    sistemas e processos para melhor suportá-los.
  13. 20 Evite culpar e mantenha o processo construtivo Boas práticas

    • Processo blameless • Confidência em escrever os postmortems sem medo • Todo mundo deve escrever • Evitar esconder os problemas “em baixo do tapete”
  14. 21 Não existe apenas uma causa raíz • Erro humano

    nunca é uma causa raiz • Causas raízes são uma série de eventos • Foco no ambiente, processos e circunstâncias em que as pessoas trabalham • Técnicas como 5-Why, Infinite Hows, brain • Fazer as perguntas corretas Boas práticas
  15. 22 Crie um plano de ação balanceado e concreto •

    Ações balanceadas • Não resolva somente os sintomas e sim o problema na causa raiz • Remova (ou reduza) a habilidade de introduzir erros • Ações além da prevenção: Reduzir MTTD, MTTR e impacto usuários • Evitar postmortem debt Boas práticas
  16. 23 Não deixe postmortems abandonados • Um postmortem sem revisão

    não deveria ter existido • Sessões de revisões • Fácil acesso aos postmortems Boas práticas
  17. 24 Colabore e compartilhe o conhecimento adquirido • Colaboração em

    tempo real • Sistema de comentário e anotações abertos • Notificações Boas práticas
  18. 25 Solicite feedback sobre a eficácia do processo • Evolução

    contínua do processo • Postmortem está sendo eficaz? • Melhores práticas para seu contexto • Ferramentas Boas práticas
  19. 27 Abrimos o postmortem após qualquer incidente ou evento indesejável

    Como fazemos o processo de postmortem na ContaAzul? • Indisponibilidade de serviços • Degradação de performance • Perda de dados • Intervenção do engenheiro on-call • Liberações com bugs • Falhas no monitoramento
  20. 28 Utilizamos um repositório do Github para colaboração e visibilidade

    Como fazemos o processo de postmortem na ContaAzul? • Permite que todos possam comentar e visualizar em tempo real • Engenheiros podem realizar o watch e serem notificados • Guidelines para escrever
  21. 29 Possuímos um template para postmortem Como fazemos o processo

    de postmortem na ContaAzul? • Facilitar e orientar na escrita dos postmortems • Cobrir os pontos principais
  22. 30 Plano de Ações Como fazemos o processo de postmortem

    na ContaAzul? • Categorizadas em: ◦ Mitigação ◦ Melhorias de processos ◦ Prevenção ◦ Outras • Links para as issues • Ownership
  23. 32 Uma falha não é um desastre, é uma oportunidade

    de aprendizagem para toda a empresa.