Nivel de Servicio Acuerdo Nivel de Servicio Requerimiento sobre el comportamiento del sistema. Objetivo numérico sobre el comportamiento del sistema. Contrato Acuerdo para comportamientos del sistema que no alcanzan los SLOs.
exitosa, se asume que NO es confiable y por lo tanto NO cumple con las expectativas de los usuarios. Proporción de peticiones válidas entregadas exitosamente. SLI: DISPONIBILIDAD
de respuesta a las peticiones de los usuarios NO alcanzan un número definido. Proporción de peticiones válidas entregadas en un tiempo inferior al que se definió en un umbral. SLI: LATENCIA
actualizados, tienen altas expectativas con el procesamiento en batch. Es la proporción de datos válidos actualizados en un tiempo menor al definido en un umbral. SLI: FRESHNESS
están siendo procesados y la salida alcanza esas expectativas se habla de cobertura. Es la proporción de datos válidos procesados de manera exitosa. SLI: COBERTURA
un objetivo numérico preciso para la disponibilidad del sistema. Cualquier discusión sobre sistemas confiables y sobre los cambios de diseño o arquitectura debe medirse en términos de SLOs.
almacenamiento y operaciones. • SLO: peticiones exitosas el 50% del tiempo, no se pueden leer datos el 99.9% del tiempo. • Time statement: en los últimos 10 minutos, durante el último Q • SLA: Si … 90% de las peticiones HTTP al balanceador de carga se reportan como exitosas en una ventana de 30 días. 2 estrategias: • Compuestos: 90% de las lecturas de la última semana tomaron < 10 ms • Segmentados: Percentiles de cosas (50th, 90th, 95th, 99th)
SLOs entre 0% y 100%. 0% nada funciona, 100% nada está roto. La escala es intuitiva y traduce a SLAs % - confiabilidad y error budgets. 2. SLOs tienen un formato consistente. Lógica de alertas, cálculo de error budget, análisis SLAs y las herramientas de reporte puede ser escritas en un lenguaje común: good events, valid events y SLO threshold. 3. Ellos están en la forma ratio/proportion. MATEMATICAS PARA SLOs
tu tengas: • Muy pocas personas leen los SLAs en detalle hasta que la falla pasa. • En un negocio competitivo, lo que el cliente pierde es más que lo establecido en un SLA. • Los descuentos y devoluciones nos dejan claro que los desastres son esperados. • Los créditos probablemente NO cubren las pérdidas.
conservador! Primero obtenga experiencia configurando SLOs > tiempo de reacción. • ¿Seguro que puede dar soporte 7 x 24? • Estudie los SLAs de sus dependencias! How c ¿Exceder mis SLOs? Programe un outage! • Intenta: ◦ Headrooms • No SLAs implicitos
99.95% uptime (22 minutes downtime/month) ◦ They rarely expect their hardware or software to fail ◦ When it fails they think they can fix it quickly • 1-minute sampling frequency ◦ GCE doesn’t count <5 minute outages LA PROMESA EN CLOUD
de tiempo que un sistema puede fallar sin consecuencias contractuales Si su SLA promete un tiempo de actividad del 99,95%, su presupuesto de errores es de cuatro horas, 22 minutos y 48 segundos. Y si su SLA promete que su equipo responderá el 99,9%, su presupuesto de errores es de ocho horas, 46 minutos y 12 segundos.