El Manual de Confiabilidad del Sitio

En 2016, el libro Site Reliability Engineering de Google inició un debate en el sector sobre lo que significa ejecutar servicios de producción hoy en día y por qué las consideraciones de fiabilidad son fundamentales para el diseño de servicios. Ahora, los ingenieros de Google que trabajaron en ese éxito de ventas presentan The Site Reliability Workbook (El Manual de Confiabilidad del Sitio), un compañero práctico que utiliza ejemplos concretos para mostrarle cómo poner en práctica los principios y las prácticas de SRE en su entorno.

Este nuevo libro de trabajo no sólo combina ejemplos prácticos de las experiencias de Google, sino que también proporciona estudios de casos de clientes de Google Cloud Platform que realizaron este viaje. Evernote, The Home Depot, The New York Times y otras empresas exponen sus experiencias sobre lo que les funcionó y lo que no.

Sumérjase en este libro de trabajo y aprenda a desarrollar su propia práctica de SRE, independientemente del tamaño de su empresa.


Lleno de ejemplos prácticos sobre cómo optimizar la fiabilidad centrándose en las interacciones entre usuarios e ingenieros y entre tecnología y herramientas, sin perder de vista la velocidad de las prestaciones. El resultado es un compañero convincente, interesante y que invita a la reflexión para Site Reliability Engineering.

-Casey Rosenthal
CTO, Backplane.io


Google vuelve para completar una pieza crucial del rompecabezas: en su primer volumen describían lo que hacían, pero eso no ayudaba a todos los que no podían verse reflejados en la historia de Google. Este libro pretende demostrar cómo lo hacen y cómo puede hacerlo usted también.

-David N. Blank-Edelman
editor de Buscando la SRE: Conversaciones sobre el Funcionamiento de Sistemas en Producción y cofundador del conjunto global de conferencias SREcon.


  • II Prácticas
    • 8. De Guardia
    • 9. Respuesta a Incidentes
    • 10. Cultura Postmortem: Aprender del Fracaso
    • 11. Gestionar la Carga
    • 12. Introducción al Diseño No Abstracto de Grandes Sistemas
    • 13. Proceso de Datos.
    • 14. Diseño de la Configuración y Mejores Prácticas
    • 15. Especificaciones de Configuración
    • 16. Lanzamientos Canary
  • III Procesos
    • 17. Identificar la Sobrecarga y Recuperarse de ella
    • 18. Modelo de Compromiso SRE
    • 19. SRE: Más allá de sus Límites
    • 20. Ciclos de Vida del Equipo SRE
    • 21. Gestión del Cambio Organizativo en la SRE
  • Conclusión
  • A. Ejemplo de Documento SLO
  • B. Ejemplo de Política Presupuestaria de Errores
  • C. Resultados del Análisis Postmortem
2023/11/27 01:26 · Fernando Leal