"Más que DNS: La interrupción de 14 horas de AWS us-east-1" por Jonathon Belotti @jonobelotti_IO // Buen intento de dar sentido al informe bastante oscuro de Amazon. Los postmortems en software/ops no deberían usar RCA (análisis de causa raíz) sino en su lugar usar el marco de: • Mecanismo: El proceso inmediato que resultó en el tiempo de inactividad/fallo (por ejemplo, entrada DNS cero) • Causa: El defecto específico que llevó a los cambios mecánicos (por ejemplo, condición de carrera) • Manera: Las circunstancias que rodean el defecto o cómo ocurrió (por ejemplo, error de codificación, error del operador humano, fallo de hardware, etc.) RCA es un instrumento demasiado burdo. Publicación completa después de la pausa...