"Mehr als DNS: Der 14-stündige Ausfall von AWS us-east-1" von Jonathon Belotti @jonobelotti_IO // Ein guter Versuch, den eher obskuren Amazon-Bericht zu verstehen. Postmortems in Software/Operations sollten nicht RCA (Root Cause Analysis) verwenden, sondern stattdessen das folgende Framework: • Mechanismus: Der unmittelbare Prozess, der zu der Ausfallzeit/Fehler führte (z. B. kein DNS-Eintrag) • Ursache: Der spezifische Fehler, der zu den mechanistischen Änderungen führte (z. B. Race Condition) • Art und Weise: Die Umstände, die den Fehler umgeben oder wie es dazu kam (z. B. Programmierfehler, menschlicher Bedienerfehler, Hardwarefehler usw.) RCA ist ein zu grobes Instrument. Voller Beitrag nach der Unterbrechung...