"Больше, чем DNS: 14-часовой сбой AWS us-east-1" Джонатана Белотти @jonobelotti_IO
// Хорошая попытка разобраться в довольно запутанном отчете Amazon.
Постмортемы в программном обеспечении/операциях не должны использовать RCA (анализ коренных причин), а вместо этого использовать следующую структуру:
• Механизм: Непосредственный процесс, который привел к простоям/сбоям (например, отсутствие записи DNS)
• Причина: Конкретный недостаток, который привел к механистическим изменениям (например, состояние гонки)
• Обстоятельства: Условия, окружающие недостаток или как это произошло (например, ошибка в коде, ошибка оператора, сбой оборудования и т. д.)
RCA слишком грубый инструмент.
Полный пост после перерыва...