关于SLA和SLO,有一点要说明:它们是*目标*。团队尽力去达成这些目标,历史上往往能够做到。当一次故障超出SLO时,承诺这些目标的公司可能需要按合同支付罚款。 但这是软件……意外的事情可能会发生!
Abhimanyu
Abhimanyu10月25日 01:48
作为后端工程师,我们常常将 AWS DynamoDB/S3 及其四个 9 的可用性视为理所当然。但 14 小时的停机提醒我们,市场宣传的价值 ≠ 现实。始终为关键系统设计故障保护!
最终,一切都与风险管理有关: 1. 供应商承诺的正常运行时间是多少,你能多大程度上信任他们? 2. 如果服务水平目标(SLO)被违反,你的业务会受到多大影响?当这种情况发生时,你的备用计划是什么(供应商故障)?你甚至有备用计划吗?
与其他行业相比,软件行业变得相当混乱,我们需要能够管理这种混乱,适应它,驯服它,并围绕它工作。这一切都是因为软件是不断变化的! 老实说,这使得软件工程变得既具有挑战性又令人兴奋!!
41.51K