所以關於SLA和SLO的事情是:它們是*目標*。團隊會盡力達成這些目標,歷史上通常也能做到。當故障超過SLO時,承諾這些目標的公司可能需要根據合同支付罰金。 但這是軟體……意外的事情可能會發生!
Abhimanyu
Abhimanyu10月25日 01:48
作為後端工程師,我們經常將 AWS DynamoDB/S3 及其四個 9 的可用性視為理所當然。但 14 小時的停機事件提醒我們,市場宣傳的價值 ≠ 現實。對於關鍵系統,始終設計故障保護!
最終一切都關乎風險管理: 1. 供應商承諾的正常運行時間是多少,你能多大程度上信任他們? 2. 如果服務水平目標(SLO)被違反,對你的業務會造成多大的影響?當這種情況發生時,你的備用計劃是什麼(供應商故障)?你真的有備用計劃嗎?
與其他行業相比,軟體行業變得相當混亂,我們需要能夠管理這種混亂,與之共存,馴服它,並圍繞它工作。這一切都是因為軟體是持續變化的! 老實說,這使得軟體工程變得非常具有挑戰性和刺激性!!
41.51K