sre基础篇-1入门
SRE(Site Reliability Engineering,站点可靠性工程) 是一种以软件工程为基础的运维实践,旨在提高系统的可靠性、可扩展性和效率。
sre概述
体系化
sre是一套体系化的方法,要有全局视角才能透彻理解它,发挥体系的力量。sre体系上建设绝不是单个岗位、单个部门就可以独立完成的,必须要有高效的跨组织协作才可以。
协作、体系化
sre稳定性保障规划图
根据保障图规划,可以看出软件运行周期分两个阶段(MTBF MTTZR) MTBF系统运行正常阶段,MTTR系统故障阶段。
MTBF/MTTR含义及计算公式
在 Site Reliability Engineering (SRE) 领域,MTBF 和 MTTR 是两个关键的可靠性指标:
关系与优化
- MTBF 越大,说明系统越可靠,故障发生时间间隔越长。
- MTTR 越小,说明系统恢复速度快,影响时间短。
- SRE 目标是提高 MTBF,降低 MTTR,通过自动化运维、监控告警、灾难恢复等手段减少宕机时间,提高服务可用性。
MTTR维度
- MTTI (mean time to identify 平均故障确认时间)
- MTTK (mean time to know 平均故障认知时间/故障定位时间)
- MTTF(mean time to fix 平均故障解决时间)
- MTTV(mean time to verify 平均故障修复验证时间)
SRE目标:提升MTBF,降低MTTR
devops vs sre
- devops: 驱动价值交付为主,搭建企业内部效率平台
-sre: 协调多团队,提高系统稳定性