sre基础篇-1入门

SRE(Site Reliability Engineering,站点可靠性工程) 是一种以软件工程为基础的运维实践,旨在提高系统的可靠性、可扩展性和效率。


sre概述

体系化

sre是一套体系化的方法,要有全局视角才能透彻理解它,发挥体系的力量。sre体系上建设绝不是单个岗位、单个部门就可以独立完成的,必须要有高效的跨组织协作才可以。

协作、体系化

sre稳定性保障规划图
98f2116ba366d3b9678aa2ae26361028.png

根据保障图规划,可以看出软件运行周期分两个阶段(MTBF MTTZR) MTBF系统运行正常阶段,MTTR系统故障阶段。

MTBF/MTTR含义及计算公式

Site Reliability Engineering (SRE) 领域,MTBFMTTR 是两个关键的可靠性指标:
a8184a1f20565a94fcf716987617508b.png

关系与优化

  • MTBF 越大,说明系统越可靠,故障发生时间间隔越长。
  • MTTR 越小,说明系统恢复速度快,影响时间短。
  • SRE 目标是提高 MTBF,降低 MTTR,通过自动化运维、监控告警、灾难恢复等手段减少宕机时间,提高服务可用性。

MTTR维度

  • MTTI (mean time to identify 平均故障确认时间)
  • MTTK (mean time to know 平均故障认知时间/故障定位时间)
  • MTTF(mean time to fix 平均故障解决时间)
  • MTTV(mean time to verify 平均故障修复验证时间)

01d698fbd10a00fcc790d1b669ce38ba.png

SRE目标:提升MTBF,降低MTTR

devops vs sre

  • devops: 驱动价值交付为主,搭建企业内部效率平台
    -sre: 协调多团队,提高系统稳定性