SRE是指Site Reliability Engineer (网站可靠性工程师)。他是软件工程师和系统管理员的结合,一个SRE工程师基本上需要掌握很多知识:算法,数据结构,编程能力,网络编程,分布式系统,可扩展架构,故障排除。
中文名
网站可靠性工程师
外文名
Site Reliability Engineer
原    则
Don’t Repeat Yourself
理    想
Automate Everything

目录

  1. 1 定义
  2. 2 性质

定义

编辑

SRE起源于国外大型互联网公司,直接掌管着互联网公司的机器和服务,保证网站不宕机是他们的使命。SRE基本是从软件研发工程师转型,有很强的编程算法能力,同时具备系统管理员的技能,熟悉网络架构等,是一个要求非常高的职业。 [1]
大部分人理解SRE等于传统运维工程师(OP)或者系统管理员(SA),实则不然,这两类角色离一名合格的SRE还有太大的差距,完全无法匹配得上这个称号。
在国内,只有少数几家顶尖互联网公司才会出现真正的SRE。

性质

编辑

SRE都干些什么?
SRE不是做底层硬件维护,而是负责各种服务的性能和稳定性。
远离底层硬件,更多靠近软件基础架构层面,帮助企业客户打造强大的软件基础构架。
Google SRE
Google SRE [2]  是业内最有影响力的,也是最早提出这个概念的公司
最近他们出了一本书 《Site Reliability Engineering》 [3]  ,描述了这个岗位是如何高效协同工作的
也可以来看看早些时候Google的官方对于SRE的PPT介绍~ [4]
Keep the site up
– Whatever it takes
– Site unavailable? Our problem, whatever the reason
Work at a Large Scale
– Many services
– Lots of data
– Many machines
– But not so many people (machines:admins > 4000:1)
Balance competing demands
– Improve availability and reachability
– Enhance functionality
– Improve efficiency
– Take on new services (post-launch)