谷歌SRE工程师打拼9年:年薪超60万美元、钱赚够了! 上周,网上流传一份谷歌工程师的离职报告。 贾斯蒂娜(Justyna)是谷歌爱尔兰分公司的 SRE 工程师。 她在工作九年后,提出离职,并且写了一份公开的离职报告。 这份报告用工作汇报的格式总结了自己从大学就毕业入职Google到现在做到L6级别(年薪60万美元+)的9年心路历...
Site reliability engineering (SRE) is a discipline that incorporates aspects of software engineering and applies that to operations whose goals are to create ultra-scalable and highly reliable software systems Google SRE 是业内最有影响力的,也是最早提出这个概念的。他们出了一本书 《Site Reliability Eng...
在当今数字化转型步伐不断加快的时代,IT应用系统的稳定运行成为了企业的业务正常运转的重要基础,因此,运维管理体系的构建也从围绕着数据中心转向围绕着应用系统方向,首个专门面向应用运维的理论体系——SRE,由Google发布后,受到了越来越多的企业的青睐,很多国内企业已经纷纷效仿Google建立SRE团队,旨在为各个业务应用...
谷歌SRE的运作模式在业界内被认为是较高的起点,适用于寻求在可靠性与速度之间找到平衡的企业。尽管这种模式可能并不适合所有公司,但其SRE建设经验仍能提供启发。谷歌SRE是一个专业的工程师团队,专注于设计、构建和维护大型产品服务。团队成员通常具备软件工程师或系统工程师的双重技能。在谷歌,SRE的职责...
国内的所谓SRE职责其实并不明确,大部分其实还是干普通运维的事。但文中介绍的谷歌的运作方式起点还是相对比较高的,无论对SRE、对开发,甚至对公司都有很高的要求。正如本文所述,谷歌的方式并不一定适合其他公司,但其SRE的建设经验仍然能够带来一定的启发。在阅读本文的时候,我是比较好奇谷歌是如何解决SRE和开发相互...
本书原文: https://sre.google/books/ # SRE 方法论 SRE团队要承担以下职责 1. availability - 可用行改进 2. latency - 延迟优化 3. performance - 性能优化 4. efficiency - 效率优化 5. change management - 变更管理 6. monitoring - 监控 7. emergency response - 紧急事务处理 8. capacity planning...
SRE 这个概念,我应该是 2014 年下半年的时候听到的。当时可接触的资料和信息有限, 只知道是谷歌对运维岗位的定义,负责稳定性保障,就没有 其他的认识了。 后来,有越来越多在谷歌工作或接触过这个岗位的专家开始在公开 中 这个概念。同 时,《SRE : 运维 》,这本由多名谷歌 SRE 亲笔撰写的 也开始在国内广泛 ...
以下是谷歌SRE团队在变更管理方面的最佳实践: 1.开展变更管理培训:SRE团队应该提供必要的培训给相关团队成员,确保他们理解和遵循变更管理的流程和最佳实践。 2.设立变更管理流程:明确定义变更管理的流程,包括变更的需求、审批、实施和验证,确保所有变更都经过适当的评估和测试。 3.制定变更管理政策:制定和实施变更管理政...
谷歌的目标是确保每个SRE至少有50%的时间花在工程项目上,这些SRE每个人都在季度调查中报告他们的Toil,以确定运营超负荷的团队。话虽如此,Toil并不总是坏事。重复性的和可预测的任务是让新成员加入的好方法,并且通常可以在低风险和低压力的情况下产生一种即时的满足感和成就感。分布式系统的检测 监视一个复杂的...
以下是谷歌SRE团队关于告警原则的一些准则: 1.关注关键的业务指标:SRE团队应该关注对业务最重要的指标进行监控和告警,确保系统的核心功能正常运行。这些关键指标可以是用户流量、响应时间、错误率等等。 2.减少虚假告警:谷歌SRE团队致力于减少虚假告警,即无关紧要的告警。他们会通过合理设置告警阈值、使用机器学习算法等...