SRE 是 Google 提出的关于运维工程师如何开展运维工作,加强系统可用性,降低系统故障的一系列理念和方法。对于如何提供运维能力,如何让在运维工作中投入的资源获得较大的受益,Google 通过SRE的实践来寻找答案。按照 Google 对于 SRE 的定义,SRE 的核心理念是通过软件来管理系统,解决问题和自动化完成操作工作。SRE ...
变更管理 GOOGLE内部的实践经验总结约70%以上的生产事故是由某种部署的变更而触发,国内一银行的一些客户我们同不同角色的运维工程师进行沟通得到的结果是约70-80%。因此,GOOGLE建议的变更管理最佳实践如下: 采用渐进式发布机制(搜索了半年也没有找到渐进式发布是个啥,有了解的读者可以告知我一下) 迅速而准确地检测到...
SRE,Site Reliability Engineering,中文翻译为站点可靠性工程师,这个词诞生于谷歌内部。将这个词语展开来说:首先,SRE的关注点在于可靠性;其次,SRE中的"S"指的是google.com网站(站点)。简单的从这个词来看,SRE就是负责维护google.com运行可靠性的工程师,当然随着时间的推移,SRE的维护对象不再局限于单一的网站服务,也...
自从九月中旬加入Google,作为一名SWE-SRE,我已经在这里度过了两个半月的时光。这段时间里,我深刻体会到了SRE工作的独特魅力和挑战。【什么是SRE?】 SRE是Site Reliability Engineering的缩写,这是Google独创的一种运维方式。它的核心思想是将软件工程的理念和方法应用于基础设施运维,从而实现系统的高度自动化和自我修复...
1. SRE是一个学科 2. SRE是一种最佳实践 3. SRE是一类创新岗位 SRE到底是什么?这是一个最早由 Google 提出的概念,我的理解是,用软件解决运维问题。标准化、自动化、可扩展、高可用是主要的工作内容。这个岗位被提出的时候,想解决的问题是打破开发人员想要快速迭代,与运维人员想要保持稳定,拒绝频繁更新之间的...
Google 对于SRE的定义如…阅读全文 赞同1 添加评论 分享收藏 SRE培训,选择哪家培训机构? 国际知名的DevOps Institute学院(DOI)推出的SRE认证代表了这个领域的最新知识体系,该认证介绍了SRE的发展及其未来的方向,并为学员提供了SRE的最新理念、实践方法和日常工具,可以帮…阅读全文 赞同...
这份报告用工作汇报的格式总结了自己从大学就毕业入职Google到现在做到L6级别(年薪60万美元+)的9年心路历程。 【个人履历】 1、大学专业是应用物理学,但对物理研究很失望,开始转行软件开发。 2、2015年被Google选中为实习生,入职时是L3,9个月升到L4,再用了1.5年升到L5,晋升速度非常快。
Google SRE理论:如何提高软件系统的可靠性和效率 你是否遇到过这样的问题:你负责的软件系统经常出现故障,导致用户不满和损失;你在的项目组开发和运维团队之间存在沟通和协作的障碍,导致变更和部署的效率低下;运维人员过于繁忙,无法从事创新和改进的工作,导致技术债务的积累。
Google SRE的实践总结:一、传统运维模式的冲突焦点:传统运维模式,也就是Dev/Ops分离的团队模式,他们的冲突焦点,主要有四个方面。第一,直接成本相对清晰,研发的费用和运维的费用是分开的;第二,间接成本差异较大,研发和运维两个团队在背景、技术能力、工具习惯、工作目标都是不太一样的;随着业务和技术的发展...