2003年,Google成立了第一个SRE团队; 2010年,Facebook拥有了一个SRE团队; 2014年,USENIX协会主办的首届SREcon(网站可靠性工程会 议)在美国举行,大会成为了SRE专业人士交流经验和最佳实践的 重要平台,标志着SRE作为一个独立且重要的专业领域在全球范围 内的正式认可。 2 网址:SRE-E微信:SRE精英联盟 2016年,前Google...
在本书中,不仅展示了 Google 是如何运用各种计算机工具软件、硬件以持续部署和监控一些世界上最大的软件系统的。还展示了在运维过程中,Google 工程师团队是如何学习、成长、反复修改,最后定义出一套完整的工具和科技体系的过程。本书适合各种水平的运维工程师参考使用。
即使Google的发布和数据更新过程通常是高度自动化的,这个部分仍有许多改进的空间。 Google SRE的季度调查显示,琐事的时间占用大约在33%,所以我们其实目前比总体目标 50% 做得更好。然而,这个平均值没有显示出其中的异常情况:一些SRE 琐事比例为0%(纯开发项目而不参加on-call),而其他人宣称他们在琐事上花费了80% ...
孙宇聪-SRE:Google运维揭密.pdf,G O P S 2016 全球运维大会·上海站 Site Reliability Engineering Google 运维解密 孙宇聪 G O P S 2016 全球运维大会·上海站 The Book • 一本 SRE 关键成员的文集,共 33 章, 近百 人参与写作。 • “SRE is wha
因为Rapid使用Google的生产基础设施,我们可以同时处理几千个发布请求。 典型的发布流程按如下顺序进行: 1.Rapid使用集成版本号(通常自动从持续测试系统获取)创建新的发布分支。 2.Rapid利用Blaze编译所有的二进制文件,同时执行所有的单元测试,这两个过程通常是并发进行的。编译和测试各自在独立的环境中进行,而非Rapid...
$ docker run --rm --volume "$(pwd):/output" -e BOOK_SLUG='srw_book' captn3m0/google-sre-ebook:latest You should see the final EPUB/MOBI/PDF files in the current directory after the above runs. The file may be owned by the root user. ...
Google SRE工作手册 [美]贝特西 [美]尼尔 [美]戴维 等你将会学到: 如何在你无法完全掌控的云环境里运行可靠的服务。 在你创建、监控和运行服务的过程中践行服务质量目标。 如何将现有运维团队转型为SRE,包括发掘出运营的最Z大价值。 从绿地或者棕地上启动SRE的方法。
Chapter 2: The production environment at Google, from the viewpoint of an SRE No notes on this chapter because I’m already pretty familiar with it. TODO: maybe go back and read this chapter in more detail. Chapter 3: Embracing risk Ex: if a user is on a smartphone with 99% reliabili...
在《SRE:Google运维解密》中,Google SRE的关键成员解释了他们是如何对软件进行生命周期的整体性关注的,以及为什么这样做能够帮助Google成功地构建、部署、监控和运维世界上现存*的软件系统。通过阅读《SRE:Google运维解密》,读者可以学习到Google工程师在提高系统部署规模、改进可靠性和资源利用效率方面的指导思想与具体实践...
在《SRE:Google运维解密》中,Google SRE的关键成员解释了他们是如何对软件进行生命周期的整体性关注的,以及为什么这样做能够帮助Google成功地构建、部署、监控和运维世界上现存最大的软件系统。通过阅读《SRE:Google运维解密》,读者可以学习到Google工程师在提高系统部署规模、改进可靠性和资源利用效率方面的指导思想与具体...