SRE是新运维的奇点 一、什么是SRE?很多人误以为SRE是传统运维,是IaC(基础架构即代码),是软件开发和运维开发,是CI/CD 自动化,是应用运维、网络运维、操作系统运维、云运维….Google 对于SRE的定义如… 阅读全文 赞同 1 添加评论 分享 ...
(美)贝特西·拜尔等创作的计算机网络小说《SRE:Google运维解密》,已更新章,最新章节:undefined。在本书中,不仅展示了Google是如何运用各种计算机工具软件、硬件以持续部署和监控一些世界上最大的软件系统的。还展示了在运维过程中,Google工程师团队是如何学习、成长、
SRE:Google运维解密(心得) 风险与可用性 错误预算 总结: 风险与可用性 在一个运行的系统中,出现风险是不可能避免的,而运维工程师的存着便是控制并解决风险。 书中提到构建百分百可靠的服务是不可取的,因为一个服务面向用户的不止是可靠,还有创新。当可靠性达到一定的数量级后,再花费大量的成本在可靠性上而忽略...
在这些带外通信系统之外,Google 还有命令行工具和其他的访问方式确保我们能够在其他条件无法访问的时候进行更新和变更回滚。这些工具和访问方式在这次事故中起到重大作用,但是工程师应该更加频繁地测试,以便更为熟悉它们。 Google 的系统架构体系提供了另外一层保护,这次受影响的系统包含了限速机制,限制他们给新客户端分发...
SRE 运维解密 读《SRE Google运维解密》是我首次比较系统地了解和学习Google内部SRE运作的指导思想、实践以及相关问题,最近又花了一些时间,仔细阅读了关于SRE的第二本书籍《SRE生存指南》。 SRE首先是一套方法论,它从传统运维中与稳定性相关的工作内容提炼出来进行升华,构建了SRE的方法论体系。冗余和容灾、容量规划、...
把一直没有涂完的油画涂好了,刷了一直想看但是没时间看的电视剧《你好,旧时光》,还把《SRE Google 运维解密》大致看了一遍。其实读书很多时候,第一遍可能不知道它写的到底是什么意思,索性做份笔记吧,这个笔记真长……。(ps 希望每个人都平安喜乐,万事胜意...
SREGoogle运维解密目录\h第Ⅰ部分概览\h第1章介绍\h系统管理员模式\hGoogle的解决之道:SRE\hSRE方法论\h确保长期关注研发工作\h在保障服务SLO的前提下最大化迭代速度\h监控系统\h应急事件处理\h变更管理\h需求预测和容量规划\h资源部署\h效率与性能\h小结\h第2章Google生产环境:SRE视角\h硬件\h管理物理服务...
SRE Google运维解密 SREGoogle运维解密 传统软件项目生命周期 Product Operation Development 系统管理员(Sysadmin)•组装现成的组件,部署为服务•负责应急事件处理与常规更新•团队规模一般随着服务部署规模增长而增长 传统运维模式的弱点 •创新困难•重执行,抗拒变化,组织结构僵硬•积累困难,提高困难,发展困难 ...
SRE Google运维解密 28-34章2023-12-30 收起 第二章 Google生产环境:SRE视角 Google 数据中心与其他传统数据中心和小型服务器集群相比非常不同。这些差异有好处也有坏处,本章将详细讨论 Google 数据中心建设中遇到的机遇与挑战。 硬件 数据中心(供电系统,制冷系统,网络系统,计算机硬件) 约10台物理服务器组成一个...