1. 极牛网首页
  2. 云计算

SRE与DevOps是敌是友?未来将由谁来主导?

SRE与DevOps是敌是友?未来将由谁来主导?

现场可靠性工程(SRE)和DevOps目前是非常流行的开发和运营维护文化,具有高度的相似性。什么是SRE?这和DevOps有什么关系?本文将讨论两者的异同。在

SRE产生背景

谷歌的开发过程中,也遇到了运维人员和开发人员目标之间的矛盾问题。开发人员专注于创建新功能并将其投入生产,而操作和维护人员则努力确保生产的稳定性。为了缓解这两个部门之间的矛盾,谷歌工程副总裁本·特雷诺(Ben Treynor)提出了一个新的解决方案。在招聘和内部调动具有研发背景的软件工程师后,他们不再独立属于系统管理员团队或运营团队,而是独立设计和创建软件系统来维护系统运行,取代传统模型中的手工操作,实现解决方案自动化。“现场可靠性工程(SRE)”职位立即设立。SRE工程师负责生产环境的稳定,但他们也致力于新功能和运营改进。谷歌认为SRE团队应该由50%的软件工程师和50%的系统管理员组成。软件工程师使用软件手动解决历史上的问题,并轻松地与开发人员集成,以促进代码质量改进和自动化测试。该团队的目标是帮助谷歌的生产环境服务更加稳定、稳健和可靠地运行。

DevOps和SRE区别

SREs VS DevOps

SRE与DevOps是敌是友?未来将由谁来主导?

减少部门间的孤岛

我们通过DevOps的五个原则来比较DevOps和SRE的区别:

故障接受程度

SRE故障标识符

DevOps的工作是缩小这些差距,确保团队中没有任何团队与公司的其他团队不匹配。他们最小化了团队,并把它连接成一个具有共同愿景的团队。

SRE不再关注公司中存在多少差距,而是谈论如何让每个人都参与讨论。这是通过在整个公司使用相同的工具和技术来实现的,例如在台湾。

实施渐进式改革

工具和自动化

结果度量

在SRE看来,尽管失败是不可避免的,但这个目标可以通过制定一个公式来平衡事故和新版本之间的关系来实现。换句话说,SRE希望确保不会有太多的失败或失败,即使这些失败是学习和成长的途径。

SRE通过两个关键标识符来衡量公式:服务水平指标(SLI)和服务水平目标(SLO)。SLI是一个随时间变化的指标,例如请求延迟、每秒请求吞吐量或每个请求的失败。这些通常会随着时间的推移进行总结,然后转换为受阈值限制的比率、平均值或百分位数。SLO是从这个阈值、百分比或数量得出的,它表明SLI在一段时间内(如“过去30天”或“本季度”)的累计成功目标。

在谷歌,SLO不同于服务水平协议,服务水平协议是服务提供商对用户可靠性的保证。二语习得中的可用性SLO通常比内部可用性SLO宽松。

DevOps和SRE关系

结论

DevOps和SRE都是以这个目标为目标的,但是都是以渐进的方式处理的。德文郡和SRE郡都希望快速发展,谷歌指出SRE强调减少失败

SRE团队更加关注与变革、失败、绩效和能力相关的问题,并将涉及特定的业务。输出工具链将包括:容量测量工具、日志记录工具、跟踪呼叫链接跟踪工具、度量性能测量工具、监控和报警工具等。

但目的是一样的,他们都希望通过消除人工操作为开发人员和操作维护人员提供价值。

DevOps和SRE团队都需要确保他们朝着正确的方向前进。DevOps指标趋向于自动化和项目交付速度,而SRE指标趋向于更加可靠和稳定。

SRE关键词是“高扩展性”和“高可用性”。高可伸缩性(High scalability)是指当服务用户数量急剧增加时,应用系统和支持它的服务(服务器资源、网络系统、数据库资源)可以在不调整系统结构、增强机器本身性能、只增加实例数量的情况下进行扩展。高可用性意味着当应用程序体系结构中的任何链接不可用时,例如应用程序服务、网关、数据库和其他系统挂起,整个系统可以在短时间内恢复并重新提供服务。

DevOps和SRE都接受变革是改进所必需的观点。

合作是DevOps工作的核心。有效的分享与合作是SRE发挥其作用的必要条件。像开发团队一样,SRE有强大的跨组织共享价值,这使得团队之间的差距更容易打破。

当生产服务器发生故障时,SRE和德文郡应该都恢复各自的事故,以消除无意义的争论、扔锅和知识积累。

使用正确的工具非常重要,这在一定程度上决定了工作效率。

结果度量是DevOps和sres如何工作的关键。对SRE来说,服务质量目标决定了是否改善和优化服务。当然,如果没有产品、基础设施/SRE和业务之间的度量和跨团队协作,就不可能有SLO。对于DevOps,结果测量行为通常用于理解过程的输出是什么,反馈周期的持续时间是什么,等等。

DevOps或SRE是一个整体行为,愿景是以一种特定的方式合作,让整个团队运作得更好。

德文普斯和SRE在日常工作中有很大的重叠。正如托尔斯泰所说,有效的操作方法都是相似的,失败的方法也有自己的失败之处。

在整个信息技术运营和维护领域的许多方面,虽然两者或多或少不同,但实际的DevOps和SRE在实践和概念上非常接近。两者都有助于合并开发人员和运营人员,同时承担类似的责任并关注自动化和可靠性。实现这两者都是一个漫长的过程,而不是一个快速的解决方案。DevOps关注的范围更广,因此很难将每一步标准化为一个特定的过程,但正是由于广泛的关注,早期遇到的阻力可能会更小。SRE将大部分时间花在技术和流程责任上,与其他团队合作提供适当的监控、事件响应和管理,以共同实现可靠性目标。

归根结底,德文郡和SRE郡面临着相同的目标和愿景:让生产环境变得更好——不管它叫什么!

极牛网精选文章《SRE与DevOps是敌是友?未来将由谁来主导?》文中所述为作者独立观点,不代表极牛网立场。如若转载请注明出处:https://jikenb.com/4539.html

发表评论

登录后才能评论