AWS云计算平台如何在没有SOC的情况下安全运行

亚马逊旗下的云计算服务平台（Amazon Web Services，简称AWS）已经成为了全球规模最大的云计算服务之一。目前，AWS在全球共有19个数据中心、55个可用服务区以及数百万用户。现在还有巴林、瑞典等地的数据中心陆续建置中，到2020年开普敦数据中心完工后，预计全球将有23个云端数据中心。

鉴于如此庞大的用户群都在依赖亚马逊的网络服务，以至于一旦出现宕机情况，全球都会陷入恐慌。2017年，由于员工操作不当，亚马逊在东海岸的一个云数据中心出现故障导致大规模的互联网中断，历经4小时才恢复正常。在这次事故中，大流量网站Slack、Trello、 Soundcloud、Medium、Quora、 Spotify、 Pinterest、Buzzfeed等都受到了影响。Soundcloud、Business Insider、imgur、Mashable和科技网站Verge 也纷纷中招，一些网站甚至因该事故完全消失了。美国Top100的网络零售商中，有54个在网页打开速度上降低了20%以上。

在超大规模运营需要始终处于最佳状态，并防止人为失误的情况下，AWS开始越来越注重自动化尽可能多的任务，这其中就包括许多安全操作，以至于该公司目前已经不再需要传统的安全运营中心（SOC）。

AWS通过自动化实现安全的必要性

Stephen Schmidt已经在亚马逊工作了十多年，之前他曾在美国信息系统和FBI任职。自2010年以来，他一直在AWS担任首席信息安全官（CISO）一职，主要负责整个公司的计算机系统、网络和数据中心的安全性。

AWS在美国、欧洲和亚太等所有主要地区都设有安全团队。当这些数据中心发展到一定规模时，AWS还会将安全工程师直接嵌入到每个服务团队中。此外，每个数据中心和可用服务区都配有安全管理人员来处理物理安全问题。

Schmidt还表示，即便是他需要访问任何网站也需要提前通知。AWS还有一个威胁情报团队，负责监控威胁行为者及其使用的工具和方法；以及一个执行渗透测试的红队。

尽管目前仍有大量人员参与，但是AWS正在不断深入其自动化进程。因为在很久之前，AWS就已经意识到，如果不使用自动化进行安全操作，那么面对如此庞大的用户群和数据规模，人为操作上难免会存在失误，造成不必要的损失。因此，AWS也开始不断扩大自身在自动化方面的资金投入，以尽可能多且快地取代人为操作。

虽然自动化需要大量资金投入，但是从长远来看，一切都是值得的，因为“人类会犯错误”。Schmidt表示，他在整个企业中设定的一个基于安全性的目标就是，将人员对数据的访问减少多达80%，以进一步推动自动化进程，并减少人为失误的可能性。

如果我们单纯地依靠人力来承担安全重责，那么他很大可能会被各种琐事（喝咖啡、与友人闲聊或是刷Facebook等等）分散精力，做出错误的判断或操作。所以，我们不得不构建内部系统，这些系统非常注重使用机器学习引擎，以减少操作员的工作量，并将我们拥有的大量内部传感器数据转化为有用的信息。

没有安全运营中心（SOC）且无需安全工程师轮班待命

根据来自加利福尼亚州的一份新报告指出，98％的组织正在实施自动化，但重点在于尽可能地将人力从AWS中移除，这也就意味着要移除传统意义上必不可少的一项内容：安全运营中心（SOC）。

我们没有安全运营中心，不需要有人全天候端坐在大型监视器后面查看网络动态。相反地，我只有一名随叫随到的安全工程师，负责观察自动化进程并确保其正常运行。

Schmidt继续补充道，事实上，我们的自动化程度已经达到了大多数操作都不再需要工程师的水平。例如，我们有一个监视内部账户和内部员工网络行为的系统，当该系统发现错误配置或操作失误时，它就会自动切断该工作人员的操作。目前，我们的自动化比例已经高达90%，很多操作已经不再需要安全工程师参与。

然而，还有一个安全领域主要依赖人员参与，就是审查渗透测试。AWS扩充了其内部“红队”以检测其自身和外部供应商的能力。AWS会根据内部红队发现的情况，以及外部企业自身缺乏的情况对每个供应商进行评分。这既可以衡量内部团队的相对成功水平，也能够为外部企业的质量提供一定程度的保证。

除了不断比较外部和内部团队的相关技能外，每当出现可能影响AWS的新漏洞时，公司也会回过头来评估是否应该早些发现这些漏洞。

我们针对漏洞或软件问题进行了非常严格的评分过程，这些漏洞和软件问题在渗透测试过程中并未被发现。这时候我们就会反思：谁做的测试？他们本应该能够发现这些漏洞吗，或是这些漏洞是否非常明显？

从学术界挖掘机器学习人才

AWS在全球拥有多个研发中心，通常每个地点都有自身特色化的内容。例如，英国剑桥中心就是AWS的Alexa和无人机研发中心。目前，该公司正在尝试探索更多不同的领域，以产生一些未来几年内完全用得到的东西。

一旦确定了符合要求的领域，AWS就会寻找在该领域工作的学者，并试图将他们吸收进来。因为，在Schmidt看来，并非所有学者都适合或喜欢高谈阔论，他们中有些人还是喜欢构建一些真实、具体的东西，想要/期待把自身的想法转变成真实的服务！其中一个例子就是计算机科学教授Byron Cook，他是AWS从伦敦大学学院（UCL）招聘来的，主要负责领导自动推理组（ARG）团队，该团队致力于自动化测试、配置和验证等领域。

AWS最近发布的许多安全产品都围绕着自动化，包括Amazon Macie（旨在识别和保护敏感数据）、Amazon Guard Duty（威胁检测服务）以及由公司的ARG团队开发的Tiros和Zelkova。据相关报道称，该公司正在开发另外两种自动验证工具Quivela和SideTrail，这两种工具都是出自ARG部门的基于加密技术的安全服务。

“自产自用”安全产品

亚马逊对其自身产品开发的方式颇感自豪。在成为行业巨头前，该公司的整个云部门都是为了解决内部问题，并使外部合作伙伴能够更轻松地使用底层电子商务平台而存在的。它的许多服务最初也都是作为管理平台本身的内部工具而开始投入使用的。

Schmidt表示，客户经常会看到一些内部AWS安全工具，并要求提供类似的功能。而一旦选择了相应的产品，可能需要大约一年的时间才能从粗糙的内部工具转化为产品化和用户友好型的产品。这也就导致每次他们在构建供自己使用的软件时，总是会问这样一个问题：是否应该将其外化/产品化呢？

AWS为客户提供的安全工具与其用于管理平台的安全工具相同。Schmidt的安全团队是事件驱动的Amazon Lambda的最大用户群，而Amazon SageMaker（全托管端到端机器学习服务）则可以帮助数据科学家、开发人员以及机器学习专家快速构建、训练并托管规模化机器学习模型。该公司还有许多其他基于机器学习的安全操作，只是这些内容可能永远不会外化/产品化。

我们在内部进行了大量的配置检查，以确保系统功能正确。我们使用大量的机器学习来构建关于如何配置不同类系统的模型。对于客户而言，这是否有效，我并不知道。

内部安全受到重视，但也是以“游戏化”的方式

虽然很多安全人员会向CIO或风险/法律智能部门汇报情况，但Schmidt（身为CISO）选择直接向AWS的首席执行官 Andy Jassy汇报。Schmidt解释称，这一决定是为了确保安全问题得到认真对待，并且CISO的角色在公司内部具有适当的访问权限和可见性。

Andy每周都会跟我、Charlie Bell（实用计算服务高级副总裁）以及公司的高级副总裁会面，共同探讨战术安全问题。目前，有多少CEO每天会去关注‘心脏滴血’类的安全资讯，或是每周都在需求安全方面获取改进和突破呢？

尽管人们越来越关注自动化和消除人为因素，但Schmidt仍然不得不与人类抗争。为了使安全职能以外的人能够更加认真地对待安全问题，Schmidt利用了近乎“游戏化”的方式来实现其目标。所谓“游戏化”（Gamification）就是将游戏设计的手段应用于非游戏的场景。更简单一点说，就是用游戏的框架，来解决工作生活中一切非游戏的问题。也就是说，游戏化本质上是一种方法，一种思维方式，它可以应用到任何领域。

“游戏化”的具体方式表现为：每个月，Schmidt都会公布一份报告，其中显示了每位副总裁是如何实践预定义的安全预期的，具体是以计分板的形式展现。Schmidt解释称：每个人都有极强的胜负心，所以他们所做的第一件事就是将其与同行对比排名。决策者会根据图表，看到自己的位置，然后查缺补漏奋起直追，这正是他想看到的积极性。

极牛网精选文章《AWS云计算平台如何在没有SOC的情况下安全运行》文中所述为作者独立观点，不代表极牛网立场。如若转载请注明出处：https://geeknb.com/12471.html