云计算和大数据

如何提升系统可靠性?AWS为数据中心做减法

LensNews

“2018年,与AWS规模最接近的另一个云服务商,宕机时间竟然是AWS的7倍多。大家知道,公有云最关键的问题就是运营的稳定性,如果谈不上稳定性,其他的功能、性能都难以被客户接受,因为不可持续的稳定运营是最大的挑战。” AWS大中华区产品部计算与存储总监周舸以这样的开场白介绍了基础设施的重要性。

AWS的CTO Werner说过,任何东西都会坏,这是我们每天都会面临的挑战,那你该怎么办呢?

为数据中心配电管理做减法

一旦设备出现问题,影响就非常可怕,运营商必须想尽办法去预测什么时候会坏、怎么坏,从而能够提早想办法保护客户不受影响。

一般来讲,提升可靠性最简单的方法就是冗余,例如发电机组有可能出现不稳定现象,那么可以再加一台用以提升可靠性。但有些系统本身就非常复杂,例如配电开关系统和UPS,简单增加冗余的话反而会让系统变得更加复杂,而越是复杂的系统出问题的概率越高。

因此,在配电开关系统和UPS优化方面,AWS认为还有很多工作值得去做。

每个数据中心都至少有一个e-house,负责低压和中压的控制开关、继电器等线路切换操作。目前配电开关系统都出自几家大型公司,比如GE、施耐德等等,设备内部的控制系统是一套类似于嵌入式的软件系统,用以控制系统硬件,但用户却没法直接去管理。

所以像AWS如此大规模并有丰富运营经验的公司,会发现配电开关系统里很多东西不适合自己。例如一些冗余的功能并不需要,AWS有自己的处理办法;而有些管理的功能它们却不具备,因此在匹配方面还有欠缺。

此外,控制系统也会出现软件bug,但修复的话必须由配电相关技术人员来完成,但这通常需要几个月的时间,对于云服务商来讲这种效率难以接受。AWS还经常优化自己的管理系统及流程,但配电开关方面就没法修改了。这些都是所面临的主要挑战。

据周舸介绍,AWS单独设计了配电系统和控制系统,里面的软件均为自己研发,能够顺利解决上述难点。软件方面已经做到极简设计,越简单就越不容易出故障。而一旦出现问题,AWS的工程师就能迅速响应,第一时间解决问题,不必再通过配电供应商了。

更易于管理的小型UPS

解决了配电系统难题之后,就要关注UPS了。直到今天,UPS所配备的电池依然以铅酸为主,数据中心标配1兆瓦电池,重量为12000磅 (5443公斤多),并且需要专门的房间来管理和维护。电池本身也是一种易爆品,部署在数据中心里,也有很大的安全隐患。

如何提升系统可靠性?AWS为数据中心做减法

AWS的做法是把铅酸电池体积缩小,每五千瓦一个,能够直接部署至机架中,与机架的冗余电源搭配起来,并通过AWS开发的控制系统来控制这种独特的UPS。

AWS去掉了大量标准UPS里面复杂的配件,只保留对AWS有用的部分。缩小体积之后,每个单元出问题时候所造成的破坏会小很多。同时,当电池坏掉以后,更换它的时间也是秒级水平。相比之下之前更换UPS铅酸电池的时间则需要若干小时。AWS通过降低电池的破坏性和复杂性两个维度,提升了数据中心运营的稳定性。

AWS EC2实例突破400

去年re:Invent大会上AWS EC2已经有270种实例,今年这一数字突破400!一年内能够有如此大幅度的增加,基本都是Nitro的功劳。Nitro帮助AWS把整个物理平台上资源池的网络等资源全部抽离出来,并控制硬件与连接,从而实现高效的统一管理。

在实例拓展方面,P4D是现在最强大的机器学习训练用实例,支持400G网络;D3en在单实例上可以挂载336TB的存储,很多客户拿它做自己的Hadoop应用;G4ad实例,是用AMD的CPU加上AMD的GPU组合,实现在云端最好的图形性能和最高性价比;以及MacOS实例,使得AWS成为唯一一个同时可以提供Intel、AMD、ARM的处理器实例的云服务商。其中Nitro起到了非常大的作用。

Graviton2处理器问世,再次提升性价比

2018年re:Invent上AWS首次发布了Graviton这款ARM架构CPU。当时有几个中国非常大的互联网客户在海外第一时间就开始使用Graviton处理器了。在美国,几大互联网公司也都在使用,包括Netflix等等。

今年AWS顺势推出了Graviton2处理器,基于第一代产品在市场中的成功,Graviton2将加快用户转向ARM的步伐。据周舸介绍,有一位客户在接受采访时表示,当Graviton刚刚推出的时候,他们花了两个星期的时间,把工作负载从当初的Intel平台转到了Graviton,节省了很多成本。当Graviton2出现的时候,只用了一天时间就完成了平台转换,并且直接提升了40%性价比。由此可见,ARM架构Graviton2在实际应用中极具竞争力。

AWS节能减排已经在路上

在节能方面,亚马逊希望在2030年完成一个宏伟的指标,要让整个Amazon所使用的数据中心100%的使用再生能源。包括从交直流供电转换、电池、发电机等等多方面进行优化,降低能耗。在服务器方面,Graviton系列在设计之初就充分考虑到了如何节能,省掉了多余的线程和晶体管之后,能够节省能耗3.5倍。由此带来的散热等功耗也在同步下降。

如何提升系统可靠性?AWS为数据中心做减法

目前,AWS的碳排放已经降低了88%。

此外,AWS在全世界一年要买6.5GW的再生能源,包括中国都在很大规模的使用再生能源。AWS已经成为全世界使用再生能源最多的企业,并且会在2025年提前完成任务指标,即:100%的使用再生能源。

总的来看,在基础架构优化与节能方面AWS做好了充分准备,大量新技术已经付诸于应用,为数据中心构筑了更强的可靠性。在技术创新与节能减排方面,AWS确实走在了行业前列。

(0)

本文由 计算杂谈 作者:云中子 发表,转载请注明来源!

关键词:
LensNews

热评文章

发表评论