1234

相信创新的力量，AWS这样搭建云基础设施

2021-01-08 来源:科技商业阅读：698

文：科技商业于洪涛

对于承担数据中心运维重任的人来说，睡安稳觉是个奢侈的事情。

越是在别人过节的时候，心理压力越是大——类似机房临时停电、光缆被挖断的故障时常发生，甚至系统死机、存储溢满这样奇怪的事情，也在一些巨头级别的云服务商身上出现。

作为全球最大的云服务商，亚马逊云服务（AWS）为全球数百万企业的业务运行提供不间断的支持，其面临的运维压力可想而知。那么，AWS是如何来构建和运行其云基础设施的呢？

在亚马逊re:Invent 2020期间，AWS全球基础架构和客户支持资深副总裁Peter DeSantis，分享了很多AWS的经验和心得。

从他的介绍中我们可以发现，创新这一DNA贯穿始终，通过自主研发、生态合作、业务模式等方面的技术创新，建立起一个稳定可靠、高可用、高性价比的云基础设施，进而为客户的业务创新提供动力。

以用户需求为驱动的技术创新

随着数字化转型的深入，越来越多的传统企业开始将应用向云端迁移，而且从外围辅助型应用，逐步深入到生产和决策等核心业务系统。这些企业并不关心云服务商的底层技术到底是什么，而是希望这些技术能够为自己的应用和业务提供高可靠、高性价比的支持。

在亚马逊，有一个重要的原则叫做“技术创新，不是商业利益驱动，而是用户需求驱动”。在AWS的数据中心基础设施方面，我们能够看到这一准则的有效应用。

随着云计算市场的快速增长，云服务厂商的业务规模也迅速成长。目前，AWS已经成为全球第五大企业IT厂商，年营收达到460亿美元。近年来，AWS还加强了核心部件方面的研发，推出了自己的CPU、主板、网络等产品。

AWS在选择自主研发对象时，是把用户需求作为首要考虑因素，而不是“为创新而创新”。仅以芯片为例，AWS新近的两个明星产品AWS Graviton2和AWS Inferentia，都是在为用户提供更多的选择，尤其是更高性价比的选择。

原有的x86处理器，在Web网站等应用场景中，很多处理能力其实是被浪费了，改用基于ARM的Graviton处理器，则可以节省40%的成本。而采用Graviton2的M6g实例，与采用至强处理器的M5实例相比，性价比的提升也能够达到40%。

在机器学习中，推理计算占到了绝大部分的成本。AWS自行推出的Inferentia，其推理计算成本只有GPU的一半。用于训练计算的芯片AWS Trainium也即将推出。

在异构计算需求日益高涨的今天，以用户需求为驱动的技术创新，是云服务商的必然之选，目的是要让用户充分享受到云服务所带来的便利和性价比，进而为自身的数字化转型奠定基础。

以生态合作为基础的自主可控

数据中心基础设施的产品范围很广，任何一家企业都不可能完全依靠自身的力量来实现业务全覆盖。AWS同样如此，尽管其具备了很强的技术创新能力，但仍建立起广泛的生态系统，在与各大厂商进行业务合作的基础上，进行自主研发。

这一方面能够实现对关键部件的自主可控，提高整个数据中心和云服务的可靠性，另一方面也能够为客户带来丰富的产品组合，提供更高性价比的服务。

我们都知道供电系统对于数据中心的重要性，一旦出现市电中断，就需要迅速切换到UPS和自备发电机上，以保证服务的连续不间断运行。数据中心的供电系统，有专门的电源厂商来提供，其硬件产品经历了长时间的市场检验，成熟可靠，AWS并未自己研发。

然而，对于供电系统的控制器软件，AWS却是自己开发的。Peter解释说，越简单的系统，才越可靠，电源厂商的软件中包括很多AWS并不需要的内容，容易出现问题，导致可靠性降低。AWS自己写的嵌入式控制软件，在去除不必要功能的同时，可以按照自己的速度来更新迭代，并且对所有区域、不同供应商提供的设备，实现统一控制。

这种在生态合作基础上的自主研发，可以用最小的成本实现“自主可控”。在为客户带来99.99997%可靠性的同时，AWS自身也保持了良好的赢利水平，实现了可持续性的成长。

独创可用区模式的服务创新

全球化，是当今社会不可逆转的大趋势。当下，各大云服务商都在加强全球化业务布局，国内云服务商也不例外。不过，在全球化布局方面，AWS仍是绝对的领先者。这不仅表现在其全球22个区域的广泛覆盖，还表现在其独创了可用区模式。

国内企业常说“两地三中心”，即在两个城市建设三个数据中心：本地的两个数据中心可以双活运行，以保证业务不间断；异地的数据中心则用于灾备，一旦本地数据中心出现问题，可以用来恢复数据。

AWS则创造了可用区的概念，其每个提供服务的区域，通常包括2-4个离得比较近的可用区，可用区总数达到77个。

值得注意的是，可用区并不是简单的两个不同数据中心，其选址既要足够近，又要足够远——近到能够满足低时延业务的需要，远到不会因为同样的灾害而导致两个可用区同时受损。

火灾、洪水、龙卷风，甚至人为灾害，都会对数据中心造成破坏，类似的事故已经多次发生。那些对于可靠性有更高要求的企业，通过把应用部署在不同的可用区上，实现了响应速度和安全可靠之间的完美平衡。当然，这对于AWS而言，意味着更多成本的付出和更高难度的运维。

--------------

以上，我们分享了AWS在数据中心基础设施方面的三个经验。这些经验，对于其他数据中心的运营者来说，仅供参考。

可以明确的是，数据中心稳定可靠的运维，并不是某几个环节、一时努力的结果，而是长期付出、一个个小小努力不断累加的成果。

道客优(www.daokeyou.top)提醒：本网站转载【相信创新的力量，AWS这样搭建云基础设施】文章仅为流传信息，交流学习之目的，其版权均归原作者所有；凡呈此道客优的信息，仅供参考，本网站将尽力确保转载信息的完整性，如原作者对道客优转载文章有疑问，请及时联系道客优，道客优将积极维护著作权人的合法权益。