什么技术能彻底解放CPU？

云中子基础架构, 计算 2022年10月20日

1.72W 0 0

一项新的IT技术，能够给用户带来翻天覆地的变化么？

答案当然是肯定的，因为在数字化主导的世界里，一切皆有可能！

“用780台装有NVIDIA BlueField DPU的服务器，替换掉1000台安装有标准智能网卡的服务器。由此，每台服务器TCO可节省8200美元，3年内通过提升效率可节省180万美元。”这一数字足以让云服务商、互联网及企业级用户垂涎欲滴，这就是DPU所带来的革命。

DPU，因需而生

NVIDIA网络市场总监孟庆表示，当前，数据中心的流量正呈爆发式增长，人工智能、推理训练，包括一些企业用它做更复杂的通用计算，这就产生了非常多的数据流量。而数据中心也在逐渐变成人工智能中心，各种复杂的图形识别、语义分析、推荐购物等等全部将数据导流到后台，通过数据中心来计算、推演。

举例而言，用户打开一个手机上的APP，然后几秒后关闭。从表面来看，似乎“我什么也没做。”但实际上呢？激活APP后会同步诞生多个容器，瞬间打开和关闭后，会给数据中心后台造成一个突发性小峰值。如果同一时段很多用户同时进行类似操作，后台数据中心的负荷会急速飙升。这还仅仅是APP端最简单操作而已，如果众多用户同时完成订单再增加支付、配送信息等，势必会带来数据传输的蝴蝶效应。

仔细观察就会发现，现在很多CPU的资源都用在了数据搬运、流量分发的过程中，其实原本宝贵的CPU资源，大可不必如此“忙碌于数据传输”。

DPU（数据处理器）就是为此而生，就像当年的GPU一样，DPU从CPU手中将数据传输的工作接管过来，让后者更专注于计算。正如前文介绍的那组数据一样，DPU的到来为企业节省了大量成本，同时提高了工作效率。

最先部署DPU的是云服务商及互联网企业，包括BAT、京东、头条、微软等公司，他们每日面临着大量的数据需要处理，而DPU则带来了颠覆性的创新，在提升数据传输效率的同时，又解决了数据隔离、加解密等安全性问题。

DPU解决数据中心四大挑战

在NVIDIA看来，当前数据中心主要面临四大挑战，包括：人工智能、科学计算、应用复杂工作负载所带来的海量数据挑战；用户需求量明显上升，带来的分布式微服务挑战；CPU性能增长放缓，计算资源紧缺；应用程序流量不断增加，面临更大的安全威胁。

据NVIDIA网络技术专家崔岩介绍，基于以上四大挑战，NVIDIA与VMware展开了紧密合作，并在VMware的软件架构基础上重构了虚拟基础设施，Project Monterey平台应运而生。

Project Monterey在硬件方面依托于NVIDIA最新的NVIDIA BlueField DPU，融合vSphere 8企业工作负载平台。可以在戴尔Power Edge服务器或VxRail超融合架构一体机上运行，这样就能有效的把NVIDIA BlueField DPU、GPU和NVIDIA Enterprise AI软件，在vSphere 8平台上做负载优化，并由此构建起面向未来AI和现代应用程序工作负载的现代化数据中心。

在VMware Hypervisor虚拟化管理软件系统中，把vSphere中网络、安全、存储、主机管理等服务，卸载到NVIDIA BlueField DPU之上，全方位地解放CPU。NVIDIA BlueField DPU的介入会在主机CPU和DPU之间形成一个隔离层，通过它来保障主机内部的安全性。

上层应用程序即使被黑客攻击时，也不会通过隔离层攻击到其他的服务器。所以，在多租户、多虚机环境下DPU系统可以提供更优的安全性。

当采用了NVIDIA BlueField DPU之后，上述四大功能就可以卸载到DPU，此时CPU会腾退出更多资源来支撑客户业务应用，包括支持更多虚拟机和容器。

安全方面，NSX下一代防火墙已经卸载到DPU之上，后续的入侵检测、入侵防御等安全策略功能也会逐渐在DPU上实现，这将和VMware整个多云架构、企业应用有更加紧密的融合，从而让企业级用户享受到来自NVIDIA BlueField DPU的回报。

实战：完全释放CPU资源

那么，DPU在实战过程中，真的有那么强吗？

我们来看一组测试数据，据崔岩介绍，基于VMware运行NGINX Web服务器的应用，传统用标准智能网卡和CPU的组合下，需要有8个CPU内核管理跟运营基础设施的相关操作。这对于整个数据中心而言，是个不小的负载。

当采用了DPU之后，这8个CPU内核完全被释放了。也就是不需要CPU的任何介入，DPU就可以直接实现这些基础设施管理及加速。

第二项测试是Redis内存键值存储，非SQL数据库的基准测试。基于传统架构的64核心系统中，需要12个CPU内核介入才能完成测试，此时的性能为8.8百万交易/秒。同样的系统基于DPU构建时，CPU负载为0，也就是解放了12颗核心，并且性能实现了加速，达到12百万交易/秒。

相当于释放了20%的CPU核心，并在不占用任何CPU资源的情况下将性能提升了36%。对客户而言既节省了硬件资源消耗，又得到了性能提升，并有效降低了TCO。

DPU助力超算降低延迟

孟庆表示：在GTC上，黄仁勋先生曾经展示过一张图片：是由一个CPU、DPU和GPU组成的三角形，意味着它们对于NVIDIA同样重要，并且3U一体也是未来的发展趋势。

以当前广受关注的云原生超级计算为例，简单地说没有DPU做不出云原生超级计算机。因为超级计算机里，如果不用DPU把任务调度、数据区隔、排序、预处理做好，就会出现延时和等待问题，很难构建起百亿亿次以上的超算。同时，在云端提交超算任务后也将面临延迟等待之类的难题，高延迟同样会浪费大量的计算时间。

第一代NVIDIA BlueField DPU解决了应用适配问题，到现在，DOCA开发环境出来以后，很多场景、接口被标准化地放在DOCA里。而使用者仅需调用一个参数即可完成一项功能，包括IPsec加解密、数据区隔及基于DPU的预处理排序等工作。

与市场中的很多方案不同，NVIDIABlueField DPU执行程序是基于ARM处理器的。随着技术的不断发展，它的性能越来越强，核心数量也越来越多，但程序始终不变，未来也不会出现适配性等方面问题。NVIDIA还将不断赋予它们新的功能，使其在保证技术延续性的同时不断提升自身价值。

黑客松推动DPU快速发展

为了更好地推动DPU市场及软件开发，NVIDIA还将继续组织2022年秋季DPU中国黑客松竞赛。

大赛包括NVIDIA BlueField DPU和NVIDIA DOCA软件开发套件的介绍和用例展示，及更深入的开发环境和开发方式介绍，并有应用案例展示。让开发者更容易理解DOCA的开发步骤、用例及运行方式。此外，还有开发者的技术答疑环节。

本次DPU中国黑客松竞赛，其中一个课题是需要开发者使用NVIDIA BlueField DPU和NVIDIA DOCA软件框架实现RDMA加速的存储与AI解决方案。这是基于InfiniBand上实现的RDMA技术，能够很容易的通过NVIDIA BlueField DPU去访问CPU和GPU的内存，而不需要CPU和操作系统的干预。这些突破会大大提高整个数据移动的效率，能够更好的支撑未来科学计算、人工智能、机器学习需要大规模数据搬运和计算的工作负载。

此次NVIDIA也会邀请5位本地评委，从基础架构、软件开发、行业应用角度来考验这些开发团队所做的项目和呈现的结果。整个结果最后会提交给国际评委，他们从题目匹配度、演示效果、项目价值、项目完成度及训练营参与度，共5大维度做评分，最后还有现场演示环节。

NVIDIA BlueField DPU的问世给数据中心带来了新的革命，它为苦不堪言的CPU卸载下了繁重的数据传输任务，并以己之长补其之短。

创新、数字化转型、碳排放、智能制造是当前的热门话题，而企业级用户亟需来自IT技术的创新，帮助自己实现高质量转型，从而适应未来发展。我们看到，像DPU这样的颠覆性技术正在快速演进，逐步渗透至大型数据中心、企业级服务器及超融合一体机中，帮助用户解决来自成本、效率方面的难题。

本文由计算杂谈作者：云中子发表，转载请注明来源！

关键词：NVIDIA

基础架构

什么技术能彻底解放CPU？

云中子

相关文章

每秒20亿亿次性能美国启用TOP500最强超算寻求新冠病毒药物

PowerEdge：适用于各种规模企业的创新引擎

瑞数信息入选2020中国网络安全企业100强

热评文章

最赞的文章

发表评论取消回复