刷新11项性能纪录，国产GPU问鼎… 这届MLPerf有点火

云中子基础架构, 计算 2022年9月15日

1.83W 0 0

“计算力是衡量一个国家、地区，甚至企业发展水平的重要指数。随着元宇宙的不断发展，类似GPT-3、源1.0等巨量参数算法模型是未来重要方向之一。自2012年至2018年的6年时间里，AI算力需求增长了30万倍。未来中国的数字经济、数实融合及赋能实体经济都离不开AI算力。”

几年前，我们最常听到的一句话就是：算力无处不在。因为在云计算大行其道的时代，人们的工作与生活几乎都是围绕着各种应用而“运行”，网络与计算的基础设施扛起了一切。

时至今日，这句话可以逐渐改成：AI无处不在。因为从生物医学、语音处理、智能推荐到自动驾驶，都开始与AI密不可分。大到智能制造，小到我们手机微信中的语音转文字，都依托于高效率的AI计算。如果说10年前的应用开启了数字化时代，那么现在的AI则赋予了应用灵魂。

衡量AI性能的标杆：MLPerf测试

当前，无论是技术型企业还是云服务商，都开始密切关注基础设施的AI计算能力，因为相比传统的“CPU”式计算，有GPU加速的AI服务器可以带来数十乃至数百倍的性能提升，因此它才是未来基础架构的擎天博玉柱。

那么，如何衡量一台服务器的AI性能表现呢？行业用户一般会参考MLPerf的测试成绩。

相信关注AI的朋友们都听说过MLPerf测试，它由图灵奖得主大卫•帕特森（David Patterson）联合顶尖学术机构发起成立。2020年，非盈利性机器学习开放组织MLCommons基于MLPerf基准测试成立，其成员包括谷歌、Facebook、英伟达、英特尔、浪潮、哈佛大学、斯坦福大学、加州大学伯克利分校等50余家全球AI领军企业及顶尖学术机构，致力于推进机器学习和人工智能标准及衡量指标。

目前，MLCommons每年组织2次MLPerf AI训练性能测试和2次MLPerf AI推理性能测试。

MLPerf测试不同于我们常见评测的“跑分”，而是更加关注实战效果，所有测试均通过真实数据模拟实际业务，并涵盖了当下主流AI场景，包括自然语言处理（BERT）、智能推荐（DLRM）、图像分类（ResNet）、医学影像分割（3D U-Net）、轻量级目标物体检测（RetinaNet）及语音识别（RNN-T）等6类AI任务，广泛应用于智能客服问答、智慧交通、自动驾驶、工业质检、故障预警、语音转文字等生活及工业场景。

国产GPU迈出关键一步

那么重点来了，在今年9月份公布的AI基准评测MLPerf V2.1推理最新评测成绩中，一套国产GPU支持下的服务器荣获榜首。它在性能方面以压倒性优势打破了NVIDIA称霸GPU领域十余年的纪录，瞬间成为了AI界的新网红。

众所周知，当今的AI服务器主要算力均来自于CPU与GPU，但GPU方面一直都是国内企业的短板，因此多年来普遍需要国际大厂来提供支持。不过最近几年随着AI相关技术的飞速发展，市场需求量激增，也有越来越多的国内厂商开始发力GPU，壁仞科技就是其中之一。

壁仞科技成立于2019年，目前已经完成了B轮融资，也是成长势头最为迅猛的独角兽企业。壁仞科技首次参与MLPerf，即以最新发布的通用GPU芯片BR104，拿下数据中心推理评测中自然语言理解（BERT模型）和图像分类（ResNet50模型）两类基准评测“available”（可售产品类别）单卡性能全球第一的优异成绩，其中BR104在BERT模型下达到了英伟达A100单卡性能的1.58倍。

当前，IT领域国际市场动荡，有越来越多的高端产品被禁售，行业内急需同类产品进行补充。从壁仞科技的GPU芯片BR104可以看到，国内GPU发展速度之快令人瞠目结舌，也为AI服务器国产化开辟了一条新路径。

模拟实战的MLPerf测试

前文我们也提到了MLPerf的测试极具实战意义。其中RetinaNet是深度学习中目标物体检测的一项重要应用，此次测试基于谷歌最新发布的数据集OpenImages-v6来进行。

该项测试可以广泛应用到智慧交通中，主要是在图像或视频中查找真实世界对象的实例，例如车辆、人物、动物、自行车和建筑物，并在每个对象周围指定一个边界框。

在具体应用中，可以通过摄像头采集公路上图像、视频并进行分析，根据路段的车流量，调整红绿灯配时策略，进而提升交通效率。同时还可通过视觉算法，识别交通事故、危险运输车辆、违章驾驶、套牌车追踪。

另外，还可为自动驾驶提供道路、车辆、行人及标志位检测识别。可以说实用范围非常广。

在此次测试中，浪潮NF5468M6每秒完成了1.3万张图片的目标提取任务。如果这些图片是汽车车牌的话，五一黄金周期间进出北京的车辆日均292.20万辆，那么它可以在3分钟内完成所有进出京车辆的识别处理，效率惊人。

另外一项测试是3d-unet-99.9，这是基于神经网络的生物医学图像分割，主要是对复杂图片的识别。浪潮NF5468M6的成绩为每秒钟完成75.06张3D医疗影像分割。

此次测试是在KiTS19数据集上使用深度学习UNet-3D进行推理训练。生物医学影像（biomedical images）中的肾脏病理影像，平均每张包含几十亿像素，相当于上万张普通CT片子。一般情况下肾脏专科医生平均需要10-30分钟来评估1张病理图像中的肾小球病变状况，并估算肾小球内不同细胞的数量。

通过AI可以辅助医生对图片进行病理识别，每秒75张的效率将大大缩短患者的就诊时间。

优化，考验厂商的硬实力

每次的MLPerf榜单公布，都会有惊喜出现，这次也不例外！在最受关注的固定赛道全部30项任务中，浪潮AI服务器NF5468M6获得19项最高成绩，其中在数据中心16项任务中斩获12项冠军，边缘14项任务中获得7项冠军，同时刷新了11项性能记录，并将BERT、3D U-Net等重要任务的性能提升约100%。

在本次MLPerf评测中，依托浪潮AI服务器的优化，通过壁仞科技GPU芯片硬件架构与BIRENSUPA软件栈的创新设计，在数据中心的自然语言处理（BERT）和图像识别（ResNet50）这两项最重要的AI任务中，取得了8卡和4卡整机的全球最佳性能。

同时大幅打破相应性能世界纪录，其中8卡整机的Bert性能高达22133次处理每秒，是主流同类国际高端GPU 8卡整机Bert性能的170%。

在很多互联网企业的项目中可以看到，优化前与优化后的效率差距巨大。在之前的MLPerf测试中经常可以看到配置相同的服务器，但它们的成绩却千差万别，其实这就在考验服务器厂商的调教及优化能力。

从ISC、SC、大学生超级计算机竞赛（ASC）到现在的MLPerf，浪潮在各种赛事中屡屡斩获大奖，并积累了大量软硬件优化经验。

硬件架构优化方面，通过JBOG纵向扩展方案，使得浪潮NF5468M6J服务器实现了单机搭载24颗GPU的突破。此外，浪潮针对高负载多GPU协同任务调度以及NUMA节点与GPU之间的数据传输性能进行了深度优化，实现了CPU和GPU的利用率线性扩展、多个任务并发场景同步运行，使得性能大幅提升。

软件方面，通过先后10次参与MLPerf，浪潮总结出了多套优化方案，并不断地刷新着性能纪录。浪潮提出的ResNet收敛性优化方案，在ImageNet数据集上，仅使用85%的原迭代步数就达到了目标精度，将MLPerf训练性能记录提升了15%。在MLPerf推理中使用自研卷积合并算法的plugin算子方案，优化后算法性能从原算法123TOPS提升到141TOPS，性能提升达14.6%。

同时，浪潮还将多套优化方案分享至MLCommons社区，并被参赛厂商广泛使用，将参赛成绩普遍提升至一个新的阶段。

IDC数据显示，浪潮在中国人工智能服务器连续5年市场保持第一，份额超过50%。在全球人工智能服务器市场保持第一，份额超过20%。

多元高效、绿色低碳的算力基础设施，已成为浪潮信息创新的发力方向。一些大规模的应用越来越典型，这种应用对原有的服务器技术、设计、商业模式带来了挑战。因此，创新依然是未来AI服务器发展的重点，从国产计算芯片刷榜到单机搭载24颗GPU，我们看到了浪潮在创新之路上的努力。

在十四五规划中，人工智能将成为重点赋予更多应用场景，智能制造、普惠金融、智慧医疗、智能交通、环境治理、水务、气象等等都将融入AI。对于国内服务器厂商而言，构建起强大的AI服务器阵营才是关键，浪潮也正在这个历史变革阶段以产品为动能跨步上前，引领行业走向未来。

本文由计算杂谈作者：云中子发表，转载请注明来源！

关键词：浪潮

基础架构

刷新11项性能纪录，国产GPU问鼎… 这届MLPerf有点火

云中子

相关文章

乘胜追击，7Fx2系列EPYC攻入新兴市场

80%云端重复数据删除，AWS新存储服务来了

奇安信发布Q-GPT安全机器人和大模型卫士

热评文章

最赞的文章

发表评论取消回复