基础架构

刷新11项性能纪录,国产GPU问鼎… 这届MLPerf有点火

LensNews

“计算力是衡量一个国家、地区,甚至企业发展水平的重要指数。随着元宇宙的不断发展,类似GPT-3、源1.0等巨量参数算法模型是未来重要方向之一。自2012年至2018年的6年时间里,AI算力需求增长了30万倍。未来中国的数字经济、数实融合及赋能实体经济都离不开AI算力。”

几年前,我们最常听到的一句话就是:算力无处不在。因为在云计算大行其道的时代,人们的工作与生活几乎都是围绕着各种应用而“运行”,网络与计算的基础设施扛起了一切。

时至今日,这句话可以逐渐改成:AI无处不在。因为从生物医学、语音处理、智能推荐到自动驾驶,都开始与AI密不可分。大到智能制造,小到我们手机微信中的语音转文字,都依托于高效率的AI计算。如果说10年前的应用开启了数字化时代,那么现在的AI则赋予了应用灵魂。

衡量AI性能的标杆:MLPerf测试

当前,无论是技术型企业还是云服务商,都开始密切关注基础设施的AI计算能力,因为相比传统的“CPU”式计算,有GPU加速的AI服务器可以带来数十乃至数百倍的性能提升,因此它才是未来基础架构的擎天博玉柱。

那么,如何衡量一台服务器的AI性能表现呢?行业用户一般会参考MLPerf的测试成绩。

相信关注AI的朋友们都听说过MLPerf测试,它由图灵奖得主大卫•帕特森(David Patterson)联合顶尖学术机构发起成立。2020年,非盈利性机器学习开放组织MLCommons基于MLPerf基准测试成立,其成员包括谷歌、Facebook、英伟达、英特尔、浪潮、哈佛大学、斯坦福大学、加州大学伯克利分校等50余家全球AI领军企业及顶尖学术机构,致力于推进机器学习和人工智能标准及衡量指标。

目前,MLCommons每年组织2次MLPerf AI训练性能测试和2次MLPerf AI推理性能测试。

MLPerf测试不同于我们常见评测的“跑分”,而是更加关注实战效果,所有测试均通过真实数据模拟实际业务,并涵盖了当下主流AI场景,包括自然语言处理(BERT)、智能推荐(DLRM)、图像分类(ResNet)、医学影像分割(3D U-Net)、轻量级目标物体检测(RetinaNet)及语音识别(RNN-T)等6类AI任务,广泛应用于智能客服问答、智慧交通、自动驾驶、工业质检、故障预警、语音转文字等生活及工业场景。

国产GPU迈出关键一步

那么重点来了,在今年9月份公布的AI基准评测MLPerf V2.1推理最新评测成绩中,一套国产GPU支持下的服务器荣获榜首。它在性能方面以压倒性优势打破了NVIDIA称霸GPU领域十余年的纪录,瞬间成为了AI界的新网红。

众所周知,当今的AI服务器主要算力均来自于CPU与GPU,但GPU方面一直都是国内企业的短板,因此多年来普遍需要国际大厂来提供支持。不过最近几年随着AI相关技术的飞速发展,市场需求量激增,也有越来越多的国内厂商开始发力GPU,壁仞科技就是其中之一。

壁仞科技成立于2019年,目前已经完成了B轮融资,也是成长势头最为迅猛的独角兽企业。壁仞科技首次参与MLPerf,即以最新发布的通用GPU芯片BR104,拿下数据中心推理评测中自然语言理解(BERT模型)和图像分类(ResNet50模型)两类基准评测“available”(可售产品类别)单卡性能全球第一的优异成绩,其中BR104在BERT模型下达到了英伟达A100单卡性能的1.58倍。

当前,IT领域国际市场动荡,有越来越多的高端产品被禁售,行业内急需同类产品进行补充。从壁仞科技的GPU芯片BR104可以看到,国内GPU发展速度之快令人瞠目结舌,也为AI服务器国产化开辟了一条新路径。

模拟实战的MLPerf测试

前文我们也提到了MLPerf的测试极具实战意义。其中RetinaNet是深度学习中目标物体检测的一项重要应用,此次测试基于谷歌最新发布的数据集OpenImages-v6来进行。

该项测试可以广泛应用到智慧交通中,主要是在图像或视频中查找真实世界对象的实例,例如车辆、人物、动物、自行车和建筑物,并在每个对象周围指定一个边界框。

在具体应用中,可以通过摄像头采集公路上图像、视频并进行分析,根据路段的车流量,调整红绿灯配时策略,进而提升交通效率。同时还可通过视觉算法,识别交通事故、危险运输车辆、违章驾驶、套牌车追踪。

另外,还可为自动驾驶提供道路、车辆、行人及标志位检测识别。可以说实用范围非常广。

在此次测试中,浪潮NF5468M6每秒完成了1.3万张图片的目标提取任务。如果这些图片是汽车车牌的话,五一黄金周期间进出北京的车辆日均292.20万辆,那么它可以在3分钟内完成所有进出京车辆的识别处理,效率惊人。

另外一项测试是3d-unet-99.9,这是基于神经网络的生物医学图像分割,主要是对复杂图片的识别。浪潮NF5468M6的成绩为每秒钟完成75.06张3D医疗影像分割。

此次测试是在KiTS19数据集上使用深度学习UNet-3D进行推理训练。生物医学影像(biomedical images)中的肾脏病理影像,平均每张包含几十亿像素,相当于上万张普通CT片子。一般情况下肾脏专科医生平均需要10-30分钟来评估1张病理图像中的肾小球病变状况,并估算肾小球内不同细胞的数量。

通过AI可以辅助医生对图片进行病理识别,每秒75张的效率将大大缩短患者的就诊时间。

优化,考验厂商的硬实力

每次的MLPerf榜单公布,都会有惊喜出现,这次也不例外!在最受关注的固定赛道全部30项任务中,浪潮AI服务器NF5468M6获得19项最高成绩,其中在数据中心16项任务中斩获12项冠军,边缘14项任务中获得7项冠军,同时刷新了11项性能记录,并将BERT、3D U-Net等重要任务的性能提升约100%。

在本次MLPerf评测中,依托浪潮AI服务器的优化,通过壁仞科技GPU芯片硬件架构与BIRENSUPA软件栈的创新设计,在数据中心的自然语言处理(BERT)和图像识别(ResNet50)这两项最重要的AI任务中,取得了8卡和4卡整机的全球最佳性能。

同时大幅打破相应性能世界纪录,其中8卡整机的Bert性能高达22133次处理每秒,是主流同类国际高端GPU 8卡整机Bert性能的170%。

在很多互联网企业的项目中可以看到,优化前与优化后的效率差距巨大。在之前的MLPerf测试中经常可以看到配置相同的服务器,但它们的成绩却千差万别,其实这就在考验服务器厂商的调教及优化能力。

从ISC、SC、大学生超级计算机竞赛(ASC)到现在的MLPerf,浪潮在各种赛事中屡屡斩获大奖,并积累了大量软硬件优化经验。

硬件架构优化方面,通过JBOG纵向扩展方案,使得浪潮NF5468M6J服务器实现了单机搭载24颗GPU的突破。此外,浪潮针对高负载多GPU协同任务调度以及NUMA节点与GPU之间的数据传输性能进行了深度优化,实现了CPU和GPU的利用率线性扩展、多个任务并发场景同步运行,使得性能大幅提升。

软件方面,通过先后10次参与MLPerf,浪潮总结出了多套优化方案,并不断地刷新着性能纪录。浪潮提出的ResNet收敛性优化方案,在ImageNet数据集上,仅使用85%的原迭代步数就达到了目标精度,将MLPerf训练性能记录提升了15%。在MLPerf推理中使用自研卷积合并算法的plugin算子方案,优化后算法性能从原算法123TOPS提升到141TOPS,性能提升达14.6%。

同时,浪潮还将多套优化方案分享至MLCommons社区,并被参赛厂商广泛使用,将参赛成绩普遍提升至一个新的阶段。


IDC数据显示,浪潮在中国人工智能服务器连续5年市场保持第一,份额超过50%。在全球人工智能服务器市场保持第一,份额超过20%。

多元高效、绿色低碳的算力基础设施,已成为浪潮信息创新的发力方向。一些大规模的应用越来越典型,这种应用对原有的服务器技术、设计、商业模式带来了挑战。因此,创新依然是未来AI服务器发展的重点,从国产计算芯片刷榜到单机搭载24颗GPU,我们看到了浪潮在创新之路上的努力。

在十四五规划中,人工智能将成为重点赋予更多应用场景,智能制造、普惠金融、智慧医疗、智能交通、环境治理、水务、气象等等都将融入AI。对于国内服务器厂商而言,构建起强大的AI服务器阵营才是关键,浪潮也正在这个历史变革阶段以产品为动能跨步上前,引领行业走向未来。

(0)

本文由 计算杂谈 作者:云中子 发表,转载请注明来源!

关键词:
LensNews

热评文章

发表评论