基础架构

高性能计算在高校科研领域的深度实践

LensNews

“纸上得来终觉浅,绝知此事要躬行。”——陆游

治学在于“躬行”,求知离不开实践,穿越千年,这个道理不曾改变。而今高校教育亦是如此,在寻求众多高新技术领域创新时,高性能计算(HPC)提供实践的绝佳途径。

高校与HPC早已密不可分

两年前,笔者曾到深圳某知名大学去采访,当时一位副校长讲述了该校的高性能计算发展历程。该学校师资力量雄厚,每年发布的论文数量已经比肩清华、北大,在谈到如何吸引到众多来自全球高校的师资时,副校长表示:当前很多教授所关注的首要重点并不是薪资,而是自己未来的发展及科研成果。

举例来说,某教授在国外高校中一直专注于生物基因方面研究,需要长期使用学校内的HPC资源,聘请他回国的首要条件是校方具备独立的HPC资源,这样他才能够持续进行研究,并有希望取得更多成果。

在当地政府和教育部的支持下,这所大学顺利升级了HPC系统,其性能在国内高校中名列前茅,甚至远远强于国外很多高校,帮助各系师生完成了众多科研项目,在他看来:HPC与高校早已密不可分

而今回首20年前,那时我国高校的HPC资源明显落后于国外,很多科研项目无法顺利完成。但近10年来,国内高校HPC的发展步伐加快,迅速追平甚至超越了国外,为我们科技兴国之路,打下了坚实的基础。而快速发展的背后,则得益于国家对科技创新的重视,推动国内IT厂商的崛起!

在企业级IT领域,新华三的发展速度绝对名列前茅。熟悉硬件的朋友都清楚,新华三的技术实力非常强大,拥有众多业界领先的创新技术,具备实现全栈智能的能力。

新华三高性能计算解决方案以云化容器、融合AI和异构加速等为特征,通过软硬融合的方式,为广大用户带来极致的算力和计算密度,充分满足AI融合和业务云化的实践需要。

全栈智能,为HPC构筑新大脑

支撑全栈智能的重要部分就是基础架构,能够把硬件真正做好的难度非常高,但这恰恰是新华三的核心优势。

新华三拥有业界最全的算力组合,覆盖了异构计算、高可用计算、弹性计算等在内的多种计算场景,可根据客户需求提供最优的产品和方案。在异构计算方面,新华三具有自研的H3C UniServer R5300/R5500,在高可用计算新华三有HPE Superdome Flex,以及一直保持市场领先地位的刀片服务器。这些都是在中国乃至国际市场中久经考验的经典产品,使新华三在硬件方面无论是起点还是传承,都要强于同类产品。

以H3C UniServer R5500 G5为例,前者能够以NVSwitch的方式实现8块80G A100 GPU全互联,在超大规模训练场景下性能比40G A100最高提升200%。并可以支持多实例GPU灵活切分GPU资源,来应对不同业务;也可以将多台服务器组成集群进行训练、推理,让AI资源利用率最高提升7倍,AI架构部署复杂度降低60%。

高性能计算在高校科研领域的深度实践

H3C UniServer R5300/R5500 G5服务器

一直以来,刀片服务器都是新华三的重磅级产品,该系列也是连续数个季度保持刀片服务器市场第一。作为新华三全栈智能的重要组成部分,既有经典传奇HPE BladeSystem c7000刀片服务器,又有H3C UniServer B16000塑合智能刀片这样的产品,凭借节能高密度、稳定可靠、支持云环境下快速扩充以及省时省力的分级运维四大特征,能够轻松应对各种应用场景,当然也包括高性能计算。

高性能计算在高校科研领域的深度实践

H3C UniServer B16000 G5刀片服务器

高性能计算在高校科研领域的深度实践

在高性能计算领域,我们经常可以听到有关胖节点和瘦节点的介绍。胖节点适用于对内存、处理性能要求高且不适合跨节点并行计算的任务,单节点性能强劲;而瘦节点则需要软件支持将任务进行分拆处理,更加适合跨节点分布式。它们有着各自的优势,适合不同的计算任务负载。

高性能计算在高校科研领域的深度实践

HPE Superdome Flex 280

面对拥有海量数据的大型工作负载,新华三HPE Superdome Flex 280可以支持最高32颗英特尔至强处理器,拥有48TB共享内存,并且融合了GPU,拥有当前业界最高的八路单机随机浮点计算能力,在推理和AI训练方面优势明显。矩阵式互联架构辅以100G/200G高速传输,将性能发挥极致。

智能时代,把复杂管理交给AI

一套强大的高性能计算系统,除了强大的计算平台之外,还需要有存储和网络的密切配合,三者缺一不可。

存储方面,新华三也同样拥有全栈的阵营,从最新发布的集中式存储Alletra,分布式全闪存储 X10828到Primera ,Nimble以及3PAR,围绕存储各个需求层面上新华三存储都有全面产品支持,并且还为其融入了智能化管理,极致速度和效率,为云而生的能力化繁为简,给用户带来即服务使用体验。

网络方面,新华三提出了智能联接战略,并认为,未来网络将更加敏捷、智能、云化,会变成可以感知变化、敏捷调优、高效管控并使能上层业务的“联接”。为赋能行业智能联接落地,新华三提供了一系列产品、技术和解决方案,致力于帮助客户实现业务和运营的智能化变革,构建智能、融合、极简、可信、超宽的联接能力。

基于上述基础架构平台所构建的高性能计算方案愈发强大,但值得关注的是,随着处理器核心增多、内存容量激增、存储容量爆棚以及更高速度的网络,使得运维管理成为了新痛点。如何能够解决这些难题呢?答案当然是AI!

高性能计算在高校科研领域的深度实践

在计算管理平台层面,新华三集团通过整合HPC、AI的平台底座,拉通算力孤岛、数据孤岛,打造出了融合的高性能计算解决方案:傲飞高性能计算管理平台。它能够进一步实现算力统一、数据统一以及统一的调度分配,让业务系统得以快速落成,帮助运维管理水平有限的教育领域的用户灵活驾驭人工智能和高性能计算的应用。

新华三傲飞高性能计算管理平台实现了HPC与AI计算的完美融合,支持二者之间的资源共享,统一的作业调度让实际操作更加简便。据新华三官方资料显示,傲飞平台能够将调度效率提升32%,并内置作业模板,实现作业模板化,以及自发现与自动化部署。

那么,作业模板化能够给高校用户带来哪些便捷呢?笔者曾经采访过一位高校教授,据他介绍:我们曾经做过一个项目,从一个超大型数据库中筛选出符合条件的数据,然后基于这些数据让每位同学做不同方向的研究。由于数据库过于庞大,每次初筛都需要超过6小时才能完成,起初每位同学都要经历这一漫长过程,耗时又耗力。

后来教授通过软件将初筛结果建立成模板,之后同学们直接调用模板进行操作就可以了,效率大幅提升,这就是模板化带来的优势。新华三傲飞平台的特点之一也恰恰在于此。

另外,容器化架构和平滑扩展也是傲飞平台的重要特点,它能够将单集群规模扩展至4096个节点,并支持优化计算资源分配与回收;可以通过权限设定对数据进行共享与独立操作,更加适合高校中多用户应用场景。

对于用户而言,一套完善、高效的管理系统,在实战应用方面将能带来更大收益。

实战科研应用

一直以来,工程领域都重度依赖于高性能计算,在其强大计算力支持下,可以进行各种模拟操作。

高性能计算的“重体力”作业都有哪些?相信很多人第一反应就是基因测序。

基因测序有多难?一次全基因组检测,有200GB原始数据,通常一个文件做10次测序,至少产生4TB数据,并且数据压缩率极低。当前扰乱全球的新冠肺炎2019-nCoV,每个样本数据量1.2~5GB,共有上百个样本需要进行测序。

要知道,人类首次完成基因测序动用了当时全球的计算资源,耗时10年才完成。而随着计算性能的大幅提升,基因测序也从之前的以年为单位,变成了现在的几个小时即可完成。

在西安的一所高校医院中,师生们需要对基因组测序进行研究,新华三针对这种对计算环境要求较高的场景,提供了GPU+胖节点+IB网络等完整的高性能计算解决方案。

该方案带来了120%基因测试应用所需的计算性能提升及PB级超大基因库容量拓展,帮助客户将数天的基因研究计算时间缩短到了几个小时甚至更短。

除基因测序外,高性能计算在其他科研教育领域也发挥着巨大的作用。在山东某大学,土木工程学院教授长期从事地震工程领域的基础理论及应用研究,并主持多项重大国际项目,提出了国际认同的地震动衰减关系,并被美国、日本、加勒比海、东南亚和南太平洋等多个国家和地区广泛应用,该项目主要用于开展地震预警、地震危险性分析等方面的科学教学及研究。

从实际应用角度来看,地震相关分析研究需要消耗大量的计算资源,因此该校定制了一套由:24路HPE Superdome Flex和8台HPE DL360 ProLiant Gen10及100G EDR交换机主攻高性能计算,另外通过1台HPE ProLiant DL380 Gen10监控节点并管理登录信息,由此构建出了一套全新的高性能计算平台。其特点在于整体计算性能与效率都非常高,帮助该学校提升了整体科研实力。


新时代下各种创新应用破茧而出,用户需求变得日趋复杂,大家也不再单纯地追求HPC高性能,而是需要在保证性能的同时,更加智能、高效与灵活。

在“2021 NAVIGATE 领航者峰会”上,基于云智原生战略,新华三发布了“数字大脑2021”,它能够在包括HPC在内的各个领域帮助用户构建与生俱来的云和智能的架构,从而适应敏捷高效的应用需求。

现如今,高校与HPC早已密不可分,他们正在通过一个又一个科研成果来仰望天空,把各种先进科技带到我们身边。

(0)

本文由 计算杂谈 作者:云中子 发表,转载请注明来源!

关键词:
LensNews

热评文章

发表评论