Meta/微软都在抢购中！开放+高密度的AMD MI350系列AI GPU问世

云中子基础架构, 计算 2025年6月13日

1.02W 0 0

AMD 2025年第一季度财报出炉：单季营收同比飙升36%至74亿美元，其中数据中心AI业务以37亿美元营收、57%同比增速强势领跑。这份漂亮成绩单的背后，EPYC CPU与Instinct GPU的销量狂潮正揭开一个真相——在万亿参数大模型主导的AI基础设施竞赛中，算力基座已从技术底座升维至重构产业格局的战略支点。

紧随财报释放的强信号，AMD于当地时间6月12日在美国加州圣何塞召开的Advancing AI 2025大会上，以全栈式AI策略为这一战略支点注入实体化路径。会上AMD展示了从CPU、GPU、网卡到ROCm 软件引擎的全栈式AI策略，进一步助燃企业AI基础设施更迭。

苏姿丰表示，去年预测AI加速器数据集市场将年增超过60%，至2020年达到5000亿美元，如今看来这一数字将更高，预计到2028年将超过5000亿美元。更重要的是，推理将成为推动AI发展的主要动力，其市场预计将以每年超80%的速度增长，成为AI计算的最大驱动力。高性能量子计算将占据市场大部分份额，因其提供了模型持续演进所需的灵活性和编程能力。

为了提供全方位的AI解决方案，AMD在过去几年里显著增加了投资，通过内部研发和战略收购加强了其在AI领域的实力。

在AI和高性能计算领域，Instinct加速卡的市场份额持续增长。当前，Instinct MI250和MI300等产品，已广泛应用于大规模的内部云部署，包括微软，Meta等企业。

性能新巅峰：AMD Instinct MI350系列

此次大会的主角之一就是基于AMD CDNA 4架构打造的AMD Instinct MI350X和MI355X GPU加速卡，它们分别适用于风冷与液冷环境。MI350系列实现 AI计算性能较前代提升4倍，推理性能跃升35倍，为各行业变革性AI解决方案铺平道路。该系列GPU提供领先的内存容量（288GB HBM3E）和带宽（高达8TB/s），确保推理和训练任务均具备卓越的吞吐量。

具体来看，AMD Instinct MI350系列GPU通过革命性架构设计实现性能跃迁。其核心采用Chiplet分模块架构：每颗GPU集成4组XCD计算芯片，每组含8个CU计算单元与4MB二级缓存，通过全局资源调度器实现128个CU的协同工作；双IOD芯片则整合128通道HBM3E内存控制器（支持8颗12Hi堆叠内存，总容量288GB）与256MB Infinity Cache，借助第四代Infinity Fabric总线实现1075GB/s双向带宽。创新3D封装技术将计算、内存与互联模块垂直堆叠，配合5.5TB/s芯片间高速互联链路，构建起高密度、低延迟的算力矩阵。

AMD Instinct MI350系列的8TB/s总内存带宽较前代提升超50%，单位CU带宽大幅提升；288GB HBM3E内存可承载万亿参数级大模型，700亿参数模型推理延迟压缩至毫秒级。

更猛的还在后面：AMD Instinct MI350系列GPU通过多卡协同构建超大规模算力集群。单节点支持八卡并行部署，总计提供2304GB HBM3E内存，FP8精度突破80.5 PFlops，FP6/FP4低精度计算更飙升至161 PFlops。

卡间通过双向带宽的Infinity Fabric通道互连，与CPU则采用128GB/s PCIe 5.0通道连接，确保数据传输零瓶颈。风冷模式支持64卡并行，液冷方案可扩展至128卡（2U-5U机架），满足超算中心多样化部署需求。

AMD Instinct MI350系列百卡级集群性能实现了指数级跃升。当128块MI350 GPU协同工作时，总内存容量达36TB，FP16/BF16精度算力飙升至644 PFlops，FP8精度达1.28 EFlops，FP6/FP4低精度计算更突破2.57 EFlops。这种性能密度足以支撑万亿参数大模型的实时训练，或同时运行数十个千亿参数模型的推理任务。

在AI模型训练的效能比拼中，AMD Instinct MI355X加速器以FP8精度下的微调训练性能，实现对英伟达竞品的显著超越：相较B200芯片性能提升10%，较GB200集群方案亦实现了效率领先。

这一数据基于Meta开源的Llama 2 70B大模型实测得出，直接印证了AMD在混合精度计算领域的架构优势与运算优化，MI355X在保持模型精度的前提下，将万亿参数模型的迭代周期缩短至英伟达方案的90%以内，为AI实验室与超算中心提供了更具性价比的算力升级路径。

时刻蜕变中的ROCm 7

作为专为AI加速设计的开放引擎，ROCm 7实现推理性能超3.5倍跃升，并深度整合FP4等低精度计算与FAv3等前沿算法，使vLLM、SGLang等开源框架性能超越闭源方案。其"零日支持"策略确保LLaMA、DeepSeek等主流模型发布即获优化，配合以周为单位的更新开发节奏，已为全球超大规模AI平台提供基础架构支撑。通过Hugging Face生态内180万个预训练模型的无缝接入，ROCm正将开源社区的创新势能转化为实际生产力。

随着AI应用从研究转向真实企业部署，ROCm也在随之演进。ROCm Enterprise AI将全栈MLOps平台推向前沿，通过用于微调、合规、部署和集成的即用型工具，实现安全、可扩展的AI。

AMD全栈式策略推动AI快速发展

随着AI Agent在各行业和场景中的广泛应用，其价值已从自动化重复劳动延伸至复杂规划、分析与创造任务的优化。AI的下一阶段发展将聚焦于连接大型语言模型与企业数据、工具及应用的深度整合，以此驱动业务、科研及产品开发的创新突破。这一进程对计算资源提出更高要求：GPU与CPU需提供更强性能与安全性，以支撑AI Agent的多步骤决策流程与跨资源访问需求。AMD通过其行业领先的技术，在GPU、CPU及网络基础设施领域构建了开放、全面且可编程的架构，确保AI Agent的高效执行与数据安全，为智能化转型奠定硬件基石。

在AI系统中，CPU的合理选择对避免性能瓶颈、提升资源利用率及整体系统效能至关重要。AMD的技术方案不仅强调硬件协同，更通过持续创新与对开放标准的支持，推动AI技术普惠化。例如，其“Zen”架构CPU与CDNA架构GPU的深度整合，可显著优化异构计算负载分配，确保从边缘到数据中心的AI部署均能实现高效能比。通过兼容主流框架与工具链，AMD正助力企业降低AI落地门槛，加速智能化应用从实验室到生产环境的转化，持续引领AI技术生态的开放演进。

据了解，全球顶级OEM厂商已量产超过35款基于AMD MI300系列平台的解决方案，助力云服务商、企业级用户及AI创新者规模化扩展GPU计算集群。目前，Meta、微软、Oracle、IBM Cloud等科技巨头正加速部署MI300加速器，以支撑其AI训练、推理及高性能计算需求，进一步验证了AMD在数据中心AI市场的技术领导力与生态渗透力。

你以为这就结束了？

等等，还有彩蛋！

这是啥？2026年将推出代号威尼斯的EPYC，256核、2nm制程，CPU到GPU带宽提升2倍，内存带宽达1.6TB/s，基本提前预定了处理器“刷分王”。

AMD Instinct MI400作为计划2026年推出的生成式AI加速器，具备FP4达40 PF、FP8为20 PF的算力，搭配432GB HBM4内存、19.6 TB/s内存带宽与300 GB/s横向扩展带宽。咋评价呢？可以说，压力已经给到了竞争对手。

又一次感受到了AMD在产品与技术方面的“霸气外露”！

AI技术变革浪潮中，AMD凭借全方位技术革新重塑了计算产业格局。从Instinct MI350系列GPU在架构、内存与能效上的突破性创新，到ROCm软件平台对开源生态的深度赋能，AMD已构建起覆盖硬件、系统与生态的完整创新链。

AI时代的基础设施，正以更简单直接的方式向企业走来。

本文由计算杂谈作者：云中子发表，转载请注明来源！

关键词：AMD

基础架构

Meta/微软都在抢购中！开放+高密度的AMD MI350系列AI GPU问世

云中子

相关文章

科创板IPO获批：优刻得将成为“公有云第一股”

戴尔科技 X 优迪生物：AI筑梦，以优越启迪未来

重磅嘉宾云集郑州-CCF HPC CHINA 2020开幕

热评文章

最赞的文章

发表评论取消回复