AMD 推进 AI 2025:全面的 AI 解决方案和产品路线图

amd-advancing-ai-2025-helios-mi500x-verano-mi400-migovi

AMD 不仅开发单独的硬件和软件,还致力于提供全面、完整的 AI 解决方案。

除了从芯片级到完整机架规模系统的全面AI解决方案外,AMD还为未来几年勾勒出了清晰而雄心勃勃的产品发展路线图。

机架规模人工智能系统“Helios”

在 Advancing AI 2025 大会上 ,AMD 预览了其下一代机架式 AI 系统,代号为“Helios”,这是 AMD 基于开放标准提供集成高性能 AI 解决方案战略的关键部分。

amd-advancing-ai-2025-helios-mi500x-verano-mi400-migovi

“Helios” 的关键组件包括:AMD Instinct MI400 系列 GPU(一个新的 GPU 系列,预计在混合专家 (MoE) 模型上提供比上一代高 10 倍的推理性能)、AMD EPYC “Venice” CPU(基于 Zen 6 架构,提供卓越的处理能力和带宽以支持大型 GPU 集群)以及 AMD Pensando “Vulcano” NIC(继 Pollara 之后的下一代网卡,支持更高的连接速度,例如提到的针对 2027 年解决方案的 800GbE)。

amd-advancing-ai-2025-helios-mi500x-verano-mi400-migovi

“Helios”设计为一个统一的系统,支持紧密连接的扩展域,能够集成多达 72 个 MI400 系列 GPU。该系统提供高达 260 TB/s 的扩展带宽,并支持超级加速器链路 (UALink) 高速互连技术。UALink 是由科技公司联盟开发的开放互连标准,旨在为 AI 和 HPC 系统中的加速器提供高速高效的连接接口。

在 Helios 推出之前,AMD 还部署了基于 Instinct MI350 系列 GPU、第五代 EPYC CPU 和 Pollara NIC 的机架式系统。这些系统已开始由 Oracle 云基础设施 (OCI) 等超大规模提供商部署,预计将在 2025 年下半年得到更广泛的应用。

AMD Verano CPU 和 GPU Instinct MI500X

AMD 公布了其 AI 产品路线图,其 CPU、GPU 和机架级 AI 解决方案将每年更新一次。2027 年计划包括 EPYC “Verano” CPU、Instinct MI500X 系列 GPU 以及下一代机架级 AI 系统。Verano 是新一代服务器 CPU,是 EPYC “Venice” 的继任者,基于 Zen 7 架构打造,有望在性能和能效方面实现新的提升。同时,Instinct MI500X 系列是 MI400 系列的下一代产品,在 AI 计算领域带来更高性能。至于 Helios 之后的下一代机架级 AI 系统,将采用 Verano CPU、MI500X GPU 和支持 800 GbE 速度的 Pensando “Vulcano” 网卡。

amd-advancing-ai-2025-helios-mi500x-verano-mi400-migovi

预计到2027年,机架级系统将拥有更多“计算刀片”,从而提高每个机架的性能密度。这表明AMD的目标是提供具有极强计算能力的解决方案,以与市场上的顶级系统竞争。

“Verano” CPU 和 MI500X GPU 的 2027 年生产可能与台积电计划于 2026 年底推出的 A16(1.6 纳米)工艺相吻合。A16 工艺预计将采用背面供电技术——该技术对于需要高功率的高性能数据中心 CPU 和 GPU 特别有用。

amd-advancing-ai-2025-helios-mi500x-verano-mi400-migovi

最近,AMD 发布了 Instinct MI400 系列 GPU(预计 2026 年发布)的开发路线图,并进行了新的改进。MI400 系列将基于 CDNA-Next 架构构建——这是 CDNA 开发的下一步。MI400 最显著的亮点之一是改用 HBM4 显存,容量高达 432 GB。这是一项极其重要的升级,能够处理日益复杂且需要更多内存的 AI 模型。内存带宽预计也将飙升至 19.6 TB/s,是 MI355X 的两倍多。AMD 预计,MI400 系列在混合专家 (MoE) 模型上的推理性能将比 MI300X 一代高出 10 倍。FP4 计算性能预计达到 40 PFLOPS,FP8 计算性能预计达到 20 PFLOPS。 MI400系列将成为“Helios”机架式AI系统的“心脏”。

致力于提高能源效率

amd-advancing-ai-2025-helios-mi500x-verano-mi400-migovi

AMD 致力于提升 AI 解决方案的能效。Instinct MI350 系列 GPU 已超越 AMD 此前设定的五年目标,即将 AI 和 HPC 训练节点的能效提升 30 倍,较 2020 年基准提升 38 倍。AMD 还为 2030 年设定了雄心勃勃的新目标:将机架规模能效提升 20 倍(以 2024 年为基准)。AMD 表示,凭借这一改进,目前需要超过 275 个机架进行训练的典型 AI 模型,到 2030 年,只需不到 1 个充分利用的机架即可完成训练,更重要的是,功耗可降低 95%。

amd-advancing-ai-2025-helios-mi500x-verano-mi400-migovi

能效目标解决了人工智能行业日益紧迫的问题:人工智能数据中心的高功耗带来的巨大运营成本及其负面环境影响。显著提升能效将降低客户的总拥有成本 (TCO),使更多组织和企业能够更容易地使用人工智能技术,并解决人们对人工智能发展可持续性的担忧。这可能成为 AMD 的重要竞争优势,尤其是在电力成本高昂或环境法规日益严格的地区。

开放生态系统战略

AMD 战略的核心是构建一个“开放的 AI 生态系统”,该生态系统基于广为接受的行业标准,并与多元化的软硬件合作伙伴网络紧密合作。这包括为硬件提供开放接口(例如支持加速器的 UALink 连接标准)、开发强大的开源软件平台 (  ROCm  ),以及设计符合开放标准的机架级解决方案。

amd-advancing-ai-2025-helios-mi500x-verano-mi400-migovi

这种方法的优势众多。首先,它有可能吸引更广泛的开发者和研究人员群体,他们通常更喜欢开放的工具和平台,以便自由定制和创新。其次,它可以帮助客户避免供应商锁定,从而赋予他们更大的灵活性和议价能力。第三,开放的生态系统通常通过知识共享、代码共享和多方协作来促进更快的创新。这对于那些希望构建和深度定制自己的AI解决方案,而不是仅仅使用“盒装”产品的公司尤其具有吸引力。

对AI硬件市场的影响

来自 AMD 的竞争加剧预计将对整个 AI 硬件市场产生积极影响。最明显的好处之一是 AI 硬件有望变得更加经济实惠,使企业和最终用户更容易获得这项技术。随着供应商和解决方案的选择增多,客户将能够更好地找到最符合自身需求和预算的产品。

amd-advancing-ai-2025-helios-mi500x-verano-mi400-migovi

此外,来自AMD的竞争压力也将推动整个AI行业更快、更积极地创新。企业必须不断改进产品、优化性能并降低成本,才能保持竞争优势。这最终将惠及最终用户。开发更具成本壁垒和更高能效的AI解决方案,还可以将AI的应用扩展到新兴行业和发展中国家,这些国家的成本和基础设施此前都很高。

战略合作伙伴的作用

amd-advancing-ai-2025-helios-mi500x-verano-mi400-migovi

在构建开放竞争的AI生态系统中,战略合作伙伴的作用至关重要。Meta、OpenAI、微软、甲骨文和xAI等AI行业巨头纷纷参与并支持“Advancing AI 2025”活动,展现了对AMD解决方案日益增长的信任。

尤其是甲骨文云基础设施 (OCI) 宣布将为泽塔级 AI 集群(每秒可执行 1021 次 浮点 运算)提供多达 131,072 个 AMD Instinct MI355X GPU,这是一个非常积极的信号。如此大规模的合作不仅为 AMD 带来了重要的收入来源,还有助于从部署超大规模真实 AI 工作负载中收集宝贵的反馈。这些反馈对于改进硬件产品和优化 ROCm 软件平台将非常有用,同时还能巩固 AMD 在企业 AI 市场和云服务提供商中的声誉和地位。

分享你的想法 ^^

Nhận định

了解 migovi 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读