Data Center concept

推进数据中心可持续发展

高能效始终是 AMD 在产品设计上的一大核心指导原则,与 AMD 技术发展规划与产品战略深度契合。十余年来,我们坚持制定并公开具有时限性的能效目标,致力于大幅提升各种产品的能效表现,而且始终如期达到甚至超越所制定的目标。

随着 AI 部署规模持续扩展,我们加速设计打造覆盖全面的端到端 AI 系统,这使得对创新型能效解决方案的需求日益增长,而这一需求在数据中心或许更为迫切。 

AMD 30x25 能效目标

我们的目标是,从 2020 年到 2025 年,将 AMD 处理器和加速器的能效提高 30 倍,全面赋能服务器的 AI 模型训练与高性能计算。1 这些关键且不断发展的计算领域面临着极为严苛的工作负载挑战。根据这些计算领域的全球能源消耗来衡量,这一目标是 2015-2020 年行业能效提升趋势的 2.5 倍以上。2

我们的 30 倍能效提升目标相当于从 2020 年到 2025 年将计算的能耗减少 97%。如果全球所有的 AI 和高性能计算服务器节点都能实现相似的提升,相对于基准趋势,到 2025 年可节省数十亿千瓦时的电力。

截至 2025 年中期,通过采用四个 AMD Instinct MI355X GPU 与一个第五代 AMD EPYC(霄龙)CPU 的配置,我们实现了较基准系统 38 倍3 的性能提升。我们的进度报告采用经过著名计算能效研究专家 Jonathan Koomey 博士验证的权威测量方法2

goal pathways chart

AMD AI 系统 20 倍机架级能效提升目标

随着工作负载的不断扩展与需求的持续攀升,节点级能源效率提升已难以跟上发展步伐。系统级优化才是实现能效显著提升的关键所在。正因如此,我们设定了一个极具突破性的新目标:以 2024 年为基准年,到 2030 年,将 AI 训练与推理场景下的机架级能效提升 20 倍4

我们坚信,从 2024 年至 2030 年,我们可以成功将 AI 训练与推理场景下的机架级能效提升 20 倍,提升幅度是 2018 至 2025 年行业平均能效提升水平的近 3 倍之多。这一目标基于我们的全新设计与发展规划而设定,体现了整个机架层面的性能功耗比优化,涵盖 CPU、GPU、内存、网络、存储以及软硬件协同设计。这种从节点级到机架级的能效优化跃迁,由我们快速演进的端到端 AI 战略所驱动,现已成为以更可持续的方式推进数据中心 AI 部署扩展的关键所在。

这一 20 倍能效提升目标植根于我们可直接把控的核心要素:硬件与系统级设计。但是我们深知,随着软件开发人员持续探索更智能的算法,并以当前速度推进低精度计算方法创新,在目标周期内,所交付 AI 模型的能源效率有望实现更大幅度的提升,最高可达 5 倍。若将这些因素纳入考量,到 2030 年,训练标准 AI 模型时的整体能效可提升高达 100 倍。5

globe

环境效益

机架级能效实现 20 倍提升,达到此前行业平均能效提升水平的近 3 倍之多,具有重大意义。以 2025 年典型 AI 模型训练为基准测试场景,预计能够实现以下方面的提升:6

  • 机架高度整合,从超过 275 个机架缩减至不足 1 个满负载机架
  • 运营耗电量削减超 95%
  • 模型训练产生的二氧化碳排放量从约 3,000 公吨降至 100 公吨

上述预测基于 AMD 芯片与系统设计规划,以及经过能效专家 Jonathan Koomey 博士验证的测量方法。

行业观点

成功案例

LUMI

芬兰的 LUMI 超级计算机正为环境可持续发展实践树立榜样,帮助人们解决一些迫在眉睫的气候相关问题。

支持资源

附注
  1. 在四加速器 CPU 主机配置中采用适合 AI 训练和高性能计算的高性能 CPU 和 GPU 加速器。目标计算基于标准性能指标得出的性能分数(高性能计算:具有 4k 矩阵大小的 Linpack DGEMM kernel FLOPS;AI 训练:在 4k 矩阵上运行的专用低精度训练浮点数学运算 GEMM kernel),除以一个典型的加速计算节点(包括 CPU 主机 + 内存以及 4 个 GPU 加速器)的额定功耗。
  2. 基于 2015-2020 年能效提升行业趋势和 2025 年数据中心能耗。
  3. EPYC-030B:AMD 在四加速器 CPU 主机配置中对适合 AI 训练和高性能计算的高性能 AMD CPU 和 GPU 加速器进行计算节点性能功耗比测量。
    • 高性能计算工作负载的性能基于具有 4k 矩阵大小的 Linpack DGEMM kernel FLOPS。AI 训练的性能基于在 4k 矩阵上运行的专用低精度训练浮点数学运算 GEMM kernel。
    • 功耗基于一个典型的加速计算节点(包括 CPU 主机 + 内存以及 4 个 GPU 加速器)的热设计功耗 (TDP)。

    为了使该目标与全球能源使用量密切相关,AMD 与 Koomey Analytics 合作评估可用的研究和数据,其中包括 GPU 高性能计算 (HPC) 和机器学习 (ML) 等特定领域数据中心能源使用效率 (PUE)。AMD CPU 和 GPU 节点功耗包含特定领域使用(活动与空闲)百分比,并乘以 PUE 来确定实际总能耗,从而能够计算出性能功耗比。

    能耗基准采用 2015-2020 年数据中观察到的行业单位作业能耗提升率,并根据这一变化率推测至 2025 年。AMD 目标趋势线(表 1)显示到 2025 年实现能效提升 30 倍目标所需的指数级提升。AMD 实际发布产品(表 2)是表 1 AMD 目标能效提升的来源。

    2020 年到 2025 年各领域单位作业能耗提升值是由全球预计销量加权得出(根据 IDC - Q1 2021 TrackerHyperion- Q4 2020 Tracker Hyperion 高性能计算市场分析,2021 年 4 月)。将这些销量换算到机器学习训练和高性能计算市场,会得出如下表 3 所示的节点量。然后将这些节点量乘以 2025 年各计算领域的典型能源消耗 (TEC)(表 4),得出一个有意义的全球实际能源使用提升的总体指标。


    表 1:预计到 2025 年的能效数据汇总

     

    2020

    2021

    2022

    2023

    2024

    2025

    目标趋势线

    1.00

    1.97

    3.98

    7.70

    15.20

    30.00

    AMD 目标状态(能耗加权后的性能功耗比)

    1.00

    3.90

    6.79

    13.49

    28.29

    37.85

     

    表 2:AMD 产品

    2020

    2021

    2022

    2023

    2024

    2025

    EPYC(霄龙)第一代 CPU + M50 GPU

    EPYC(霄龙)第二代 CPU + MI100 GPU

    EPYC(霄龙)第三代 CPU + MI250 GPU

    MI300A APU(搭载 AMD CDNA 3 计算单元的第四代 AMD EPYC(霄龙)CPU)

    EPYC(霄龙)第五代 CPU + MI300X GPU

    EPYC(霄龙)第五代 CPU + MI355X GPU

    *AMD 产品受最新软件支持,包括 AMD ROCm

     

    表 3:预测销量(百万/年)

     

    2020

    2021

    2022

    2023

    2024

    2025

    高性能计算 GPU 节点销量

    0.05

    0.06

    0.07

    0.09

    0.10

    0.12

    机器学习 GPU 节点销量

    0.09

    0.10

    0.12

    0.14

    0.17

    0.20

     

    表 4:2025 年基准情景所售产品用电量,用于加权能效指数(TWh/年)

     

    2025

    基准高性能计算

    4.49

    基准机器学习

    29.79

    总体基准

    34.28

    *随着高性能计算和机器学习计算节点的功能不断发展,我们将自 2025 年起,在原有预测的基础上每年更新全球能耗估算数据,同时将 AI 发展给机器学习性能指标带来的权重提升纳入其中。

  4. AMD 基于发展路线图规划了 2024 至 2030 年间每年针对 AI 训练/推理的先进机架设计方案,同时通过深度剖析行业发展趋势,为机架设计方案与技术迭代优化提供支持,确保规划的目标与行业发展轨迹高度契合。2024 年机架基于 MI300X 节点,充分体现了 2024/2025 年间广泛采用的 AI 部署实践。2030 年机架则基于 AMD 2030 年系统与芯片设计规划。在每种机架设计方案中,AMD 均指定了 GPU、CPU、DRAM、存储、散热及通信等组件,并定义了机架功耗与性能特性。能效计算不包括机架外部风冷/水冷系统的功耗,但包含机架内部风扇及泵的功耗。

      FLOPS HBM 带宽 扩展带宽
    培训 70.0% 10.0% 20.0%
    推理 45.0% 32.5% 22.5%

    首先,每个机架的性能和功耗共同揭示了训练和推理任务中性能功耗比随时间变化的趋势。然后,将训练和推理的进展指数按 50:50 的权重进行加权,从而得出 AMD 到 2030 年预计进展(20 倍)的最终估算值。该性能数据基于以下假设:AI 模型在训练和推理过程中,将持续通过采用更低精度的数学格式取得进展,这将同时带来有效 FLOPS 的增加以及每 FLOP 所需带宽的减少。

    我们委托 Koomey 博士负责分析计算性能和功耗方面的历史行业数据以及 AMD 的预测数据。随后,我们与 Koomey 博士合作,共同开发了一套目标方法论,该方法论与业界公认的能效评估最佳实践保持一致。该方法论使我们能够将自身目标与行业的历史成果进行比较,持续追踪我们实现该目标的进展,并估算在实际 AI 部署中达成目标所带来的环境效益。

  5. 针对 MMLU、HellaSwag 和 ARC Challenge 等模型基准测试所得到的准确率/参数值进行了回归分析,结果表明,在目标期内,通过混合专家模型和状态空间模型等新型算法技术可将机器学习模型架构的能源效率提升约 5 倍。一篇学术论文中引用了类似数据:Patterson, D., J. Gonzalez, U. Hölzle, Q. Le, C. Liang, L. M. Munguia, D. Rothchild, D. R. So, M. Texier, and J. Dean.2022.《The Carbon Footprint of Machine Learning Training Will Plateau, Then Shrink》。Computer. vol. 55, no. 7. pp. 18-28.因此,假设按当前速度持续推进创新,通过硬件与系统设计的 20 倍能效提升目标,再加上软件与算法发展所带来的 5 倍增益,到 2030 年总计可实现 100 倍的能效提升。
  6. AMD 基于 EPOCH AI 数据 (https://epoch.ai) 估算了训练一个知名的标准 AI 模型所需的机架数量。在此计算中,我们基于 EPOCH AI 数据做出如下假设:训练一个标准模型需要 10^25 次浮点运算(基于 2025 年数据的中值),训练周期为 1 个月。所需的 FLOPS = 10^25 FLOPS/(秒/月)/模型 FLOPS 利用率 (MFU) = 10^25/(2.6298*10^6)/0.6。机架数量 = 所需的 FLOPS/(2024 年至 2030 年单机架 FLOPS)。根据 AMD 产品规划进行计算性能估算,2025 年使用 MI300X 产品对一个标准模型进行为期一个月的训练,大约需要 276 个机架(假设单机架具备 22.656 PFLOPS 算力且 MFU 为 60%);而在 2030 年,按照 AMD 规划的机架配置,训练同一模型所需的满负载机架数量还不足 1 个。上述计算结果表明,在这六年期间,训练同一模型所需的机架数量减少了 276 倍以上。在 2024 年机架配置下,MI300X 系统全面训练指定的 2025 年 AI 模型所消耗的电量约为 7 吉瓦时 (GWh),而 2030 年的全新 AMD 系统训练同一模型所消耗的电量约为 350 兆瓦时 (MWh),降幅高达 95%。此外,AMD 还利用了国际能源署 (IEA) 在《2024 年世界能源展望》报告 [https://www.iea.org/reports/world-energy-outlook-2024] 中发布的平均电力(千瓦时/kWh)碳强度数据。IEA 在既定政策情景分析中给出了 2023 年和 2030 年的碳强度值。我们计算了 2023 年至 2030 年碳强度的年均变化量,并将其应用于 2023 年的碳强度值,据此得出 2024 年碳强度为 434 克二氧化碳/千瓦时 (CO₂ g/kWh),而 2030 年碳强度为 312 CO₂ g/kWh。2024 年基准机架配置下,7 GWh 耗电量乘以 434 CO₂ g/kWh 的碳强度,二氧化碳排放量约为 3000 公吨;而在 2030 年机架配置下,350 MWh 耗电量乘以 312 CO₂ g/kWh 的碳强度,二氧化碳排放量约为 100 公吨。