AMD EPYC(霄龙)处理器助力充分实现大型 GPU 投资的价值

GPU 加速器已成为现代 AI 的主力军,在训练大型复杂模型和支持高效的大规模实时推理方面表现卓越。但要充分发挥 GPU 的潜力,您需要搭配性能强大的 CPU。

为何选择 GPU 处理 AI 工作负载?

GPU 是处理多种 AI 工作负载的合适工具。

  • AI 训练:GPU 能够利用其并行处理能力,加速大型和中型模型的训练。
  • 专用 AI 部署:GPU 为大规模部署的实时推理提供所需的速度和可扩展性

CPU 优势:

对于某些工作负载,将 GPU 的强大功能与合适的 CPU 结合可显著提高 AI 效率。以下为需要考虑的重要 CPU 特性:

  • 高频率:快速高效地处理大量数据准备和后处理任务。
  • 大容量高速缓存:便于快速访问海量数据集。
  • 高内存带宽和高性能 I/O:支持 CPU 和 GPU 之间快速无缝地交换数据。
  • 高能效核心:节约功耗以供 GPU 使用,同时有助于降低整体能耗。
  • 兼容 GPU 和软件生态系统:实现性能优化、效率提升和流畅运行。
GPU System with AMD EPYC and Instinct

AMD EPYC(霄龙)9005 处理器

AMD EPYC(霄龙)9005 系列高频处理器可助您充分释放 GPU 性能,高效处理大型 AI 工作负载。选择该系列处理器作为主机 CPU,有助于确保 GPU 一直在正确的时间处理正确的数据,这对于优化 AI 工作负载吞吐量和系统效率至关重要。  AMD EPYC(霄龙)高频处理器之所以能够脱颖而出,关键在于其高核心频率和大内存容量。如需了解这些关键因素如何提高 GPU 吞吐量,请阅读此文

行业应用

基于 AMD EPYC(霄龙)CPU 的 GPU 加速器解决方案为全球最快的一些超级计算机和云实例提供支持,通过这个经过实践检验的平台,企业能够轻松优化数据驱动的工作负载并在 AI 领域实现突破性成果。

AMD EPYC(霄龙)9005 系列处理器:充分实现大型 GPU 投资价值的明智选择

CPU 在协调和同步 GPU 间的数据传输、处理内核启动开销以及管理数据准备方面发挥着关键作用。这种“指挥”功能可助力 GPU 以更高的效率运行。

借助高性能 CPU 优化 GPU 投资价值

许多 AI 工作负载受益于具有高时钟速度的 CPU,这类 CPU 通过优化数据处理、传输和并发执行来提升 GPU 性能和效率。EPYC(霄龙)9575F 是专为 AI 工作负载打造的高性能主机节点处理器,运行速度高达 5GHz。

高效部署企业 AI 解决方案

第五代 AMD EPYC(霄龙)处理器集高性能、低功耗、高效数据处理及电源管理于一身,使您的 AI 基础设施能够以峰值性能运行,同时优化能耗和成本。

AMD EPYC(霄龙)处理器助力打造高能效服务器,不仅带来出色性能,而且能够进一步降低能源成本。放心部署基于 EPYC(霄龙)处理器的高能效解决方案,全面优化您的 AI 之旅。

AMD EPYC(霄龙)9005 系列处理器中采用 AMD Infinity Power Management,不仅可以实现出色的默认性能,还能针对特定工作负载行为进行优化。

Abstract illustration with glowing blue lines

安心无忧:通过备受信赖的解决方案来部署 AI

选择基于 AMD EPYC(霄龙)CPU 的多款经过认证或验证的 GPU 加速解决方案,为 AI 工作负载提供强劲助力。

正在使用其他 GPU?如需了解基于 AMD EPYC(霄龙)CPU 的解决方案,请咨询各大平台解决方案提供商,包括 Asus、Dell、Gigabyte、HPE、Lenovo 和 Supermicro 等。

基于 AMD EPYC(霄龙)CPU 与 GPU 的云端 AI/ML 实例解决方案日益丰富。

如需了解基于 AMD EPYC(霄龙)CPU 与 GPU 的 AI/ML 工作负载实例,请咨询各大云服务提供商,包括 AWS、Azure、Google、IBM Cloud 和 OCI 等。

server room photo

资源

AMD Instinct 加速器

为应对要求严苛的 AI 工作负载提供量身定制的解决方案。

AMD EPYC(霄龙)企业 AI 解决方案简介

查找 AMD 及其合作伙伴发布的关于使用 CPU 和 GPU 进行 AI 和机器学习创新的文档

播客

来自 AMD 和行业的技术专家为您讲解服务器、云计算、AI、HPC 等热门技术主题。

附注
  1. 9xx5-013:基于官方发布的 MLPerf™ Inference v4.1 Llama2-70B-99.9 性能测试得分结果,包括服务器场景和离线场景下的结果(以“token/秒”为单位),这些结果于 2024 年 9 月 1 日检索自 https://mlcommons.org/benchmarks/inference-datacenter/ 中的以下条目:4.1-0070(预览)和 4.1.0022。MLPerf™ 名称和标识是 MLCommons Association 在美国和其他国家/地区的商标。保留所有权利。未经授权,严禁使用。如需了解更多信息,请访问 www.mlcommons.org。
  2. 9xx5-014:Llama3.1-70B 推理吞吐量测试结果基于截至 2024 年 9 月 1 日的 AMD 内部测试。Llama3.1-70B 配置:TensorRT-LLM 0.9.0,nvidia/cuda 12.5.0-devel-ubuntu22.04,FP8,输入/输出 token 配置(应用场景):[BS=1024 I/O=128/128,BS=1024 I/O=128/2048,BS=96 I/O=2048/128,BS=64 I/O=2048/2048]。结果以“token/秒”为单位。双路 AMD EPYC(霄龙)9575F   (总计 128 个核心),搭配 8 个 NVIDIA H100 80GB HBM3,1.5TB 24x64GB DDR5-6000,1.0 Gbps 3TB Micron_9300_MTFDHAL3T8TDP NVMe®,BIOS T20240805173113(Determinism=Power、SR-IOV=On),Ubuntu 22.04.3 LTS,kernel=5.15.0-117-generic(mitigations=off、cpupower frequency-set -g performance、cpupower idle-set -d 2、echo 3> /proc/syss/vm/drop_caches) I/O Token、批次大小、参照系统吞吐量、Turin 吞吐量、吞吐量提升幅度 128/128、1024、814.678、1101.966、1.353 128/2048、1024、2120.664、2331.776、1.1 2048/128、96、114.954、146.187、1.272 2048/2048、64、333.325、354.208、1.063 平均吞吐量提升幅度为 1.197 倍。结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。
  3. 9xx5-015:Llama3.1-8B(BF16,最大序列长度为 1024)训练测试结果基于截至 2024 年 9 月 5 日的 AMD 内部测试。Llama3.1-8B 配置:最大序列长度为 1024,BF16,Docker:huggingface/transformers-pytorch-gpu。全新双路 AMD EPYC(霄龙)9575F   (总计 128 个核心),搭配 8 个 NVIDIA H100 80GB HBM3,1.5TB 24x64GB DDR5-6000,1.0 Gbps 3TB Micron_9300_MTFDHAL3T8TDP NVMe®,BIOS T20240805173113(Determinism=Power、SR-IOV=On),Ubuntu 22.04.3 LTS,kernel=5.15.0-117-generic(mitigations=off、cpupower frequency-set -g performance、cpupower idle-set -d 2、echo 3> /proc/syss/vm/drop_caches),得分为 31.79 个训练样本/秒。  结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。