AI 技术的影响辐射全行业
AMD EPYC(霄龙)服务器 CPU 带来高性能和高能效,无论您的 AI 部署规模大小如何,都能帮助您高效处理企业 AI 和通用工作负载。
如何构建 AI 数据中心
要构建 AI 就绪型数据中心,您需要一个专为安全性而设计的通用计算平台,并根据需要添加 GPU 以满足您的性能和工作负载要求。下面介绍如何将您的下一代数据中心优化为具备 AI 多任务处理能力的强大平台。
整合现有服务器
数据中心的空间和功率是有限的。通过将旧有服务器更换为基于全新高密度 CPU 的服务器,您可以减少服务器数量,降低相关能耗,并为 AI 基础设施腾出所需空间。
整合比例达 8:1
从 2020 年的旧有服务器升级为基于第五代 AMD EPYC(霄龙)CPU 的服务器。
14 台基于 AMD EPYC(霄龙)9965 CPU 的服务器所具备的整数性能,相当于 100 台旧有服务器的性能。
获得更出色的性能
第五代 AMD EPYC(霄龙)9965 CPU 的性能核提供强劲性能。
使用 CPU 处理新型 AI 工作负载
许多推理工作负载可在 CPU 上运行,无需专用加速器硬件。如果您打算运行中小型模型,或者偶尔需要运行 AI 任务,那么高核心数的第五代 EPYC(霄龙)服务器 CPU 可以满足您的性能需求。
在 TPCxAI 测试中,AMD EPYC(霄龙)9965 CPU 的性能更出色。
根据需要添加 GPU
您可能需要专门的 AI 加速技术来用于训练、大型模型推理、大规模部署或低延迟应用场景。首先选用高频率的 AMD EPYC(霄龙)9005 服务器 CPU 作为主机 CPU,以充分利用其高核心频率和大内存容量的优势。添加 AMD Instinct 加速器(采用 PCIe 外形规格)这样的 GPU。
充分利用内置的安全功能
数据保护是每一次 AI 部署都必须考虑的因素。AMD EPYC(霄龙)服务器 CPU 在设计之时便非常重视安全特性,能够抵御许多复杂攻击。AMD Infinity Guard7 带来芯片级别的安全防护,可帮助抵御各种内部和外部威胁,保护数据安全无虞。
实现本地部署与云服务的恰当结合
确保您能够借助灵活的 AI 基础设施实现快速扩展,该基础设施应具备恰当的本地资源与云资源组合。您可以在数百种硬件选项和 1000 多个公有云实例中找到 AMD EPYC(霄龙)服务器 CPU 的身影。
即刻以 AMD EPYC(霄龙)服务器 CPU 启动面向 AI 的算力重构
常见问题解答
在投资购买 AI 硬件之前,数据中心架构师应当评估其 AI 工作负载和性能需求。在某些场景中,采用通用型 AMD EPYC(霄龙)服务器 CPU 即可满足推理任务的性能需求,从而无需额外购置 GPU。
一般来说,AMD EPYC(霄龙)服务器 CPU 可为参数量高达 200 亿的模型提供充足性能,涵盖许多流行的大型语言模型 (LLM) 和其他生成式 AI 应用。
AMD EPYC(霄龙)服务器 CPU 是众多 AI 推理应用场景的适合选择。其中包括传统的机器学习、计算机视觉、内存密集型图形分析、推荐系统、自然语言处理,以及中小型生成式 AI 模型(如 LLM)。这些 CPU 也非常适合经过专业调优的 AI 智能体以及基于协作式提示词预处理场景,并在检索增强生成 (RAG) 模型中得到了广泛应用。
第五代 AMD EPYC(霄龙)服务器 CPU 的端到端 AI 性能提升了 70%。4此外,在 DeepSeek 平台上,AMD EPYC(霄龙)9965 的聊天机器人性能提升多达 89%,并且在 LLM 方面也表现出色8。
如果您需要遵守数据本地化或隐私方面的规定,或者对低延迟有严格要求,那么可以考虑在本地运行 AI 工作负载。如果您需要快速灵活地扩展或缩减,那么云服务是按需获取资源的绝佳选择。
根据 AI 工作负载选择适当的 CPU
借助 AMD EPYC(霄龙)服务器 CPU,您可以根据需求选择不同的核心数、频率、内存容量和功耗选项。通过将 CPU 与预计运行次数最多的 AI 工作负载相匹配,您可以找到最适合您的 CPU。
为端到端 AI 工作流程提供卓越性能
AMD EPYC(霄龙)9965 在实际 AI 和机器学习应用中的性能更加出色。
强劲的 CPU 性能助力轻松处理大型语言模型 (LLM)
凭借对参数量达数十亿级别的 LLM 的性能支持,您可以满怀信心地部署聊天机器人、智能搜索代理以及其他生成式 AI 应用。AMD EPYC(霄龙)9965 的性能更出色。
AMD 全方位赋能 AI 应用
将您的基础设施需求与 AI 愿景相匹配。AMD 提供广泛的 AI 产品组合、基于开放标准的平台和强大的生态系统,这一切都以卓越的性能为依托。
开放软件助力灵活的 AI 开发
借助 AMD ZenDNN 和 AMD ROCm 软件,开发人员可以使用自己所选的框架,同时优化其应用性能。
资源
订阅 AMD 数据中心行业见解
联系 AMD EPYC(霄龙)销售专家
附注
- 9xxTCO-019[DM1] [MK2]:此场景包含许多假设和估计,尽管基于 AMD 内部研究和最佳逼近原则,但应视为一个示例,仅供参考,不能用作实际测试的决策依据。通过 AMD 服务器和温室气体排放总体拥有成本估算工具 v1.53,评估实现 391,000 单位的 SPECrate2017_int_base 总体性能所需的特定 AMD EPYC(霄龙)CPU 服务器解决方案(采用截至 2025 年 9 月 3 日发布的数据)。本次分析评估了搭载 AMD 192 核 EPYC(霄龙)9965 CPU 的双路服务器,SPECrate2017_int_base 得分为 3230,https://spec.org/cpu2017/results/res2025q2/cpu2017-20250324-47086.pdf。我们利用相关数据对环境影响进行了评估,采用了 2025 年全球电力排放系数中的国家/地区特定电力排放系数 (https://www.carbondi.com/#electricity-factors/),还采用了美国国家环境保护局“温室气体当量计算器”截至 2024 年 9 月 4 日的数据 (https://www.epa.gov/energy/greenhouse-gas-equivalencies-calculator)。有关更多详情,请访问 https://www.amd.com/claims/9xx5TCO-019。
- 9xx5-128A:SPECrate®2017_int_base 性能评估基于 www.spec.org 网站发布的分数(截至 2025 年 5 月 9 日)。双路 AMD EPYC(霄龙)9965(SPECrate®2017_int_base 得分为 3230,总计 384 个核心,500W 热设计功耗 (TDP),CPU 总成本为 $14,813),SPECrate®2017_int_base 得分与 CPU 功耗比为 6.460,SPECrate®2017_int_base 得分与 CPU 成本比为 0.218,https://www.spec.org/cpu2017/results/res2025q2/cpu2017-20250324-47086.html)双路 AMD EPYC(霄龙)9755(SPECrate®2017_int_base 得分为 2840,总计 256 个核心,500W 热设计功耗 (TDP),CPU 总成本为 $12,984),SPECrate®2017_int_base 与 CPU 功耗比为 5.680,SPECrate®2017_int_base 与 CPU 成本比为 0.219,https://www.spec.org/cpu2017/results/res2025q2/cpu2017-20250324-47223.html)SPEC®、SPEC CPU® 和 SPECrate® 是 Standard Performance Evaluation Corporation 的注册商标。如需了解更多信息,请访问 www.spec.org。
- 9xx5-134:SPECpower_ssj® 2008 评估结果基于 www.spec.org 上公布的分数(截至 2025 年 4 月 30 日)。双路 AMD EPYC(霄龙)9965(35920 ssj_ops/watt,总计 384 个核心,https://spec.org/power_ssj2008/results/res2024q4/power_ssj2008-20241007-01464.html)双路 AMD EPYC(霄龙)9755(29950 ssj_ops/watt,总计 256 个核心,https://spec.org/power_ssj2008/results/res2024q4/power_ssj2008-20240924-01460.html) SPEC®、SPEC CPU® 和 SPECpower® 是 Standard Performance Evaluation Corporation 的注册商标。如需了解更多信息,请访问 www.spec.org。
- 9xx5-151:TPCxAI @SF30 多实例(32 核心实例大小)吞吐量测试结果基于截至 2025 年 4 月 1 日的 AMD 内部测试,测试时运行了多个 VM 实例。综合端到端 AI 吞吐量测试结果源自 TPCx-AI 基准测试,与已发布的 TPCx-AI 结果不具有可比性,因为端到端 AI 吞吐量测试结果不符合 TPCx-AI 规范。双路 AMD EPYC(霄龙)9965(总得分为 6067.53 AIUCpm,共 384 个核心,500W TDP,AMD 参考系统,1.5TB 24x64GB DDR5-6400,2 x 40 GbE Mellanox CX-7 (MT2910),3.84TB Samsung MZWLO3T8HCLS-00A07 NVMe,Ubuntu® 24.04 LTS kernel 6.13,SMT=ON,Determinism=power,Mitigations=on);双路 AMD EPYC(霄龙)9755(总得分为 4073.42 AIUCpm,共 256 个核心,500W TDP,AMD 参考系统,1.5TB 24x64GB DDR5-6400,2 x 40 GbE Mellanox CX-7 (MT2910) 3.84TB Samsung MZWLO3T8HCLS-00A07 NVMe,Ubuntu 24.04 LTS kernel 6.13,SMT=ON,Determinism=power,Mitigations=on)。结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。TPC、TPC Benchmark 和 TPC-H 是 Transaction Processing Performance Council 的商标。
- 9xx5-169:Llama-3.3-70B 延迟受限的吞吐量(实际吞吐量)测试结果基于 AMD 截止 2025 年 5 月 14 日的内部测试
配置:Llama-3.3-70B,vLLM API server v1.0,数据集:Sonnet3.5-SlimOrcaDedupCleaned,TP8,最大请求数量 512(动态分批处理),输出首个 token 所需的延迟受限时间(300 毫秒、400 毫秒、500 毫秒、600 毫秒),OpenMP 128,结果以令牌/秒为单位。双路 AMD EPYC(霄龙)9575F(总计 128 个核心,热设计功耗 (TDP) 为 400W,生产系统,运行频率为 6000 MT/s 的 1.5TB 24x64GB DDR5-6400,2 x 25 GbE ConnectX-6 Lx MT2894,4x 3.84TB Samsung MZWLO3T8HCLS-00A07 NVMe;Micron_7450_MTFDKCC800TFS 800GB NVMe for OS,Ubuntu 22.04.3 LTS,kernel=5.15.0-117-generic,BIOS 3.2,SMT=OFF,Determinism=power,mitigations=off),包含 8 个 NVIDIA H100。结果:CPU 300 400 500 600;8592+ 0 126.43 1565.65 1987.19;9575F 346.11 2326.21;2531.38 2572.42;相对 NA 18.40 1.62 1.29。结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。热设计功耗 (TDP) 信息来自 ark.intel.com
- 9xx5-013:基于官方发布的 MLPerf™ Inference v4.1 Llama2-70B-99.9 性能测试得分结果,包括服务器场景和离线场景下的结果(以“token/秒”为单位),这些结果于 2024 年 9 月 1 日检索自 https://mlcommons.org/benchmarks/inference-datacenter/ 中的以下条目:4.1-0070(预览)和 4.1.0022。MLPerf™ 名称和标识是 MLCommons Association 在美国和其他国家/地区的商标。保留所有权利。未经授权,严禁使用。如需了解更多信息,请访问 www.mlcommons.org。
- GD-183A:AMD Infinity Guard 的功能随 EPYC(霄龙)处理器的更新迭代和/或系列而有所变化。Infinity Guard 的安全功能必须由服务器 OEM 和/或云服务提供商启用才能使用。请联系您的 OEM 厂商或提供商,以确认是否支持这些功能。如需进一步了解 Infinity Guard,请访问 https://www.amd.com/zh-cn/products/processors/server/epyc/infinity-guard.html。
- 9xx5-152A:Deepseek-R1-671B 吞吐量测试结果基于 AMD 截至 2025 年 1 月 28 日进行的内部测试。配置:llama.cpp 框架,1.58 位量化(UD_IQ1_S,MoE 采用 1.56 位),批量大小为 1 和 4,16 核心实例,应用场景输入/输出 token 配置:[Chatbot = 128/128,Essay = 128/1024,Summary = 1024/128,Rewrite = 1024/1024]。双路 AMD EPYC(霄龙)9965(总计 384 个核心,热设计功耗 (TDP) 为 500W,参考系统,3TB 24x128GB DDR5-6400,2 x 40 GbE Mellanox CX-7 (MT2910) 3.84TB Samsung MZWLO3T8HCLS-00A07 NVMe,Ubuntu® 22.04.3 LTS | 5.15.0-105-generic),SMT=ON,Determinism=power,Mitigations=on)双路 AMD EPYC(霄龙)9755(总计 256 个核心,热设计功耗 (TDP) 为 500W,参考系统,3TB 24x128GB DDR5-6400,2 x 40 GbE Mellanox CX-7 (MT2910) 3.84TB Samsung MZWLO3T8HCLS-00A07 NVMe,Ubuntu® 22.04.3 LTS | 5.15.0-105-generic),SMT=ON,Determinism=power,Mitigations=on)
结果:BS=1 9755 9965 Rel9755 Rel9965 Chatbot 47.31 61.88 70.344 1.308 1.487 Essay 42.97 56.04 61.608 1.304 1.434 Summary 44.99 59.39 62.304 1.32 1.385 Rewrite 41.8 68.44 55.08 1.637 1.318 BS=4 9755 Rel9755 Rel9965 Chatbot 76.01 104.46 143.496 1.374 1.888 Essay 67.89 93.68 116.064 1.38 1.71 Summary 70.88 103.39 99.96 1.459 1.41 Rewrite 65 87.9 78.12 1.352 1.202
结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。
- 基于截至 2024 年 10 月 10 日已上市服务器的线程密度、性能、特性、制程工艺和内置安全功能。EPYC(霄龙)9005 系列 CPU 提供超高线程密度 [EPYC-025B],打破 500 多项性能世界纪录 [EPYC-023F],其中包括创世界纪录的企业级 Java® 运算性能 (ops/sec) [EPYCWR-20241010-260]、拥有出色浮点吞吐量性能的卓越高性能计算解决方案 [EPYCWR-2024-1010-381],以及拥有卓越 TPCx-AI 性能 [EPYCWR-2024-1010-525] 和最高能效得分 [EPYCWR-20241010-326] 的 AI 端到端性能。第五代 EPYC(霄龙)系列还增加了 50% 的 DDR5 内存通道 [EPYC-033C],内存带宽增加了 70% [EPYC-032C],PCIe® Gen5 通道增加了 70% 以提升 I/O 吞吐量 [EPYC-035C],每核 L3 高速缓存提升多达 5 倍 [EPYC-043C] 以实现更快的数据访问,采用先进的 3-4 纳米制程工艺,提供安全内存加密 + 安全加密虚拟化 (SEV) + SEV 加密状态 + SEV 安全嵌套分页等安全特性。更多信息请参见 AMD EPYC(霄龙)架构白皮书(https://library.amd.com/l/3f4587d147382e2/)。
- 9xx5-164:FAISS(每小时运行次数)吞吐量测试结果基于截至 2025 年 4 月 8 日的 AMD 内部测试。FAISS 配置:v1.8.0,sift1m 数据集,32 核心实例,FP32;双路 AMD EPYC(霄龙)9965(共 384 个核心),1.5TB 24x64GB DDR5-6400 (6000 MT/s),1.0 Gbps NIC,3.84 TB Samsung MZWLO3T8HCLS-00A07,Ubuntu® 22.04.5 LTS,Linux 5.15 kernel,BIOS RVOT1004A (SMT=off、mitigations=on,Determinism=Power),NPS=1;双路 AMD EPYC(霄龙)9755(共 256 个核心),1.5TB 24x64GB DDR5-6400 (6000 MT/s),1.0 Gbps NIC,3.84 TB Samsung MZWLO3T8HCLS-00A07,Ubuntu® 22.04.4 LTS,Linux 5.15 kernel,BIOS RVOT1004A (SMT=off、mitigations=on,Determinism=Power),NPS=1
结果:吞吐量相对提升幅度 2P 9755 46.86 1.279 2P 9965 58.6 1.600
结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。
- 9xx5-162:XGBoost(每小时运行次数)吞吐量测试结果基于截至 2025 年 4 月 8 日的 AMD 内部测试。XGBoost 配置:v1.7.2,Higgs 数据集,32 核心实例,FP32;双路 AMD EPYC(霄龙)9965(共 384 个核心),1.5TB 24x64GB DDR5-6400 (6000 MT/s),1.0 Gbps NIC,3.84 TB Samsung MZWLO3T8HCLS-00A07,Ubuntu® 22.04.5 LTS,Linux 5.15 kernel,BIOS RVOT1004A (SMT=off、mitigations=on,Determinism=Power),NPS=1;双路 AMD EPYC(霄龙)9755(共 256 个核心),1.5TB 24x64GB DDR5-6400 (6000 MT/s),1.0 Gbps NIC,3.84 TB Samsung MZWLO3T8HCLS-00A07,Ubuntu® 22.04.4 LTS,Linux 5.15 kernel,BIOS RVOT1004A(SMT=off、mitigations=on,Determinism=Power),NPS=1
结果:CPU 吞吐量 相对提升幅度
参考基准 400 1
双路 9755 436 1.090
双路 9965 771 1.928
结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。
- 9xx5-156:Llama3.1-8B 吞吐量测试结果基于截至 2025 年 4 月 8 日的 AMD 内部测试。Llama3.1-8B 配置:BF16,批次大小为 32,32 核实例,输入/输出 token 配置(应用场景):[摘要生成 = 1024/128,聊天机器人 = 128/128,翻译 = 1024/1024,文章编写 = 128/1024]。双路 AMD EPYC(霄龙)9965(共 384 个核心),1.5TB 24x64GB DDR5-6400,1.0 Gbps NIC,3.84 TB Samsung MZWLO3T8HCLS-00A07,Ubuntu® 22.04.5 LTS,Linux 6.9.0-060900-generic,BIOS RVOT1004A(SMT=off、mitigations=on、Determinism=Power),NPS=1,ZenDNN 5.0.1;双路 AMD EPYC(霄龙)9755(共 256 个核心),1.5TB 24x64GB DDR5-6400,1.0 Gbps NIC,3.84 TB Samsung MZWLO3T8HCLS-00A07,Ubuntu® 22.04.4 LTS,Linux 6.8.0-52-generic,BIOS RVOT1004A(SMT=off、mitigations=on、Determinism=Power),NPS=1,ZenDNN 5.0.1
结果:CPU 参考基准 9755 9965
摘要 1 n/a 1.093
翻译 1 1.062 1.334
文章 1 n/a 1.14
结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。
- 9xx5-158:GPT-J-6B 吞吐量测试结果基于截至 2025 年 4 月 8 日的 AMD 内部测试。GPT-J-6B 配置:BF16,批次大小为 32,32 核实例,输入/输出 token 配置(应用场景):[摘要生成 = 1024/128,聊天机器人 = 128/128,翻译 = 1024/1024,文章编写 = 128/1024]。双路 AMD EPYC(霄龙)9965(共 384 个核心),1.5TB 24x64GB DDR5-6400,1.0 Gbps NIC,3.84 TB Samsung MZWLO3T8HCLS-00A07,Ubuntu® 22.04.5 LTS,Linux 6.9.0-060900-generic,BIOS RVOT1004A(SMT=off、mitigations=on、Determinism=Power),NPS=1,ZenDNN 5.0.1,Python 3.10.12;双路 AMD EPYC(霄龙)9755(共 256 个核心),1.5TB 24x64GB DDR5-6400,1.0 Gbps NIC,3.84 TB Samsung MZWLO3T8HCLS-00A07,Ubuntu® 22.04.4 LTS,Linux 6.8.0-52-generic,BIOS RVOT1004A(SMT=off、mitigations=on、Determinism=Power),NPS=1,ZenDNN 5.0.1,Python 3.10.12
结果:CPU 9755 9965 Summary 1 1.034 1.279 Chatbot 1 0.975 1.163 Translate 1 1.021 0.93 Essay 1 0.978 1.108 Caption 1 0.913 1.12 Overall 1 0.983 1.114
结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。
- 9xx5-166:Llama3.2-1B 吞吐量测试结果基于截至 2025 年 4 月 8 日的 AMD 内部测试。Llama3.3-1B 配置:BF16,批次大小为 32,32 核实例,输入/输出 token 配置(应用场景):[摘要生成 = 1024/128,聊天机器人 = 128/128,翻译 = 1024/1024,文章编写 = 128/1024]。双路 AMD EPYC(霄龙)9965(共 384 个核心),1.5TB 24x64GB DDR5-6400,1.0 Gbps NIC,3.84 TB Samsung MZWLO3T8HCLS-00A07,Ubuntu® 22.04.5 LTS,Linux 6.9.0-060900-generic,BIOS RVOT1004A,(SMT=off,mitigations=on,Determinism=Power),NPS=1,ZenDNN 5.0.1,Python 3.10.2
结果:CPU 9965 Summary 1 1.213 Translation 1 1.364 Essay 1 1.271
结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。
- 9xx5-012:TPCx-AI @SF30 多实例 32 核心实例大小吞吐量测试结果基于截至 2024 年 9 月 5 日的 AMD 内部测试,测试中运行了多个 VM 实例。综合端到端 AI 吞吐量测试结果源自 TPCx-AI 基准测试,与已发布的 TPCx-AI 结果不具有可比性,因为端到端 AI 吞吐量测试结果不符合 TPCx-AI 规范。
双路 AMD EPYC(霄龙)9965(总计 384 个核心),12 个 32 核心实例,NPS1,1.5TB 24x64GB DDR5-6400(速率 6000 MT/s),1DPC,1.0 Gbps NetXtreme BCM5720 千兆以太网 PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu® 22.04.4 LTS,6.8.0-40-generic(tuned-adm profile throughput-performance、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192),BIOS RVOT1000C(SMT=off、Determinism=Power、Turbo Boost=Enabled)
双路 AMD EPYC(霄龙)9755(总计 256 个核心),8 个 32 核心实例,NPS1,1.5TB 24x64GB DDR5-6400(速率 6000 MT/s),1DPC,1.0 Gbps NetXtreme BCM5720 千兆以太网 PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu 22.04.4 LTS,6.8.0-40-generic(tuned-adm profile throughput-performance、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192),BIOS RVOT0090F(SMT=off、Determinism=Power、Turbo Boost=Enabled)
双路 AMD EPYC(霄龙)9654(总计 192 个核心),6 个 32 核心实例,NPS1,1.5TB 24x64GB DDR5-4800,1DPC,2 个 1.92 TB Samsung MZQL21T9HCJR-00A07 NVMe,Ubuntu 22.04.3 LTS,BIOS 1006C(SMT=off、Determinism=Power)
结果:
CPU、吞吐量中值、相对于基准的提升幅度、代际提升幅度
Turin(192 个核心,12 个实例)、6067.531、3.775、2.278
Turin(128 个核心,8 个实例)、4091.85、2.546、1.536
Genoa(96 个核心,6 个实例)、2663.14、1.657、1
参照基准(64 个核心,4 个实例)、1607.417、1、不适用
结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。TPC、TPC 基准测试和 TPC-C 是 Transaction Processing Performance Council 的商标。
- 9xxTCO-019[DM1] [MK2]:此场景包含许多假设和估计,尽管基于 AMD 内部研究和最佳逼近原则,但应视为一个示例,仅供参考,不能用作实际测试的决策依据。通过 AMD 服务器和温室气体排放总体拥有成本估算工具 v1.53,评估实现 391,000 单位的 SPECrate2017_int_base 总体性能所需的特定 AMD EPYC(霄龙)CPU 服务器解决方案(采用截至 2025 年 9 月 3 日发布的数据)。本次分析评估了搭载 AMD 192 核 EPYC(霄龙)9965 CPU 的双路服务器,SPECrate2017_int_base 得分为 3230,https://spec.org/cpu2017/results/res2025q2/cpu2017-20250324-47086.pdf。我们利用相关数据对环境影响进行了评估,采用了 2025 年全球电力排放系数中的国家/地区特定电力排放系数 (https://www.carbondi.com/#electricity-factors/),还采用了美国国家环境保护局“温室气体当量计算器”截至 2024 年 9 月 4 日的数据 (https://www.epa.gov/energy/greenhouse-gas-equivalencies-calculator)。有关更多详情,请访问 https://www.amd.com/claims/9xx5TCO-019。
- 9xx5-128A:SPECrate®2017_int_base 性能评估基于 www.spec.org 网站发布的分数(截至 2025 年 5 月 9 日)。双路 AMD EPYC(霄龙)9965(SPECrate®2017_int_base 得分为 3230,总计 384 个核心,500W 热设计功耗 (TDP),CPU 总成本为 $14,813),SPECrate®2017_int_base 得分与 CPU 功耗比为 6.460,SPECrate®2017_int_base 得分与 CPU 成本比为 0.218,https://www.spec.org/cpu2017/results/res2025q2/cpu2017-20250324-47086.html)双路 AMD EPYC(霄龙)9755(SPECrate®2017_int_base 得分为 2840,总计 256 个核心,500W 热设计功耗 (TDP),CPU 总成本为 $12,984),SPECrate®2017_int_base 与 CPU 功耗比为 5.680,SPECrate®2017_int_base 与 CPU 成本比为 0.219,https://www.spec.org/cpu2017/results/res2025q2/cpu2017-20250324-47223.html)SPEC®、SPEC CPU® 和 SPECrate® 是 Standard Performance Evaluation Corporation 的注册商标。如需了解更多信息,请访问 www.spec.org。
- 9xx5-134:SPECpower_ssj® 2008 评估结果基于 www.spec.org 上公布的分数(截至 2025 年 4 月 30 日)。双路 AMD EPYC(霄龙)9965(35920 ssj_ops/watt,总计 384 个核心,https://spec.org/power_ssj2008/results/res2024q4/power_ssj2008-20241007-01464.html)双路 AMD EPYC(霄龙)9755(29950 ssj_ops/watt,总计 256 个核心,https://spec.org/power_ssj2008/results/res2024q4/power_ssj2008-20240924-01460.html) SPEC®、SPEC CPU® 和 SPECpower® 是 Standard Performance Evaluation Corporation 的注册商标。如需了解更多信息,请访问 www.spec.org。
- 9xx5-151:TPCxAI @SF30 多实例(32 核心实例大小)吞吐量测试结果基于截至 2025 年 4 月 1 日的 AMD 内部测试,测试时运行了多个 VM 实例。综合端到端 AI 吞吐量测试结果源自 TPCx-AI 基准测试,与已发布的 TPCx-AI 结果不具有可比性,因为端到端 AI 吞吐量测试结果不符合 TPCx-AI 规范。双路 AMD EPYC(霄龙)9965(总得分为 6067.53 AIUCpm,共 384 个核心,500W TDP,AMD 参考系统,1.5TB 24x64GB DDR5-6400,2 x 40 GbE Mellanox CX-7 (MT2910),3.84TB Samsung MZWLO3T8HCLS-00A07 NVMe,Ubuntu® 24.04 LTS kernel 6.13,SMT=ON,Determinism=power,Mitigations=on);双路 AMD EPYC(霄龙)9755(总得分为 4073.42 AIUCpm,共 256 个核心,500W TDP,AMD 参考系统,1.5TB 24x64GB DDR5-6400,2 x 40 GbE Mellanox CX-7 (MT2910) 3.84TB Samsung MZWLO3T8HCLS-00A07 NVMe,Ubuntu 24.04 LTS kernel 6.13,SMT=ON,Determinism=power,Mitigations=on)。结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。TPC、TPC Benchmark 和 TPC-H 是 Transaction Processing Performance Council 的商标。
- 9xx5-169:Llama-3.3-70B 延迟受限的吞吐量(实际吞吐量)测试结果基于 AMD 截止 2025 年 5 月 14 日的内部测试
配置:Llama-3.3-70B,vLLM API server v1.0,数据集:Sonnet3.5-SlimOrcaDedupCleaned,TP8,最大请求数量 512(动态分批处理),输出首个 token 所需的延迟受限时间(300 毫秒、400 毫秒、500 毫秒、600 毫秒),OpenMP 128,结果以令牌/秒为单位。双路 AMD EPYC(霄龙)9575F(总计 128 个核心,热设计功耗 (TDP) 为 400W,生产系统,运行频率为 6000 MT/s 的 1.5TB 24x64GB DDR5-6400,2 x 25 GbE ConnectX-6 Lx MT2894,4x 3.84TB Samsung MZWLO3T8HCLS-00A07 NVMe;Micron_7450_MTFDKCC800TFS 800GB NVMe for OS,Ubuntu 22.04.3 LTS,kernel=5.15.0-117-generic,BIOS 3.2,SMT=OFF,Determinism=power,mitigations=off),包含 8 个 NVIDIA H100。结果:CPU 300 400 500 600;8592+ 0 126.43 1565.65 1987.19;9575F 346.11 2326.21;2531.38 2572.42;相对 NA 18.40 1.62 1.29。结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。热设计功耗 (TDP) 信息来自 ark.intel.com
- 9xx5-013:基于官方发布的 MLPerf™ Inference v4.1 Llama2-70B-99.9 性能测试得分结果,包括服务器场景和离线场景下的结果(以“token/秒”为单位),这些结果于 2024 年 9 月 1 日检索自 https://mlcommons.org/benchmarks/inference-datacenter/ 中的以下条目:4.1-0070(预览)和 4.1.0022。MLPerf™ 名称和标识是 MLCommons Association 在美国和其他国家/地区的商标。保留所有权利。未经授权,严禁使用。如需了解更多信息,请访问 www.mlcommons.org。
- GD-183A:AMD Infinity Guard 的功能随 EPYC(霄龙)处理器的更新迭代和/或系列而有所变化。Infinity Guard 的安全功能必须由服务器 OEM 和/或云服务提供商启用才能使用。请联系您的 OEM 厂商或提供商,以确认是否支持这些功能。如需进一步了解 Infinity Guard,请访问 https://www.amd.com/zh-cn/products/processors/server/epyc/infinity-guard.html。
- 9xx5-152A:Deepseek-R1-671B 吞吐量测试结果基于 AMD 截至 2025 年 1 月 28 日进行的内部测试。配置:llama.cpp 框架,1.58 位量化(UD_IQ1_S,MoE 采用 1.56 位),批量大小为 1 和 4,16 核心实例,应用场景输入/输出 token 配置:[Chatbot = 128/128,Essay = 128/1024,Summary = 1024/128,Rewrite = 1024/1024]。双路 AMD EPYC(霄龙)9965(总计 384 个核心,热设计功耗 (TDP) 为 500W,参考系统,3TB 24x128GB DDR5-6400,2 x 40 GbE Mellanox CX-7 (MT2910) 3.84TB Samsung MZWLO3T8HCLS-00A07 NVMe,Ubuntu® 22.04.3 LTS | 5.15.0-105-generic),SMT=ON,Determinism=power,Mitigations=on)双路 AMD EPYC(霄龙)9755(总计 256 个核心,热设计功耗 (TDP) 为 500W,参考系统,3TB 24x128GB DDR5-6400,2 x 40 GbE Mellanox CX-7 (MT2910) 3.84TB Samsung MZWLO3T8HCLS-00A07 NVMe,Ubuntu® 22.04.3 LTS | 5.15.0-105-generic),SMT=ON,Determinism=power,Mitigations=on) 结果:BS=1 9755 9965 Rel9755 Rel9965 Chatbot 47.31 61.88 70.344 1.308 1.487 Essay 42.97 56.04 61.608 1.304 1.434 Summary 44.99 59.39 62.304 1.32 1.385 Rewrite 41.8 68.44 55.08 1.637 1.318 BS=4 9755 Rel9755 Rel9965 Chatbot 76.01 104.46 143.496 1.374 1.888 Essay 67.89 93.68 116.064 1.38 1.71 Summary 70.88 103.39 99.96 1.459 1.41 Rewrite 65 87.9 78.12 1.352 1.202 结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。
- 基于截至 2024 年 10 月 10 日已上市服务器的线程密度、性能、特性、制程工艺和内置安全功能。EPYC(霄龙)9005 系列 CPU 提供超高线程密度 [EPYC-025B],打破 500 多项性能世界纪录 [EPYC-023F],其中包括创世界纪录的企业级 Java® 运算性能 (ops/sec) [EPYCWR-20241010-260]、拥有出色浮点吞吐量性能的卓越高性能计算解决方案 [EPYCWR-2024-1010-381],以及拥有卓越 TPCx-AI 性能 [EPYCWR-2024-1010-525] 和最高能效得分 [EPYCWR-20241010-326] 的 AI 端到端性能。第五代 EPYC(霄龙)系列还增加了 50% 的 DDR5 内存通道 [EPYC-033C],内存带宽增加了 70% [EPYC-032C],PCIe® Gen5 通道增加了 70% 以提升 I/O 吞吐量 [EPYC-035C],每核 L3 高速缓存提升多达 5 倍 [EPYC-043C] 以实现更快的数据访问,采用先进的 3-4 纳米制程工艺,提供安全内存加密 + 安全加密虚拟化 (SEV) + SEV 加密状态 + SEV 安全嵌套分页等安全特性。更多信息请参见 AMD EPYC(霄龙)架构白皮书(https://library.amd.com/l/3f4587d147382e2/)。
- 9xx5-164:FAISS(每小时运行次数)吞吐量测试结果基于截至 2025 年 4 月 8 日的 AMD 内部测试。FAISS 配置:v1.8.0,sift1m 数据集,32 核心实例,FP32;双路 AMD EPYC(霄龙)9965(共 384 个核心),1.5TB 24x64GB DDR5-6400 (6000 MT/s),1.0 Gbps NIC,3.84 TB Samsung MZWLO3T8HCLS-00A07,Ubuntu® 22.04.5 LTS,Linux 5.15 kernel,BIOS RVOT1004A (SMT=off、mitigations=on,Determinism=Power),NPS=1;双路 AMD EPYC(霄龙)9755(共 256 个核心),1.5TB 24x64GB DDR5-6400 (6000 MT/s),1.0 Gbps NIC,3.84 TB Samsung MZWLO3T8HCLS-00A07,Ubuntu® 22.04.4 LTS,Linux 5.15 kernel,BIOS RVOT1004A (SMT=off、mitigations=on,Determinism=Power),NPS=1 结果:吞吐量相对提升幅度 2P 9755 46.86 1.279 2P 9965 58.6 1.600 结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。
- 9xx5-162:XGBoost(每小时运行次数)吞吐量测试结果基于截至 2025 年 4 月 8 日的 AMD 内部测试。XGBoost 配置:v1.7.2,Higgs 数据集,32 核心实例,FP32;双路 AMD EPYC(霄龙)9965(共 384 个核心),1.5TB 24x64GB DDR5-6400 (6000 MT/s),1.0 Gbps NIC,3.84 TB Samsung MZWLO3T8HCLS-00A07,Ubuntu® 22.04.5 LTS,Linux 5.15 kernel,BIOS RVOT1004A (SMT=off、mitigations=on,Determinism=Power),NPS=1;双路 AMD EPYC(霄龙)9755(共 256 个核心),1.5TB 24x64GB DDR5-6400 (6000 MT/s),1.0 Gbps NIC,3.84 TB Samsung MZWLO3T8HCLS-00A07,Ubuntu® 22.04.4 LTS,Linux 5.15 kernel,BIOS RVOT1004A(SMT=off、mitigations=on,Determinism=Power),NPS=1 结果:CPU 吞吐量 相对提升幅度 参考基准 400 1 双路 9755 436 1.090 双路 9965 771 1.928 结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。
- 9xx5-156:Llama3.1-8B 吞吐量测试结果基于截至 2025 年 4 月 8 日的 AMD 内部测试。Llama3.1-8B 配置:BF16,批次大小为 32,32 核实例,输入/输出 token 配置(应用场景):[摘要生成 = 1024/128,聊天机器人 = 128/128,翻译 = 1024/1024,文章编写 = 128/1024]。双路 AMD EPYC(霄龙)9965(共 384 个核心),1.5TB 24x64GB DDR5-6400,1.0 Gbps NIC,3.84 TB Samsung MZWLO3T8HCLS-00A07,Ubuntu® 22.04.5 LTS,Linux 6.9.0-060900-generic,BIOS RVOT1004A(SMT=off、mitigations=on、Determinism=Power),NPS=1,ZenDNN 5.0.1;双路 AMD EPYC(霄龙)9755(共 256 个核心),1.5TB 24x64GB DDR5-6400,1.0 Gbps NIC,3.84 TB Samsung MZWLO3T8HCLS-00A07,Ubuntu® 22.04.4 LTS,Linux 6.8.0-52-generic,BIOS RVOT1004A(SMT=off、mitigations=on、Determinism=Power),NPS=1,ZenDNN 5.0.1 结果:CPU 参考基准 9755 9965 摘要 1 n/a 1.093 翻译 1 1.062 1.334 文章 1 n/a 1.14 结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。
- 9xx5-158:GPT-J-6B 吞吐量测试结果基于截至 2025 年 4 月 8 日的 AMD 内部测试。GPT-J-6B 配置:BF16,批次大小为 32,32 核实例,输入/输出 token 配置(应用场景):[摘要生成 = 1024/128,聊天机器人 = 128/128,翻译 = 1024/1024,文章编写 = 128/1024]。双路 AMD EPYC(霄龙)9965(共 384 个核心),1.5TB 24x64GB DDR5-6400,1.0 Gbps NIC,3.84 TB Samsung MZWLO3T8HCLS-00A07,Ubuntu® 22.04.5 LTS,Linux 6.9.0-060900-generic,BIOS RVOT1004A(SMT=off、mitigations=on、Determinism=Power),NPS=1,ZenDNN 5.0.1,Python 3.10.12;双路 AMD EPYC(霄龙)9755(共 256 个核心),1.5TB 24x64GB DDR5-6400,1.0 Gbps NIC,3.84 TB Samsung MZWLO3T8HCLS-00A07,Ubuntu® 22.04.4 LTS,Linux 6.8.0-52-generic,BIOS RVOT1004A(SMT=off、mitigations=on、Determinism=Power),NPS=1,ZenDNN 5.0.1,Python 3.10.12 结果:CPU 9755 9965 Summary 1 1.034 1.279 Chatbot 1 0.975 1.163 Translate 1 1.021 0.93 Essay 1 0.978 1.108 Caption 1 0.913 1.12 Overall 1 0.983 1.114 结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。
- 9xx5-166:Llama3.2-1B 吞吐量测试结果基于截至 2025 年 4 月 8 日的 AMD 内部测试。Llama3.3-1B 配置:BF16,批次大小为 32,32 核实例,输入/输出 token 配置(应用场景):[摘要生成 = 1024/128,聊天机器人 = 128/128,翻译 = 1024/1024,文章编写 = 128/1024]。双路 AMD EPYC(霄龙)9965(共 384 个核心),1.5TB 24x64GB DDR5-6400,1.0 Gbps NIC,3.84 TB Samsung MZWLO3T8HCLS-00A07,Ubuntu® 22.04.5 LTS,Linux 6.9.0-060900-generic,BIOS RVOT1004A,(SMT=off,mitigations=on,Determinism=Power),NPS=1,ZenDNN 5.0.1,Python 3.10.2 结果:CPU 9965 Summary 1 1.213 Translation 1 1.364 Essay 1 1.271 结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。
- 9xx5-012:TPCx-AI @SF30 多实例 32 核心实例大小吞吐量测试结果基于截至 2024 年 9 月 5 日的 AMD 内部测试,测试中运行了多个 VM 实例。综合端到端 AI 吞吐量测试结果源自 TPCx-AI 基准测试,与已发布的 TPCx-AI 结果不具有可比性,因为端到端 AI 吞吐量测试结果不符合 TPCx-AI 规范。
双路 AMD EPYC(霄龙)9965(总计 384 个核心),12 个 32 核心实例,NPS1,1.5TB 24x64GB DDR5-6400(速率 6000 MT/s),1DPC,1.0 Gbps NetXtreme BCM5720 千兆以太网 PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu® 22.04.4 LTS,6.8.0-40-generic(tuned-adm profile throughput-performance、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192),BIOS RVOT1000C(SMT=off、Determinism=Power、Turbo Boost=Enabled)
双路 AMD EPYC(霄龙)9755(总计 256 个核心),8 个 32 核心实例,NPS1,1.5TB 24x64GB DDR5-6400(速率 6000 MT/s),1DPC,1.0 Gbps NetXtreme BCM5720 千兆以太网 PCIe,3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®,Ubuntu 22.04.4 LTS,6.8.0-40-generic(tuned-adm profile throughput-performance、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192),BIOS RVOT0090F(SMT=off、Determinism=Power、Turbo Boost=Enabled)
双路 AMD EPYC(霄龙)9654(总计 192 个核心),6 个 32 核心实例,NPS1,1.5TB 24x64GB DDR5-4800,1DPC,2 个 1.92 TB Samsung MZQL21T9HCJR-00A07 NVMe,Ubuntu 22.04.3 LTS,BIOS 1006C(SMT=off、Determinism=Power)
结果:
CPU、吞吐量中值、相对于基准的提升幅度、代际提升幅度
Turin(192 个核心,12 个实例)、6067.531、3.775、2.278
Turin(128 个核心,8 个实例)、4091.85、2.546、1.536
Genoa(96 个核心,6 个实例)、2663.14、1.657、1
参照基准(64 个核心,4 个实例)、1607.417、1、不适用
结果可能会因系统配置、软件版本和 BIOS 设置等因素而有所不同。TPC、TPC 基准测试和 TPC-C 是 Transaction Processing Performance Council 的商标。