推理性能的多重维度

Mar 19, 2026

Abstract blue digital corridor with glowing data lines and interface panels, suggesting data flow, AI, or network processing.

推理性能涉及多个维度

在 GTC 2026 大会上，NVIDIA 基于 SemiAnalysis“InferenceX”的基准测试数据展示了推理性能表现，结果显示 GB300 NVL72（FP4、MTP）的单位功耗 token 处理量是上一代 Hopper (FP8) 的 50 倍，每 token 成本是上一代的 1/35。事实上，在相同运行模式下，AMD Instinct MI355X GPU 的表现旗鼓相当或更胜一筹。

什么是 InferenceX？ SemiAnalysis InferenceX 是一个独立的推理基准测试框架，可在各种配置下对 NVIDIA 和 AMD GPU 进行测试。该框架全面覆盖并发级别、输入和输出序列长度、数据类型、推测性解码设置、服务框架以及部署拓扑等参数的各种不同组合。这种覆盖广度正是关键所在，因为没有任何一种运行配置能够全面反映实际性能情况。

在该框架所覆盖的大量配置中，一些配置与常见的实际部署场景相匹配。一些配置则适合长上下文处理或批处理作业等特殊工作负载。还有一些配置在技术上可行，但在实际中并未被采用。

推理性能取决于一系列参数（这些参数会显著影响性能结果）：

并发度和批量大小
数据类型：INT4、FP4、FP8、BF16、FP16
推测解码和多 Token 预测 (MTP) 设置
框架：开源 SGLang、vLLM 或专有的闭源框架 (TRT-LLM)
服务拓扑：单节点与多节点解耦、机架级
以及其他参数，如输入和输出序列长度 (ISL/OSL)

以上每一个参数都是软件优化的关键点。供应商可以找到一种具有显著优势的配置。真正的问题不在于哪种配置能让 GPU 表现最佳，而是针对给定的工作负载和交互性目标，每 token 的成本是多少。

NVIDIA GTC 2026：“GB NVL72 Inference King”幻灯片

解析 GTC 基准测试

在 GTC 大会上，NVIDIA 的每百万 token 成本基准测试采用了 FP4、MTP=3 以及 3 月 7 日的 DeepSeek 1k/1k 数据集：这些选择均有利于 NVIDIA 的测试结果。

MTP 确实是一种吞吐量优化技术，但其带来的性能提升会因数据集和配置的不同而有所差异。NVIDIA 的基准测试采用 MTP=3；而 AMD 当前默认采用 MTP=1。数据类型同样重要：此次测试数据点展示的是 FP4，但 FP8 也是常见的生产环境选择。

在同等条件下（即关闭 MTP 且均采用 FP8），当并发度较高（每用户每秒 60 个以上 token）时，MI355X 的每 token 成本优势比较明显（图 1）。

图 1：每百万 token 成本与交互程度 — DeepSeek R1，FP8，无 MTP。MI355X GPU (SGLang) 性能表现。来源：SemiAnalysis InferenceX™，2026 年 3 月 7 日。

展示软件优化对每 token 成本的影响：自 2 月以来，MI355X GPU 的每 token 成本已大幅下降（图 2）。

图 2：在每用户每秒 100 个 token 的交互程度下，每百万 token 成本随时间的变化情况 — DeepSeek R1，FP8，无 MTP。MI355X GPU (SGLang) 性能表现。来源：SemiAnalysis InferenceX™。2026 年 3 月 13 日

即将推出的技术创新

AMD 将于 3 月底面向基于 AMD Instinct MI350 系列的分布式推理推出经过优化的 FP4 方案。 在分布式推理领域，AMD 最初将重心放在 FP8 上。而在 FP4 精度下，即使未经优化，在每用户每秒 80 个以上 token 的情况下，MI355X SGLang 的表现也已出色（图 3）；预计 3 月底将推出进一步的优化方案。

图 3：每百万 token 成本与交互程度 — DeepSeek R1，FP4，无 MTP。MI355X GPU (SGLang) 性能表现。来源：SemiAnalysis InferenceX™，2026 年 3 月 13 日。

机架级解决方案将于下半年随 AMD Helios (MI450) 推出。具备更高纵向扩展能力的机架级架构，在低交互场景中能切实创造价值，因为在此类场景中更大的批量大小和更高的 GPU 并行度至关重要。AMD 机架级解决方案“Helios”搭载 MI450 GPU，正是针对这类场景而设计，计划于 2026 年下半年推出。

总结

选择哪种平台进行推理，应取决于具体的工作负载特征和需求。正确的评估方式是，按照您实际所需的上下文长度、延迟目标和并发度，在两个平台上分别运行自己的模型。这正是 AMD 准备进行的基准测试。

请联系您的 AMD 客户团队，安排并行评估。

Article By

AMD AI Group

white pearl gradient medium color divider

Related Blogs

View All Blogs

服务器 CPU

商用系统

个人和游戏

嵌入式产品

资源

加速器

自适应加速器

DPU 加速器

以太网适配器

工作站

台式机

笔记本电脑

资源

自适应 SoC 和 FPGA

模块化系统 (SOM)

技术

开发者资源

评估板与套件

处理器工具

显卡工具和应用

自适应 SoC 和 FPGA

IP 与应用

GPU 加速器工具和应用

以太网适配器工具

概要

面向数据中心和云计算

面向边缘计算和终端

面向开发人员

行业

行业

行业

行业

Industrias

工作负载

游戏

系统

技术

资源

EPYC（霄龙）处理器

Radeon 显卡与 AMD 芯片组

FPGA 和自适应 SoC

Alveo 加速器和 Kria SOM

锐龙处理器

以太网适配器

概要

处理器

加速器

嵌入式产品

显卡

概要

资源按产品

资源按类型

关于我们的合作伙伴

AMD 全球支持

处理器与显卡

加速器

FPGA 与自适应 SoC

选择我们的零售合作伙伴

自适应和嵌入式计算

Get AMD Fan Gear

Buy Direct From AMD

Buy Direct From AMD

Buy Direct From AMD

Buy Direct From AMD

Buy Direct From AMD

推理性能的多重维度

推理性能涉及多个维度

解析 GTC 基准测试

即将推出的技术创新

总结

Article By

Related Blogs

AMD.com Feedback