
业界卓越的 AMD AI 软件堆栈
支持最新算法和模型
经过优化的推理能力、注意力算法及稀疏 MoE 模型,显著提升效率
先进功能助力 AI 扩展
高效顺畅地进行大规模分布式推理、MoE 模型训练及强化学习
赋能 AI 生命周期管理
简化企业级 AI 和群集管理,以卓越的可扩展性满足不同行业的需求
扩展 AMD 锐龙 AI 处理器和 AMD Radeon 显卡支持
全面的端点 AI 解决方案,满足各类应用需求
代际性能提升
ROCm 7 对比 ROCm 6
推理性能¹
训练性能²
扩展企业级 AI

依托开放式生态系统,助力分布式推理
ROCm 软件平台依托 vLLM-d、DeepEP、SGLang 和 GPU 直接访问技术,助力企业在机架级别跨批次、跨节点、跨模型实现超高吞吐量。

ROCm 赋能 AI 生命周期管理
ROCm 软件与企业级 AI 框架深度集成,为 AI 量产部署提供全方位开源的端到端工作流程,包括 ROCm Enterprise AI 这一运维与群集管理平台。

端点 AI
扩展 ROCm 生态系统对 AMD 锐龙 AI 处理器和 AMD Radeon 显卡的支持
ROCm 端点 AI 生态面向 Linux 与 Windows 全方位支持 AMD 锐龙 AI 处理器和 AMD Radeon 显卡,包括全新的 Radeon RX 9000 系列产品以及卓越的锐龙 AI MAX 产品。


立即体验
借助 AMD Developer Cloud,加速 AI/ML、高性能计算和数据分析任务。
随时掌握最新动态
随时掌握有关 ROCm 的最新动态。
附注
- MI300-080:AMD 性能实验室于 2025 年 5 月 15 日完成了测试,受测系统搭载 8 个 AMD Instinct MI300X GPU 并运行 Llama 3.1-70B (TP2)、Qwen 72B (TP2) 及 Deepseek-R1 (FP16) 模型(批次大小为 1-256,序列长度为 128-204),测量了 AMD ROCm 6.x 软件运行 vLLM 0.3.3 时的推理性能与 ROCm 7.0 预览版软件运行 vLLM 0.8.5 时的推理性能(单位为每秒处理的 token 数,也即 TPS)。发布的性能提升结果基于测试的 3 个 LLM 的平均 TPS。
硬件配置单路 AMD EPYC(霄龙)9534 CPU 服务器,配备 8 个 AMD Instinct MI300X(192 GB,750 W)GPU、Supermicro AS-8125GS-TNMR2、NPS1(每插槽 1 个 NUMA)、1.5 TiB(24 个 DIMM,4800 mts 显存,64 GiB/DIMM)、4 个 3.49 TB Micron 7450 存储、BIOS 版本:1.8
软件配置
Ubuntu 22.04 LTS(含 Linux 内核 5.15.0-119-generic)
Qwen 72B 和 Llama 3.1-70B -
ROCm 7.0 预览版软件
PyTorch 2.7.0。Deepsee R-1 - ROCm 7.0 预览版、SGLang 0.4.6、PyTorch 2.6.0
对比
Qwen 72 和 Llama 3.1-70B - ROCm 6.x 正式版软件
PyTorch 2.7.0 和 2.1.1
Deepsee R-1:ROCm 6.x 正式版软件
SGLang 0.4.1、PyTorch 2.5.0
服务器制造商可能会采用不同的配置而得到不同的结果。性能可能会因配置、软件、vLLM 版本以及使用的驱动程序版本和优化而有所不同。
- MI300-081:AMD 性能实验室于 2025 年 5 月 15 日完成了测试,受测系统搭载 8 个 AMD Instinct MI300X GPU 并运行 Llama 2-70B (4K)、Qwen1.5-14B 和 Llama3.1-8B 模型以及自定义 docker 容器,测量了 ROCm 7.0 预览版软件在运行 Megatron-LM 时的训练性能(单位为 TFLOPS)。对比系统采用类似配置,但采用的是 AMD ROCm 6.0 软件。
硬件配置
单路 AMD EPYC(霄龙)9454 CPU、8 个 AMD Instinct MI300X(192GB,750W)GPU、American Megatrends International LLC BIOS 版本:1.8(BIOS 1.8)。
软件配置
Ubuntu 22.04 LTS(含 Linux 内核 5.15.0-70-generic)
ROCm 7.0.、Megatron-LM、PyTorch 2.7.0
对比
ROCm 6.0 公开发行版软件、Megatron-LM 代码分支(hanl/disable_te_llama2 用于 Llama 2-7B,guihong_dev 用于 LLama 2-70B,renwuli/disable_te_qwen1.5 用于 Qwen1.5-14B)、PyTorch 2.2。
服务器制造商可能会采用不同的配置而得到不同的结果。性能可能会因配置、软件、vLLM 版本以及使用的驱动程序版本和优化而有所不同。
- MI300-080:AMD 性能实验室于 2025 年 5 月 15 日完成了测试,受测系统搭载 8 个 AMD Instinct MI300X GPU 并运行 Llama 3.1-70B (TP2)、Qwen 72B (TP2) 及 Deepseek-R1 (FP16) 模型(批次大小为 1-256,序列长度为 128-204),测量了 AMD ROCm 6.x 软件运行 vLLM 0.3.3 时的推理性能与 ROCm 7.0 预览版软件运行 vLLM 0.8.5 时的推理性能(单位为每秒处理的 token 数,也即 TPS)。发布的性能提升结果基于测试的 3 个 LLM 的平均 TPS。
硬件配置单路 AMD EPYC(霄龙)9534 CPU 服务器,配备 8 个 AMD Instinct MI300X(192 GB,750 W)GPU、Supermicro AS-8125GS-TNMR2、NPS1(每插槽 1 个 NUMA)、1.5 TiB(24 个 DIMM,4800 mts 显存,64 GiB/DIMM)、4 个 3.49 TB Micron 7450 存储、BIOS 版本:1.8
软件配置
Ubuntu 22.04 LTS(含 Linux 内核 5.15.0-119-generic)
Qwen 72B 和 Llama 3.1-70B -
ROCm 7.0 预览版软件
PyTorch 2.7.0。Deepsee R-1 - ROCm 7.0 预览版、SGLang 0.4.6、PyTorch 2.6.0
对比
Qwen 72 和 Llama 3.1-70B - ROCm 6.x 正式版软件
PyTorch 2.7.0 和 2.1.1
Deepsee R-1:ROCm 6.x 正式版软件
SGLang 0.4.1、PyTorch 2.5.0
服务器制造商可能会采用不同的配置而得到不同的结果。性能可能会因配置、软件、vLLM 版本以及使用的驱动程序版本和优化而有所不同。
- MI300-081:AMD 性能实验室于 2025 年 5 月 15 日完成了测试,受测系统搭载 8 个 AMD Instinct MI300X GPU 并运行 Llama 2-70B (4K)、Qwen1.5-14B 和 Llama3.1-8B 模型以及自定义 docker 容器,测量了 ROCm 7.0 预览版软件在运行 Megatron-LM 时的训练性能(单位为 TFLOPS)。对比系统采用类似配置,但采用的是 AMD ROCm 6.0 软件。
硬件配置
单路 AMD EPYC(霄龙)9454 CPU、8 个 AMD Instinct MI300X(192GB,750W)GPU、American Megatrends International LLC BIOS 版本:1.8(BIOS 1.8)。
软件配置
Ubuntu 22.04 LTS(含 Linux 内核 5.15.0-70-generic)
ROCm 7.0.、Megatron-LM、PyTorch 2.7.0
对比
ROCm 6.0 公开发行版软件、Megatron-LM 代码分支(hanl/disable_te_llama2 用于 Llama 2-7B,guihong_dev 用于 LLama 2-70B,renwuli/disable_te_qwen1.5 用于 Qwen1.5-14B)、PyTorch 2.2。
服务器制造商可能会采用不同的配置而得到不同的结果。性能可能会因配置、软件、vLLM 版本以及使用的驱动程序版本和优化而有所不同。