ROCm 7 软件

业界卓越的 AMD AI 软件堆栈

支持最新算法和模型

经过优化的推理能力、注意力算法及稀疏 MoE 模型，显著提升效率

全面支持 AMD Instinct MI350 系列

采用 AMD CDNA 4 架构，配备卓越的高带宽显存 (HBM)，支持全新数据类型

先进功能助力 AI 扩展

高效顺畅地进行大规模分布式推理、MoE 模型训练及强化学习

企业适用的 AI 工具

支持编排和端点部署，可跨集群高效部署并管理 AI

端点 AI

从 Ryzen AI 到 Radeon 显卡，丰富多样的端点 AI 处理器满足各类应用需求

代际性能提升

ROCm 7 对比 ROCm 6

3.5 倍 平均性能提升

3.2 倍

3.4 倍

3.8 倍

Llama 3.1 70B

Qwen2-72B

DeepSeek R1

推理性能¹

3 倍 平均性能提升

3 倍

3.1 倍

Llama 2 70B

Llama 3.1 8B

Qwen1.5 7B

训练性能²

扩展企业级 AI

依托开放式生态系统，助力分布式推理

ROCm 软件平台依托 vLLM-d、DeepEP、SGLang 和 GPU 直接访问技术，助力企业在机架级别跨批次、跨节点、跨模型实现超高吞吐量。

ROCm 赋能 AI 生命周期管理

ROCm 软件与企业级 AI 框架深度集成，为 AI 量产部署提供全方位开源的端到端工作流程，包括 ROCm Enterprise AI 和 ROCm 集群管理，可助力实现无缝部署与灵活扩展。

端点 AI

扩展 ROCm 生态系统对 AMD 锐龙 AI 处理器和 AMD Radeon 显卡的支持

ROCm 端点 AI 生态系统基于高效的开源构建平台 TheROCK，可生成 ROCm 和 PyTorch 的每日构建版本。该系统目前同时支持 Linux 与 Windows 操作系统，可适配全新推出的 Radeon RX 9000 系列显卡与性能卓越的锐龙 AI Max 处理器，为无缝高效的 AI 开发与部署提供坚实基础。

PyTorch 预览版现已发布：对于 Linux，支持 AMD 锐龙 AI 300 系列* 和锐龙 AI Max 系列；对于 Windows，支持 AMD 锐龙 AI 300 系列*、锐龙 AI Max 系列，以及所有 AMD Radeon RX 7000 和 Radeon W7000 系列显卡（及更高版本）。

*有关受支持产品的完整列表，请访问我们的兼容性矩阵页面。

AMD Radeon AI PRO R9700 and Ryzen AI Max

立即体验

借助 AMD Developer Cloud，加速 AI/ML、高性能计算和数据分析任务。

立即体验

随时掌握最新动态

随时掌握有关 ROCm 的最新动态。

立即订阅

附注

MI300-080：AMD 性能实验室于 2025 年 5 月 15 日完成了测试，受测系统搭载 8 个 AMD Instinct MI300X GPU 并运行 Llama 3.1-70B (TP2)、Qwen 72B (TP2) 及 Deepseek-R1 (FP16) 模型（批次大小为 1-256，序列长度为 128-204），测量了 AMD ROCm 6.x 软件运行 vLLM 0.3.3 时的推理性能与 ROCm 7.0 预览版软件运行 vLLM 0.8.5 时的推理性能（单位为每秒处理的 token 数，也即 TPS）。发布的性能提升结果基于测试的 3 个 LLM 的平均 TPS。

硬件配置
单路 AMD EPYC（霄龙）9534 CPU 服务器，配备 8 个 AMD Instinct MI300X（192 GB，750 W）GPU、Supermicro AS-8125GS-TNMR2、NPS1（每插槽 1 个 NUMA）、1.5 TiB（24 个 DIMM，4800 mts 显存，64 GiB/DIMM）、4 个 3.49 TB Micron 7450 存储、BIOS 版本：1.8

软件配置

Ubuntu 22.04 LTS（含 Linux 内核 5.15.0-119-generic）

Qwen 72B 和 Llama 3.1-70B -

ROCm 7.0 预览版软件

PyTorch 2.7.0。Deepsee R-1 - ROCm 7.0 预览版、SGLang 0.4.6、PyTorch 2.6.0

对比

Qwen 72 和 Llama 3.1-70B - ROCm 6.x 正式版软件

PyTorch 2.7.0 和 2.1.1

Deepsee R-1：ROCm 6.x 正式版软件

SGLang 0.4.1、PyTorch 2.5.0

服务器制造商可能会采用不同的配置而得到不同的结果。性能可能会因配置、软件、vLLM 版本以及使用的驱动程序版本和优化而有所不同。
MI300-081：AMD 性能实验室于 2025 年 5 月 15 日完成了测试，受测系统搭载 8 个 AMD Instinct MI300X GPU 并运行 Llama 2-70B (4K)、Qwen1.5-14B 和 Llama3.1-8B 模型以及自定义 docker 容器，测量了 ROCm 7.0 预览版软件在运行 Megatron-LM 时的训练性能（单位为 TFLOPS）。对比系统采用类似配置，但采用的是 AMD ROCm 6.0 软件。
硬件配置

单路 AMD EPYC（霄龙）9454 CPU、8 个 AMD Instinct MI300X（192GB，750W）GPU、American Megatrends International LLC BIOS 版本：1.8（BIOS 1.8）。

软件配置

Ubuntu 22.04 LTS（含 Linux 内核 5.15.0-70-generic）

ROCm 7.0.、Megatron-LM、PyTorch 2.7.0

对比

ROCm 6.0 公开发行版软件、Megatron-LM 代码分支（hanl/disable_te_llama2 用于 Llama 2-7B，guihong_dev 用于 LLama 2-70B，renwuli/disable_te_qwen1.5 用于 Qwen1.5-14B）、PyTorch 2.2。

服务器制造商可能会采用不同的配置而得到不同的结果。性能可能会因配置、软件、vLLM 版本以及使用的驱动程序版本和优化而有所不同。

数据中心

商用系统

个人和游戏

嵌入式产品

资源

加速器

自适应加速器

DPU 加速器

以太网适配器

工作站

台式机

笔记本电脑

资源

自适应 SoC 和 FPGA

模块化系统 (SOM)

技术

开发者资源

评估板与套件

处理器工具

显卡工具和应用

自适应 SoC 和 FPGA

IP 与应用

GPU 加速器工具和应用

以太网适配器工具

概要

面向数据中心和云计算

面向边缘计算和终端

面向开发人员

行业

行业

行业

行业

Industrias

工作负载

游戏

系统

技术

资源

EPYC（霄龙）处理器

Radeon 显卡与 AMD 芯片组

FPGA 和自适应 SoC

Alveo 加速器和 Kria SOM

锐龙处理器

以太网适配器

概要

处理器

加速器

嵌入式产品

显卡

概要

资源按产品

资源按类型

关于我们的合作伙伴

AMD 全球支持

处理器与显卡

加速器

FPGA 与自适应 SoC

选择我们的零售合作伙伴

自适应和嵌入式计算

Get AMD Fan Gear

Buy Direct From AMD

Buy Direct From AMD

Buy Direct From AMD

Buy Direct From AMD

Buy Direct From AMD

AMD ROCm 7 软件

业界卓越的 AMD AI 软件堆栈

支持最新算法和模型

全面支持 AMD Instinct MI350 系列

先进功能助力 AI 扩展

企业适用的 AI 工具

端点 AI

代际性能提升

推理性能¹

训练性能²

扩展企业级 AI

依托开放式生态系统，助力分布式推理

ROCm 赋能 AI 生命周期管理

端点 AI

扩展 ROCm 生态系统对 AMD 锐龙 AI 处理器和 AMD Radeon 显卡的支持