
业界卓越的 AMD AI 软件堆栈
支持最新算法和模型
经过优化的推理能力、注意力算法及稀疏 MoE 模型,显著提升效率
全面支持 AMD Instinct MI350 系列
采用 AMD CDNA 4 架构,配备卓越的高带宽显存 (HBM),支持全新数据类型
先进功能助力 AI 扩展
高效顺畅地进行大规模分布式推理、MoE 模型训练及强化学习
企业适用的 AI 工具
支持编排和端点部署,可跨集群高效部署并管理 AI
端点 AI
从 Ryzen AI 到 Radeon 显卡,丰富多样的端点 AI 处理器满足各类应用需求
代际性能提升
ROCm 7 对比 ROCm 6
推理性能¹
训练性能²
扩展企业级 AI

依托开放式生态系统,助力分布式推理
ROCm 软件平台依托 vLLM-d、DeepEP、SGLang 和 GPU 直接访问技术,助力企业在机架级别跨批次、跨节点、跨模型实现超高吞吐量。

ROCm 赋能 AI 生命周期管理
ROCm 软件与企业级 AI 框架深度集成,为 AI 量产部署提供全方位开源的端到端工作流程,包括 ROCm Enterprise AI 和 ROCm 集群管理,可助力实现无缝部署与灵活扩展。

端点 AI
扩展 ROCm 生态系统对 AMD 锐龙 AI 处理器和 AMD Radeon 显卡的支持
ROCm 端点 AI 生态面向 Linux 与 Windows 全方位支持 AMD 锐龙 AI 处理器和 AMD Radeon 显卡,包括全新的 Radeon RX 9000 系列产品以及卓越的锐龙 AI MAX 产品。


立即体验
借助 AMD Developer Cloud,加速 AI/ML、高性能计算和数据分析任务。
随时掌握最新动态
随时掌握有关 ROCm 的最新动态。
附注
- MI300-080:AMD 性能实验室于 2025 年 5 月 15 日完成了测试,受测系统搭载 8 个 AMD Instinct MI300X GPU 并运行 Llama 3.1-70B (TP2)、Qwen 72B (TP2) 及 Deepseek-R1 (FP16) 模型(批次大小为 1-256,序列长度为 128-204),测量了 AMD ROCm 6.x 软件运行 vLLM 0.3.3 时的推理性能与 ROCm 7.0 预览版软件运行 vLLM 0.8.5 时的推理性能(单位为每秒处理的 token 数,也即 TPS)。发布的性能提升结果基于测试的 3 个 LLM 的平均 TPS。
硬件配置单路 AMD EPYC(霄龙)9534 CPU 服务器,配备 8 个 AMD Instinct MI300X(192 GB,750 W)GPU、Supermicro AS-8125GS-TNMR2、NPS1(每插槽 1 个 NUMA)、1.5 TiB(24 个 DIMM,4800 mts 显存,64 GiB/DIMM)、4 个 3.49 TB Micron 7450 存储、BIOS 版本:1.8
软件配置
Ubuntu 22.04 LTS(含 Linux 内核 5.15.0-119-generic)
Qwen 72B 和 Llama 3.1-70B -
ROCm 7.0 预览版软件
PyTorch 2.7.0。Deepsee R-1 - ROCm 7.0 预览版、SGLang 0.4.6、PyTorch 2.6.0
对比
Qwen 72 和 Llama 3.1-70B - ROCm 6.x 正式版软件
PyTorch 2.7.0 和 2.1.1
Deepsee R-1:ROCm 6.x 正式版软件
SGLang 0.4.1、PyTorch 2.5.0
服务器制造商可能会采用不同的配置而得到不同的结果。性能可能会因配置、软件、vLLM 版本以及使用的驱动程序版本和优化而有所不同。
- MI300-081:AMD 性能实验室于 2025 年 5 月 15 日完成了测试,受测系统搭载 8 个 AMD Instinct MI300X GPU 并运行 Llama 2-70B (4K)、Qwen1.5-14B 和 Llama3.1-8B 模型以及自定义 docker 容器,测量了 ROCm 7.0 预览版软件在运行 Megatron-LM 时的训练性能(单位为 TFLOPS)。对比系统采用类似配置,但采用的是 AMD ROCm 6.0 软件。
硬件配置
单路 AMD EPYC(霄龙)9454 CPU、8 个 AMD Instinct MI300X(192GB,750W)GPU、American Megatrends International LLC BIOS 版本:1.8(BIOS 1.8)。
软件配置
Ubuntu 22.04 LTS(含 Linux 内核 5.15.0-70-generic)
ROCm 7.0.、Megatron-LM、PyTorch 2.7.0
对比
ROCm 6.0 公开发行版软件、Megatron-LM 代码分支(hanl/disable_te_llama2 用于 Llama 2-7B,guihong_dev 用于 LLama 2-70B,renwuli/disable_te_qwen1.5 用于 Qwen1.5-14B)、PyTorch 2.2。
服务器制造商可能会采用不同的配置而得到不同的结果。性能可能会因配置、软件、vLLM 版本以及使用的驱动程序版本和优化而有所不同。
- MI300-080:AMD 性能实验室于 2025 年 5 月 15 日完成了测试,受测系统搭载 8 个 AMD Instinct MI300X GPU 并运行 Llama 3.1-70B (TP2)、Qwen 72B (TP2) 及 Deepseek-R1 (FP16) 模型(批次大小为 1-256,序列长度为 128-204),测量了 AMD ROCm 6.x 软件运行 vLLM 0.3.3 时的推理性能与 ROCm 7.0 预览版软件运行 vLLM 0.8.5 时的推理性能(单位为每秒处理的 token 数,也即 TPS)。发布的性能提升结果基于测试的 3 个 LLM 的平均 TPS。
硬件配置单路 AMD EPYC(霄龙)9534 CPU 服务器,配备 8 个 AMD Instinct MI300X(192 GB,750 W)GPU、Supermicro AS-8125GS-TNMR2、NPS1(每插槽 1 个 NUMA)、1.5 TiB(24 个 DIMM,4800 mts 显存,64 GiB/DIMM)、4 个 3.49 TB Micron 7450 存储、BIOS 版本:1.8
软件配置
Ubuntu 22.04 LTS(含 Linux 内核 5.15.0-119-generic)
Qwen 72B 和 Llama 3.1-70B -
ROCm 7.0 预览版软件
PyTorch 2.7.0。Deepsee R-1 - ROCm 7.0 预览版、SGLang 0.4.6、PyTorch 2.6.0
对比
Qwen 72 和 Llama 3.1-70B - ROCm 6.x 正式版软件
PyTorch 2.7.0 和 2.1.1
Deepsee R-1:ROCm 6.x 正式版软件
SGLang 0.4.1、PyTorch 2.5.0
服务器制造商可能会采用不同的配置而得到不同的结果。性能可能会因配置、软件、vLLM 版本以及使用的驱动程序版本和优化而有所不同。
- MI300-081:AMD 性能实验室于 2025 年 5 月 15 日完成了测试,受测系统搭载 8 个 AMD Instinct MI300X GPU 并运行 Llama 2-70B (4K)、Qwen1.5-14B 和 Llama3.1-8B 模型以及自定义 docker 容器,测量了 ROCm 7.0 预览版软件在运行 Megatron-LM 时的训练性能(单位为 TFLOPS)。对比系统采用类似配置,但采用的是 AMD ROCm 6.0 软件。
硬件配置
单路 AMD EPYC(霄龙)9454 CPU、8 个 AMD Instinct MI300X(192GB,750W)GPU、American Megatrends International LLC BIOS 版本:1.8(BIOS 1.8)。
软件配置
Ubuntu 22.04 LTS(含 Linux 内核 5.15.0-70-generic)
ROCm 7.0.、Megatron-LM、PyTorch 2.7.0
对比
ROCm 6.0 公开发行版软件、Megatron-LM 代码分支(hanl/disable_te_llama2 用于 Llama 2-7B,guihong_dev 用于 LLama 2-70B,renwuli/disable_te_qwen1.5 用于 Qwen1.5-14B)、PyTorch 2.2。
服务器制造商可能会采用不同的配置而得到不同的结果。性能可能会因配置、软件、vLLM 版本以及使用的驱动程序版本和优化而有所不同。