业界卓越的 AMD AI 软件堆栈

支持最新算法和模型

经过优化的推理能力、注意力算法及稀疏 MoE 模型,显著提升效率

全面支持 AMD Instinct MI350 系列

采用 AMD CDNA 4 架构,配备卓越的高带宽显存 (HBM),支持全新数据类型

先进功能助力 AI 扩展

高效顺畅地进行大规模分布式推理、MoE 模型训练及强化学习

企业适用的 AI 工具

支持编排和端点部署,可跨集群高效部署并管理 AI

端点 AI

从 Ryzen AI 到 Radeon 显卡,丰富多样的端点 AI 处理器满足各类应用需求

代际性能提升

ROCm 7 对比 ROCm 6

3.5 倍 平均性能提升
3.2 倍
3.4 倍
3.8 倍
Llama 3.1 70B
Qwen2-72B
DeepSeek R1
推理性能¹
3 倍 平均性能提升
3 倍
3 倍
3.1 倍
Llama 2 70B
Llama 3.1 8B
Qwen1.5 7B
训练性能²

扩展企业级 AI

data center

依托开放式生态系统,助力分布式推理

ROCm 软件平台依托 vLLM-d、DeepEP、SGLang 和 GPU 直接访问技术,助力企业在机架级别跨批次、跨节点、跨模型实现超高吞吐量。

woman in data center

ROCm 赋能 AI 生命周期管理

ROCm 软件与企业级 AI 框架深度集成,为 AI 量产部署提供全方位开源的端到端工作流程,包括 ROCm Enterprise AI 和 ROCm 集群管理,可助力实现无缝部署与灵活扩展。

vertical-gradient-1.png

端点 AI

扩展 ROCm 生态系统对 AMD 锐龙 AI 处理器和 AMD Radeon 显卡的支持

ROCm 端点 AI 生态系统基于高效的开源构建平台 TheROCK,可生成 ROCm 和 PyTorch 的每日构建版本。该系统目前同时支持 Linux 与 Windows 操作系统,可适配全新推出的 Radeon RX 9000 系列显卡与性能卓越的锐龙 AI Max 处理器,为无缝高效的 AI 开发与部署提供坚实基础。

PyTorch 预览版现已发布:对于 Linux,支持 AMD 锐龙 AI 300 系列* 和锐龙 AI Max 系列;对于 Windows,支持 AMD 锐龙 AI 300 系列*、锐龙 AI Max 系列,以及所有 AMD Radeon RX 7000 和 Radeon W7000 系列显卡(及更高版本)。

*有关受支持产品的完整列表,请访问我们的兼容性矩阵页面

AMD Radeon AI PRO R9700 and Ryzen AI Max
curved gradient divider

立即体验

借助 AMD Developer Cloud,加速 AI/ML、高性能计算和数据分析任务。

随时掌握最新动态

随时掌握有关 ROCm 的最新动态。

附注
  1. MI300-080:AMD 性能实验室于 2025 年 5 月 15 日完成了测试,受测系统搭载 8 个 AMD Instinct MI300X GPU 并运行 Llama 3.1-70B (TP2)、Qwen 72B (TP2) 及 Deepseek-R1 (FP16) 模型(批次大小为 1-256,序列长度为 128-204),测量了 AMD ROCm 6.x 软件运行 vLLM 0.3.3 时的推理性能与 ROCm 7.0 预览版软件运行 vLLM 0.8.5 时的推理性能(单位为每秒处理的 token 数,也即 TPS)。发布的性能提升结果基于测试的 3 个 LLM 的平均 TPS。

    硬件配置

    单路 AMD EPYC(霄龙)9534 CPU 服务器,配备 8 个 AMD Instinct MI300X(192 GB,750 W)GPU、Supermicro AS-8125GS-TNMR2、NPS1(每插槽 1 个 NUMA)、1.5 TiB(24 个 DIMM,4800 mts 显存,64 GiB/DIMM)、4 个 3.49 TB Micron 7450 存储、BIOS 版本:1.8 

    软件配置

    Ubuntu 22.04 LTS(含 Linux 内核 5.15.0-119-generic)

    Qwen 72B 和 Llama 3.1-70B -

    ROCm 7.0 预览版软件 

    PyTorch 2.7.0。Deepsee R-1 - ROCm 7.0 预览版、SGLang 0.4.6、PyTorch 2.6.0 

    对比

    Qwen 72 和 Llama 3.1-70B - ROCm 6.x 正式版软件

    PyTorch 2.7.0 和 2.1.1  

    Deepsee R-1:ROCm 6.x 正式版软件

    SGLang 0.4.1、PyTorch 2.5.0

    服务器制造商可能会采用不同的配置而得到不同的结果。性能可能会因配置、软件、vLLM 版本以及使用的驱动程序版本和优化而有所不同。

  2. MI300-081:AMD 性能实验室于 2025 年 5 月 15 日完成了测试,受测系统搭载 8 个 AMD Instinct MI300X GPU 并运行 Llama 2-70B (4K)、Qwen1.5-14B 和 Llama3.1-8B 模型以及自定义 docker 容器,测量了 ROCm 7.0 预览版软件在运行 Megatron-LM 时的训练性能(单位为 TFLOPS)。对比系统采用类似配置,但采用的是 AMD ROCm 6.0 软件。

    硬件配置

    单路 AMD EPYC(霄龙)9454 CPU、8 个 AMD Instinct MI300X(192GB,750W)GPU、American Megatrends International LLC BIOS 版本:1.8(BIOS 1.8)。

    软件配置

    Ubuntu 22.04 LTS(含 Linux 内核 5.15.0-70-generic)

    ROCm 7.0.、Megatron-LM、PyTorch 2.7.0

    对比

    ROCm 6.0 公开发行版软件、Megatron-LM 代码分支(hanl/disable_te_llama2 用于 Llama 2-7B,guihong_dev 用于 LLama 2-70B,renwuli/disable_te_qwen1.5 用于 Qwen1.5-14B)、PyTorch 2.2。

    服务器制造商可能会采用不同的配置而得到不同的结果。性能可能会因配置、软件、vLLM 版本以及使用的驱动程序版本和优化而有所不同。