业界卓越的 AMD AI 软件堆栈

支持最新算法和模型

经过优化的推理能力、注意力算法及稀疏 MoE 模型,显著提升效率

先进功能助力 AI 扩展

高效顺畅地进行大规模分布式推理、MoE 模型训练及强化学习

赋能 AI 生命周期管理

简化企业级 AI 和群集管理,以卓越的可扩展性满足不同行业的需求

扩展 AMD 锐龙 AI 处理器和 AMD Radeon 显卡支持

全面的端点 AI 解决方案,满足各类应用需求

代际性能提升

ROCm 7 对比 ROCm 6

3.5 倍 平均性能提升
3.2 倍
3.4 倍
3.8 倍
Llama 3.1 70B
Qwen2-72B
DeepSeek R1
推理性能¹
3 倍 平均性能提升
3 倍
3 倍
3.1 倍
Llama 2 70B
Llama 3.1 8B
Qwen1.5 7B
训练性能²

扩展企业级 AI

data center

依托开放式生态系统,助力分布式推理

ROCm 软件平台依托 vLLM-d、DeepEP、SGLang 和 GPU 直接访问技术,助力企业在机架级别跨批次、跨节点、跨模型实现超高吞吐量。

woman in data center

ROCm 赋能 AI 生命周期管理

ROCm 软件与企业级 AI 框架深度集成,为 AI 量产部署提供全方位开源的端到端工作流程,包括 ROCm Enterprise AI 这一运维与群集管理平台。

vertical-gradient-1.png

端点 AI

扩展 ROCm 生态系统对 AMD 锐龙 AI 处理器和 AMD Radeon 显卡的支持

ROCm 端点 AI 生态面向 Linux 与 Windows 全方位支持 AMD 锐龙 AI 处理器和 AMD Radeon 显卡,包括全新的 Radeon RX 9000 系列产品以及卓越的锐龙 AI MAX 产品。

AMD Radeon AI PRO R9700 and Ryzen AI Max
curved gradient divider

立即体验

借助 AMD Developer Cloud,加速 AI/ML、高性能计算和数据分析任务。

随时掌握最新动态

随时掌握有关 ROCm 的最新动态。

附注
  1. MI300-080:AMD 性能实验室于 2025 年 5 月 15 日完成了测试,受测系统搭载 8 个 AMD Instinct MI300X GPU 并运行 Llama 3.1-70B (TP2)、Qwen 72B (TP2) 及 Deepseek-R1 (FP16) 模型(批次大小为 1-256,序列长度为 128-204),测量了 AMD ROCm 6.x 软件运行 vLLM 0.3.3 时的推理性能与 ROCm 7.0 预览版软件运行 vLLM 0.8.5 时的推理性能(单位为每秒处理的 token 数,也即 TPS)。发布的性能提升结果基于测试的 3 个 LLM 的平均 TPS。

    硬件配置

    单路 AMD EPYC(霄龙)9534 CPU 服务器,配备 8 个 AMD Instinct MI300X(192 GB,750 W)GPU、Supermicro AS-8125GS-TNMR2、NPS1(每插槽 1 个 NUMA)、1.5 TiB(24 个 DIMM,4800 mts 显存,64 GiB/DIMM)、4 个 3.49 TB Micron 7450 存储、BIOS 版本:1.8 

    软件配置

    Ubuntu 22.04 LTS(含 Linux 内核 5.15.0-119-generic)

    Qwen 72B 和 Llama 3.1-70B -

    ROCm 7.0 预览版软件 

    PyTorch 2.7.0。Deepsee R-1 - ROCm 7.0 预览版、SGLang 0.4.6、PyTorch 2.6.0 

    对比

    Qwen 72 和 Llama 3.1-70B - ROCm 6.x 正式版软件

    PyTorch 2.7.0 和 2.1.1  

    Deepsee R-1:ROCm 6.x 正式版软件

    SGLang 0.4.1、PyTorch 2.5.0

    服务器制造商可能会采用不同的配置而得到不同的结果。性能可能会因配置、软件、vLLM 版本以及使用的驱动程序版本和优化而有所不同。

  2. MI300-081:AMD 性能实验室于 2025 年 5 月 15 日完成了测试,受测系统搭载 8 个 AMD Instinct MI300X GPU 并运行 Llama 2-70B (4K)、Qwen1.5-14B 和 Llama3.1-8B 模型以及自定义 docker 容器,测量了 ROCm 7.0 预览版软件在运行 Megatron-LM 时的训练性能(单位为 TFLOPS)。对比系统采用类似配置,但采用的是 AMD ROCm 6.0 软件。

    硬件配置

    单路 AMD EPYC(霄龙)9454 CPU、8 个 AMD Instinct MI300X(192GB,750W)GPU、American Megatrends International LLC BIOS 版本:1.8(BIOS 1.8)。

    软件配置

    Ubuntu 22.04 LTS(含 Linux 内核 5.15.0-70-generic)

    ROCm 7.0.、Megatron-LM、PyTorch 2.7.0

    对比

    ROCm 6.0 公开发行版软件、Megatron-LM 代码分支(hanl/disable_te_llama2 用于 Llama 2-7B,guihong_dev 用于 LLama 2-70B,renwuli/disable_te_qwen1.5 用于 Qwen1.5-14B)、PyTorch 2.2。

    服务器制造商可能会采用不同的配置而得到不同的结果。性能可能会因配置、软件、vLLM 版本以及使用的驱动程序版本和优化而有所不同。