
AMD 最先进的 AI 软件栈
最新算法和模型
增强推理、注意力算法和稀疏 MoE,以提高效率
支持 AMD Instinct MI350 系列
AMD CDNA 4 架构,通过先进的 HBM,支持新的数据类型
用于扩展 AI 的高级功能
无缝分布式推理、MoE 训练、大规模强化学习
AI 生命周期
简化企业 AI 和集群管理,实现横跨多种行业的可扩展性
支持 AMD Ryzen AI 和 AMD Radeon 显卡
可实现综合端点 AI 解决方案,满足多种应用需求
代际间的性能跃升
ROCm 7 vs. ROCm 6
推理¹
训练²
可扩展企业级 AI

基于开放生态系统的分布式推理
借助 vLLM-d、DeepEP、SGLang 和 GPU 可以直接获得。ROCm 软件平台可实现机架规模的最高吞吐量服务 — 跨批次、跨节点、跨模型。

ROCm 覆盖整个 AI 生命周期
ROCm 软件与企业 AI 框架集成,为生产级 AI 提供完全开源的端到端工作流程,涵盖 ROCm 企业 AI(包括运营平台和集群管理)。

端点的 AI
扩展 AMD Ryzen AI 和 AMD Radeon Graphics 的 ROCm 生态系统
ROCm 端点 AI 生态系统支持在 Linux 和 Windows 系统上使用 AMD Radeon 产品,包括最新的 Radeon RX 9000 系列以及先进的 Ryzen AI MAX 产品。


立即开始
使用 AMD 开发者云加速您的 AI/ML、高性能计算和数据分析任务。
保持联络
随时了解最新的 ROCm 动态。
附注
MI300-080 - AMD 性能实验室于 2025 年 5 月 15 日进行测试,测量 AMD ROCm 6.x 软件 vLLM 0.3.3 与 AMD ROCm 7.0 预览版软件 vLLM 0.8.5 的推理性能(以每秒令牌数 (TPS) 为单位),测试系统搭载 8 块 AMD Instinct MI300X GPU,运行 Llama 3.1-70B (TP2)、Qwen 72B (TP2) 和 Deepseek-R1 (FP16) 模型,批量大小为 1-256,序列长度为 128-204。性能提升以测试的 3 款 LLM 的平均 TPS 表示。
硬件配置
1P AMD 霄龙 9534 CPU 服务器,配备 8 个 AMD Instinct MI300X(192GB,750W)GPU、Supermicro AS-8125GS-TNMR2、NPS1(每个插槽 1 个 NUMA)、1.5 TiB(24 个 DIMM、4800 mts 内存、64 GiB/DIMM)、4 个 3.49TB Micron 7450 存储器,BIOS 版本:1.8
软件配置
Ubuntu 22.04 LTS,搭载 Linux 内核 5.15.0-119-generic
Qwen 72B 和 Llama 3.1-70B -
ROCm 7.0 预览版 SW
PyTorch 2.7.0. Deepseek R-1 - ROCm 7.0 预览版、SGLang 0.4.6、PyTorch 2.6.0
对比
Qwen 72 和 Llama 3.1-70B - ROCm 6.x GA SW
分别为 PyTorch 2.7.0 和 2.1.1
Deepseek R-1:ROCm 6.x GA SW
SGLang 0.4.1,PyTorch 2.5.0
服务器制造商的配置可能有所不同,从而导致不同的结果。性能可能会因配置、软件、vLLM 版本以及最新驱动程序和优化的使用情况而有所不同。
MI300-081 - AMD 性能实验室于 2025 年 5 月 15 日进行的测试,用于测量 ROCm 7.0 预览版软件 Megatron-LM 在运行 Llama 2-70B (4K)、Qwen1.5-14B 和 Llama3.1-8B 型号的 (8) AMD Instinct MI300X GPU 以及自定义 docker 容器与使用 AMD ROCm 6.0 软件的类似配置的系统上的训练性能 (TFLOPS)。
硬件配置
1P AMD 霄龙 9454 CPU、8x AMD Instinct MI300X(192GB,750W)GPU、American Megatrends International LLC BIOS 版本:1.8,BIOS 1.8。
软件配置
Ubuntu 22.04 LTS,搭载 Linux 内核 5.15.0-70-generic
ROCm 7.0.、Megatron-LM、PyTorch 2.7.0
对比
ROCm 6.0 公开版本 SW、Megatron-LM 代码分支 hanl/disable_te_llama2(用于 Llama 2-7B)、guihong_dev(用于 LLama 2-70B)、renwuli/disable_te_qwen1.5(用于 Qwen1.5-14B)、PyTorch 2.2。
服务器制造商的配置可能有所不同,从而导致不同的结果。性能可能会因配置、软件、vLLM 版本以及最新驱动程序和优化的使用情况而有所不同。
MI300-080 - AMD 性能实验室于 2025 年 5 月 15 日进行测试,测量 AMD ROCm 6.x 软件 vLLM 0.3.3 与 AMD ROCm 7.0 预览版软件 vLLM 0.8.5 的推理性能(以每秒令牌数 (TPS) 为单位),测试系统搭载 8 块 AMD Instinct MI300X GPU,运行 Llama 3.1-70B (TP2)、Qwen 72B (TP2) 和 Deepseek-R1 (FP16) 模型,批量大小为 1-256,序列长度为 128-204。性能提升以测试的 3 款 LLM 的平均 TPS 表示。
硬件配置
1P AMD 霄龙 9534 CPU 服务器,配备 8 个 AMD Instinct MI300X(192GB,750W)GPU、Supermicro AS-8125GS-TNMR2、NPS1(每个插槽 1 个 NUMA)、1.5 TiB(24 个 DIMM、4800 mts 内存、64 GiB/DIMM)、4 个 3.49TB Micron 7450 存储器,BIOS 版本:1.8
软件配置
Ubuntu 22.04 LTS,搭载 Linux 内核 5.15.0-119-generic
Qwen 72B 和 Llama 3.1-70B -
ROCm 7.0 预览版 SW
PyTorch 2.7.0. Deepseek R-1 - ROCm 7.0 预览版、SGLang 0.4.6、PyTorch 2.6.0
对比
Qwen 72 和 Llama 3.1-70B - ROCm 6.x GA SW
分别为 PyTorch 2.7.0 和 2.1.1
Deepseek R-1:ROCm 6.x GA SW
SGLang 0.4.1,PyTorch 2.5.0
服务器制造商的配置可能有所不同,从而导致不同的结果。性能可能会因配置、软件、vLLM 版本以及最新驱动程序和优化的使用情况而有所不同。
MI300-081 - AMD 性能实验室于 2025 年 5 月 15 日进行的测试,用于测量 ROCm 7.0 预览版软件 Megatron-LM 在运行 Llama 2-70B (4K)、Qwen1.5-14B 和 Llama3.1-8B 型号的 (8) AMD Instinct MI300X GPU 以及自定义 docker 容器与使用 AMD ROCm 6.0 软件的类似配置的系统上的训练性能 (TFLOPS)。
硬件配置
1P AMD 霄龙 9454 CPU、8x AMD Instinct MI300X(192GB,750W)GPU、American Megatrends International LLC BIOS 版本:1.8,BIOS 1.8。
软件配置
Ubuntu 22.04 LTS,搭载 Linux 内核 5.15.0-70-generic
ROCm 7.0.、Megatron-LM、PyTorch 2.7.0
对比
ROCm 6.0 公开版本 SW、Megatron-LM 代码分支 hanl/disable_te_llama2(用于 Llama 2-7B)、guihong_dev(用于 LLama 2-70B)、renwuli/disable_te_qwen1.5(用于 Qwen1.5-14B)、PyTorch 2.2。
服务器制造商的配置可能有所不同,从而导致不同的结果。性能可能会因配置、软件、vLLM 版本以及最新驱动程序和优化的使用情况而有所不同。