
Der fortschrittlichste KI-Software-Stack von AMD
Neueste Algorithmen und Modelle
Verbessertes Reasoning, Aufmerksamkeitsalgorithmen und Sparse MoE für mehr Effizienz
Unterstützung für AMD Instinct™ MI350-Serie
AMD CDNA 4 Architektur zur Unterstützung neuer Datentypen mit erweitertem HBM
Erweiterte Funktionen zur Skalierung von KI
Nahtlos verteilte Inferenz, MoE-Training, Verstärkungslernen im großen Maßstab
KI-Lebenszyklus
Vereinfachtes Unternehmens-KI- und Cluster-Management für Skalierbarkeit in verschiedenen Branchen
Unterstützung für AMD Ryzen™ AI und AMD Radeon™ Grafikeinheiten
Umfassende Endpunkt-KI-Lösung für vielseitige Anwendungsanforderungen
Eine neue Generation an Performance
ROCm 7 im Vergleich zu ROCm 6
Inferenz¹
Training²
Unterstützung für AMD Instinct™ MI350-Serie
Unterstützung für AMD Instinct™ MI350-Serie GPUs
Verbesserung der nahtlosen Integration von AMD Instinct MI350X Plattformen in die offene Rack-Infrastruktur für eine schnelle Bereitstellung und optimierte KI-Performance im großen Maßstab.

Skalierung von Unternehmens-KI

Verteilte Inferenz mit offenem Ökosystem
Mit vLLM-d, DeepEP, SGLang und GPU-Direktzugriff ermöglicht die ROCm Softwareplattform den höchsten Durchsatz im Rack-Maßstab – über Batches, Knoten und Modelle hinweg.

ROCm für KI-Lebenszyklus
Die ROCm Software lässt sich in Unternehmens-KI-Frameworks integrieren, um einen vollständig offenen End-to-End-Workflow für Produktions-KI bereitzustellen, der ROCm Enterprise AI einschließlich Betriebsplattform und Cluster Management umfasst.

KI am Endpunkt
Erweiterung des ROCm Ökosystems auf AMD Ryzen™ AI und AMD Radeon™ Grafikeinheiten
Das ROCm Endpoint AI Ökosystem unterstützt Linux und Windows auf AMD Radeon Produkten, einschließlich der neuesten Radeon RX 9000-Serie sowie der branchenführenden Ryzen AI MAX Produkte.


Noch heute durchstarten
Beschleunigen Sie Ihre KI/ML-, High-Performance-Computing- und Datenanalyseaufgaben mit der AMD Developer Cloud.
Immer informiert bleiben
Bleiben Sie mit den neuesten Nachrichten über ROCm informiert.
Fußnoten
- MI300-080 – Tests durchgeführt vom AMD Leistungslabor am 15. Mai 2025 zur Messung der Inferenz-Performance in Token pro Sekunde (TPS) der AMD ROCm 6.x Software, vLLM 0.3.3 im Vergleich zu AMD ROCm 7.0 Preview Version SW, vLLM 0.8.5 auf einem System mit (8) AMD Instinct MI300X GPUs mit Llama 3.1-70B (TP2), Qwen 72B (TP2) und Deepseek-R1 (FP16) Modellen mit Batch-Größen von 1–256 und Sequenzlängen von 128–204. Die angegebene Performance-Verbesserung wird als durchschnittliche TPS über die (3) getesteten LLMs ausgedrückt.
Hardwarekonfiguration1P AMD EPYC™ 9534 CPU Server mit 8 x AMD Instinct™ MI300X (192 GB, 750 W) GPUs, Supermicro AS-8125GS-TNMR2, NPS1 (1 NUMA pro Sockel), 1,5 TiB (24 DIMMs, 4800 MT/s Speicher, 64 GiB/DIMM), 4 x 3,49 TB Micron 7450 Speicher, BIOS-Version: 1,8
Softwarekonfiguration(en)
Ubuntu 22.04 LTS mit Linux-Kernel 5.15.0-119-generic
Qwen 72B und Llama 3.1-70B –
ROCm 7.0 Preview Version SW
PyTorch 2.7.0. DeepSeek R-1 – ROCm 7.0 Preview Version, SGLang 0.4.6, PyTorch 2.6.0
im Vergleich zu
Qwen 72 und Llama 3.1-70B – ROCm 6.x GA SW
PyTorch 2.7.0 bzw. 2.1.1,
DeepSeek R-1: ROCm 6.x GA SW
SGLang 0.4.1, PyTorch 2.5.0
Serverhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Die Performance kann je nach Konfiguration, Software, vLLM-Version und Verwendung der neuesten Treiber und Optimierungen variieren.
- MI300-081 – Tests durchgeführt vom AMD Leistungslabor am 15. Mai 2025 zur Messung der Trainings-Performance (TFLOPS) der ROCm 7.0 Preview Version Software, Megatron-LM auf (8) AMD Instinct MI300X GPUs mit Llama 2-70B (4K), Qwen1.5-14B und Llama3.1-8B Modellen sowie einem benutzerdefinierten Docker Container im Vergleich zu einem ähnlich konfigurierten System mit AMD ROCm 6.0 Software.
Hardwarekonfiguration
1P AMD EPYC™ 9454 CPU, 8 x AMD Instinct MI300X (192 GB, 750 W) GPUs, American Megatrends International LLC BIOS-Version: 1.8, BIOS 1.8.
Softwarekonfiguration
Ubuntu 22.04 LTS mit Linux-Kernel 5.15.0-70-generic
ROCm 7.0, Megatron-LM, PyTorch 2.7.0
im Vergleich zu
ROCm 6.0 Public Release SW, Megatron-LM Codeverzweigungen hanl/disable_te_llama2 for Llama 2-7B, guihong_dev for Lama 2-70B, renwuli/disable_te_qwen1.5 for Qwen1.5-14B, PyTorch 2.2.
Serverhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Die Performance kann je nach Konfiguration, Software, vLLM-Version und Verwendung der neuesten Treiber und Optimierungen variieren.
- MI300-080 – Tests durchgeführt vom AMD Leistungslabor am 15. Mai 2025 zur Messung der Inferenz-Performance in Token pro Sekunde (TPS) der AMD ROCm 6.x Software, vLLM 0.3.3 im Vergleich zu AMD ROCm 7.0 Preview Version SW, vLLM 0.8.5 auf einem System mit (8) AMD Instinct MI300X GPUs mit Llama 3.1-70B (TP2), Qwen 72B (TP2) und Deepseek-R1 (FP16) Modellen mit Batch-Größen von 1–256 und Sequenzlängen von 128–204. Die angegebene Performance-Verbesserung wird als durchschnittliche TPS über die (3) getesteten LLMs ausgedrückt.
Hardwarekonfiguration1P AMD EPYC™ 9534 CPU Server mit 8 x AMD Instinct™ MI300X (192 GB, 750 W) GPUs, Supermicro AS-8125GS-TNMR2, NPS1 (1 NUMA pro Sockel), 1,5 TiB (24 DIMMs, 4800 MT/s Speicher, 64 GiB/DIMM), 4 x 3,49 TB Micron 7450 Speicher, BIOS-Version: 1,8
Softwarekonfiguration(en)
Ubuntu 22.04 LTS mit Linux-Kernel 5.15.0-119-generic
Qwen 72B und Llama 3.1-70B –
ROCm 7.0 Preview Version SW
PyTorch 2.7.0. DeepSeek R-1 – ROCm 7.0 Preview Version, SGLang 0.4.6, PyTorch 2.6.0
im Vergleich zu
Qwen 72 und Llama 3.1-70B – ROCm 6.x GA SW
PyTorch 2.7.0 bzw. 2.1.1,
DeepSeek R-1: ROCm 6.x GA SW
SGLang 0.4.1, PyTorch 2.5.0
Serverhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Die Performance kann je nach Konfiguration, Software, vLLM-Version und Verwendung der neuesten Treiber und Optimierungen variieren.
- MI300-081 – Tests durchgeführt vom AMD Leistungslabor am 15. Mai 2025 zur Messung der Trainings-Performance (TFLOPS) der ROCm 7.0 Preview Version Software, Megatron-LM auf (8) AMD Instinct MI300X GPUs mit Llama 2-70B (4K), Qwen1.5-14B und Llama3.1-8B Modellen sowie einem benutzerdefinierten Docker Container im Vergleich zu einem ähnlich konfigurierten System mit AMD ROCm 6.0 Software.
Hardwarekonfiguration
1P AMD EPYC™ 9454 CPU, 8 x AMD Instinct MI300X (192 GB, 750 W) GPUs, American Megatrends International LLC BIOS-Version: 1.8, BIOS 1.8.
Softwarekonfiguration
Ubuntu 22.04 LTS mit Linux-Kernel 5.15.0-70-generic
ROCm 7.0, Megatron-LM, PyTorch 2.7.0
im Vergleich zu
ROCm 6.0 Public Release SW, Megatron-LM Codeverzweigungen hanl/disable_te_llama2 for Llama 2-7B, guihong_dev for Lama 2-70B, renwuli/disable_te_qwen1.5 for Qwen1.5-14B, PyTorch 2.2.
Serverhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Die Performance kann je nach Konfiguration, Software, vLLM-Version und Verwendung der neuesten Treiber und Optimierungen variieren.