Der fortschrittlichste KI-Software-Stack von AMD

Neueste Algorithmen und Modelle

Verbessertes Reasoning, Aufmerksamkeitsalgorithmen und Sparse MoE für mehr Effizienz

Unterstützung für AMD Instinct™ MI350-Serie

AMD CDNA 4 Architektur zur Unterstützung neuer Datentypen mit erweitertem HBM

Erweiterte Funktionen zur Skalierung von KI

Nahtlos verteilte Inferenz, MoE-Training, Verstärkungslernen im großen Maßstab

KI-Lebenszyklus

Vereinfachtes Unternehmens-KI- und Cluster-Management für Skalierbarkeit in verschiedenen Branchen

Unterstützung für AMD Ryzen™ AI und AMD Radeon™ Grafikeinheiten

Umfassende Endpunkt-KI-Lösung für vielseitige Anwendungsanforderungen

Eine neue Generation an Performance

ROCm 7 im Vergleich zu ROCm 6

3,5 x Durchschnittliche Performance-Verbesserung
3,2
3,4 x
3,8 x
Llama 3.1 70B
Qwen2-72B
DeepSeek R1
Inferenz¹
3 x Durchschnittliche Performance-Verbesserung
3 x
3 x
3,1 x
Llama 2 70B
Llama 3.1 8B
Qwen1.5 7B
Training²

Unterstützung für AMD Instinct™ MI350-Serie

Unterstützung für AMD Instinct™ MI350-Serie GPUs

Verbesserung der nahtlosen Integration von AMD Instinct MI350X Plattformen in die offene Rack-Infrastruktur für eine schnelle Bereitstellung und optimierte KI-Performance im großen Maßstab.

AMD Instinct™ MI350X Accelerators

Skalierung von Unternehmens-KI

data center

Verteilte Inferenz mit offenem Ökosystem

Mit vLLM-d, DeepEP, SGLang und GPU-Direktzugriff ermöglicht die ROCm Softwareplattform den höchsten Durchsatz im Rack-Maßstab – über Batches, Knoten und Modelle hinweg.

woman in data center

ROCm für KI-Lebenszyklus

Die ROCm Software lässt sich in Unternehmens-KI-Frameworks integrieren, um einen vollständig offenen End-to-End-Workflow für Produktions-KI bereitzustellen, der ROCm Enterprise AI einschließlich Betriebsplattform und Cluster Management umfasst.

vertical-gradient-1.png

KI am Endpunkt

Erweiterung des ROCm Ökosystems auf AMD Ryzen™ AI und AMD Radeon™ Grafikeinheiten

Das ROCm Endpoint AI Ökosystem unterstützt Linux und Windows auf AMD Radeon Produkten, einschließlich der neuesten Radeon RX 9000-Serie sowie der branchenführenden Ryzen AI MAX Produkte.

AMD Radeon AI PRO R9700 and Ryzen AI Max
curved gradient divider

Noch heute durchstarten

Beschleunigen Sie Ihre KI/ML-, High-Performance-Computing- und Datenanalyseaufgaben mit der AMD Developer Cloud.

Immer informiert bleiben

Bleiben Sie mit den neuesten Nachrichten über ROCm informiert.

Fußnoten
  1. MI300-080 – Tests durchgeführt vom AMD Leistungslabor am 15. Mai 2025 zur Messung der Inferenz-Performance in Token pro Sekunde (TPS) der AMD ROCm 6.x Software, vLLM 0.3.3 im Vergleich zu AMD ROCm 7.0 Preview Version SW, vLLM 0.8.5 auf einem System mit (8) AMD Instinct MI300X GPUs mit Llama 3.1-70B (TP2), Qwen 72B (TP2) und Deepseek-R1 (FP16) Modellen mit Batch-Größen von 1–256 und Sequenzlängen von 128–204. Die angegebene Performance-Verbesserung wird als durchschnittliche TPS über die (3) getesteten LLMs ausgedrückt.

    Hardwarekonfiguration

    1P AMD EPYC™ 9534 CPU Server mit 8 x AMD Instinct™ MI300X (192 GB, 750 W) GPUs, Supermicro AS-8125GS-TNMR2, NPS1 (1 NUMA pro Sockel), 1,5 TiB (24 DIMMs, 4800 MT/s Speicher, 64 GiB/DIMM), 4 x 3,49 TB Micron 7450 Speicher, BIOS-Version: 1,8 

    Softwarekonfiguration(en)

    Ubuntu 22.04 LTS mit Linux-Kernel 5.15.0-119-generic

    Qwen 72B und Llama 3.1-70B –

    ROCm 7.0 Preview Version SW 

    PyTorch 2.7.0. DeepSeek R-1 – ROCm 7.0 Preview Version, SGLang 0.4.6, PyTorch 2.6.0 

    im Vergleich zu

    Qwen 72 und Llama 3.1-70B – ROCm 6.x GA SW

    PyTorch 2.7.0 bzw. 2.1.1,  

    DeepSeek R-1: ROCm 6.x GA SW

    SGLang 0.4.1, PyTorch 2.5.0

    Serverhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Die Performance kann je nach Konfiguration, Software, vLLM-Version und Verwendung der neuesten Treiber und Optimierungen variieren.

  2. MI300-081 – Tests durchgeführt vom AMD Leistungslabor am 15. Mai 2025 zur Messung der Trainings-Performance (TFLOPS) der ROCm 7.0 Preview Version Software, Megatron-LM auf (8) AMD Instinct MI300X GPUs mit Llama 2-70B (4K), Qwen1.5-14B und Llama3.1-8B Modellen sowie einem benutzerdefinierten Docker Container im Vergleich zu einem ähnlich konfigurierten System mit AMD ROCm 6.0 Software.

    Hardwarekonfiguration

    1P AMD EPYC™ 9454 CPU, 8 x AMD Instinct MI300X (192 GB, 750 W) GPUs, American Megatrends International LLC BIOS-Version: 1.8, BIOS 1.8.

    Softwarekonfiguration

    Ubuntu 22.04 LTS mit Linux-Kernel 5.15.0-70-generic

    ROCm 7.0, Megatron-LM, PyTorch 2.7.0

    im Vergleich zu

    ROCm 6.0 Public Release SW, Megatron-LM Codeverzweigungen hanl/disable_te_llama2 for Llama 2-7B, guihong_dev for Lama 2-70B, renwuli/disable_te_qwen1.5 for Qwen1.5-14B, PyTorch 2.2.

    Serverhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Die Performance kann je nach Konfiguration, Software, vLLM-Version und Verwendung der neuesten Treiber und Optimierungen variieren.