Der fortschrittlichste KI-Software-Stack von AMD

Neueste Algorithmen und Modelle

Verbessertes Reasoning, Aufmerksamkeitsalgorithmen und Sparse MoE für mehr Effizienz

Unterstützung für AMD Instinct™ MI350-Serie

AMD CDNA 4 Architektur zur Unterstützung neuer Datentypen mit erweitertem HBM

Erweiterte Funktionen zur Skalierung von KI

Nahtlos verteilte Inferenz, MoE-Training, Verstärkungslernen im großen Maßstab

KI-Tools für Unternehmen

KI mit Orchestrierung und Endpunkt-Unterstützung über Cluster hinweg bereitstellen und verwalten

KI am Endpunkt

Von Ryzen™ AI bis hin zu Radeon™ Grafikkarten – vielseitiger Endpunkt-KI-Prozessor für jede Anwendung

Eine neue Generation an Performance

ROCm 7 im Vergleich zu ROCm 6

3,5 x Durchschnittliche Performance-Verbesserung
3,2
3,4 x
3,8 x
Llama 3.1 70B
Qwen2-72B
DeepSeek R1
Inferenz¹
3 x Durchschnittliche Performance-Verbesserung
3 x
3 x
3,1 x
Llama 2 70B
Llama 3.1 8B
Qwen1.5 7B
Training²

Unterstützung für AMD Instinct™ MI350-Serie

Unterstützung für AMD Instinct™ MI350-Serie GPUs

Verbesserung der nahtlosen Integration von AMD Instinct MI350X Plattformen in die offene Rack-Infrastruktur für eine schnelle Bereitstellung und optimierte KI-Performance im großen Maßstab.

AMD Instinct™ MI350X Accelerators

Skalierung von Unternehmens-KI

data center

Verteilte Inferenz mit offenem Ökosystem

Mit vLLM-d, DeepEP, SGLang und GPU-Direktzugriff ermöglicht die ROCm Softwareplattform den höchsten Durchsatz im Rack-Maßstab – über Batches, Knoten und Modelle hinweg.

woman in data center

ROCm für KI-Lebenszyklus

Die ROCm Software lässt sich in Unternehmens-KI-Frameworks integrieren und stellt so einen vollständig offenen End-to-End-Workflow für Produktions-KI bereit. Dieser umfasst ROCm Enterprise AI und ROCm Cluster Management, sodass eine nahtlose Bereitstellung und Skalierbarkeit möglich werden.

vertical-gradient-1.png

KI am Endpunkt

Erweiterung des ROCm Ökosystems auf AMD Ryzen™ AI Prozessoren und AMD Radeon™ Grafikeinheiten

Das ROCm-Endpoint-KI-Ökosystem basiert auf der effizienten Open-Source-Plattform für Builds TheROCK mit nächtlichen Releases von ROCm und PyTorch. Dieses System unterstützt jetzt sowohl Linux als auch Windows und ist für die neueste Radeon RX 9000-Serie und die führenden Ryzen AI Max Produkte ausgelegt. Es bietet eine robuste Grundlage für eine nahtlose KI-Entwicklung und -Bereitstellung.

Eine Vorschau von PyTorch ist jetzt verfügbar: Linux-Unterstützung für AMD Ryzen™ AI 300-Serie* und Ryzen AI Max-Serie sowie Windows-Unterstützung für AMD Ryzen AI 300-Serie*, Ryzen AI Max-Serie und für alle AMD Radeon™ RX 7000- und Radeon W7000-Serie (und neuer).

*Vollständige Liste der unterstützten Produkte siehe Seite mit Kompatibilitätsmatrix.

AMD Radeon AI PRO R9700 and Ryzen AI Max
curved gradient divider

Noch heute durchstarten

Beschleunigen Sie Ihre KI/ML-, High-Performance-Computing- und Datenanalyseaufgaben mit der AMD Developer Cloud.

Immer informiert bleiben

Bleiben Sie mit den neuesten Nachrichten über ROCm informiert.

Fußnoten
  1. MI300-080 – Tests durchgeführt vom AMD Leistungslabor am 15. Mai 2025 zur Messung der Inferenz-Performance in Token pro Sekunde (TPS) der AMD ROCm 6.x Software, vLLM 0.3.3 im Vergleich zu AMD ROCm 7.0 Preview Version SW, vLLM 0.8.5 auf einem System mit (8) AMD Instinct MI300X GPUs mit Llama 3.1-70B (TP2), Qwen 72B (TP2) und Deepseek-R1 (FP16) Modellen mit Batch-Größen von 1–256 und Sequenzlängen von 128–204. Die angegebene Performance-Verbesserung wird als durchschnittliche TPS über die (3) getesteten LLMs ausgedrückt.

    Hardwarekonfiguration

    1P AMD EPYC™ 9534 CPU Server mit 8 x AMD Instinct™ MI300X (192 GB, 750 W) GPUs, Supermicro AS-8125GS-TNMR2, NPS1 (1 NUMA pro Sockel), 1,5 TiB (24 DIMMs, 4800 MT/s Speicher, 64 GiB/DIMM), 4 x 3,49 TB Micron 7450 Speicher, BIOS-Version: 1,8 

    Softwarekonfiguration(en)

    Ubuntu 22.04 LTS mit Linux-Kernel 5.15.0-119-generic

    Qwen 72B und Llama 3.1-70B –

    ROCm 7.0 Preview Version SW 

    PyTorch 2.7.0. DeepSeek R-1 – ROCm 7.0 Preview Version, SGLang 0.4.6, PyTorch 2.6.0 

    im Vergleich zu

    Qwen 72 und Llama 3.1-70B – ROCm 6.x GA SW

    PyTorch 2.7.0 bzw. 2.1.1,  

    DeepSeek R-1: ROCm 6.x GA SW

    SGLang 0.4.1, PyTorch 2.5.0

    Serverhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Die Performance kann je nach Konfiguration, Software, vLLM-Version und Verwendung der neuesten Treiber und Optimierungen variieren.

  2. MI300-081 – Tests durchgeführt vom AMD Leistungslabor am 15. Mai 2025 zur Messung der Trainings-Performance (TFLOPS) der ROCm 7.0 Preview Version Software, Megatron-LM auf (8) AMD Instinct MI300X GPUs mit Llama 2-70B (4K), Qwen1.5-14B und Llama3.1-8B Modellen sowie einem benutzerdefinierten Docker Container im Vergleich zu einem ähnlich konfigurierten System mit AMD ROCm 6.0 Software.

    Hardwarekonfiguration

    1P AMD EPYC™ 9454 CPU, 8 x AMD Instinct MI300X (192 GB, 750 W) GPUs, American Megatrends International LLC BIOS-Version: 1.8, BIOS 1.8.

    Softwarekonfiguration

    Ubuntu 22.04 LTS mit Linux-Kernel 5.15.0-70-generic

    ROCm 7.0, Megatron-LM, PyTorch 2.7.0

    im Vergleich zu

    ROCm 6.0 Public Release SW, Megatron-LM Codeverzweigungen hanl/disable_te_llama2 for Llama 2-7B, guihong_dev for Lama 2-70B, renwuli/disable_te_qwen1.5 for Qwen1.5-14B, PyTorch 2.2.

    Serverhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Die Performance kann je nach Konfiguration, Software, vLLM-Version und Verwendung der neuesten Treiber und Optimierungen variieren.