Neue Standards setzen

AMD Instinct™ Beschleuniger haben den Kunden, die Rechenzentren betreiben, und denjenigen, die alle Möglichkeiten der KI für sich nutzen möchten, von Anfang an die gewünschte Performance, Effizienz und Skalierbarkeit geboten. Jede Generation hat neue Standards gesetzt, branchenführende Spezifikationen geliefert, die Performance weiter optimiert und die Gesamtbetriebskosten gesenkt.1

Mit der Markteinführung der AMD Instinct™ MI350-Serie GPUs im Rahmen des Events „Advancing AI“ weckt AMD einmal mehr hohe Erwartungen.

Führende Performance, KI-gestützt und HPC-optimiert

Jetzt ist es an der Zeit, Ihre Kunden in die neuen AMD Instinct™ MI350X und AMD Instinct™ MI355X GPUs und ihre jeweiligen Plattformen einzuführen. Jede von ihnen baut auf der hochmodernen AMD CDNA™ Architektur der 4. Generation auf und verfügt über eine HBM3E-Speicherkapazität von bis 288 GB und eine Bandbreite von 8 TB/s. AMD Instinct MI350X GPUs wurden für sämtliche Aufgaben vom Training sehr großer KI-Modelle und Hochgeschwindigkeitsinferenz bis hin zu komplexen HPC-Workloads entwickelt und bieten dabei die bis zu 2,5-fache FP6-Performance der B200 Plattform von Nvidia.2 AMD Instinct MI355X GPUs verfügen ihrerseits über einen 2-fachen FP6-Vorteil gegenüber GB2003 und legen damit die Messlatte für Dichte, Effizienz und Durchsatz im großen Maßstab noch einmal deutlich höher.

AMD hat diese Beschleuniger so konzipiert, dass sie mit den steigenden Anforderungen von Kunden und Infrastruktur Schritt halten. Diese neuen luftgekühlten GPUs lassen sich nahtlos in AMD Instinct™ MI300-Serie Plattformen der vorherigen Generation integrieren und eignen sich daher als problemloses, kosteneffizientes Upgrade für praktisch jedes Szenario, das Computing mit höherer Dichte erfordert.

Beide AMD Instinct GPUs bieten zusätzlich zur erweiterten Unterstützung für FP16- und FP8-Verarbeitung auch umfassende Unterstützung für FP6- und FP4-Datentypen. Damit liefern sie einen Rechendurchsatz und eine Nutzung der Speicherbandbreite ohne Kompromisse bei gleichzeitiger Maximierung der Energieeffizienz. AMD Instinct MI350-Serie GPUs bieten außerdem eine bis zu 7-mal bessere Performance bei der FP4-Ausführung im Vergleich zu AMD Instinct MI300X GPUs mit FP16-Ausführung.4 Damit sind sie hervorragend aufgestellt für eine unglaubliche Performance bei erweiterten generativen KI-Modellen, die die Grenzen in diesem Bereich weiter denn je verschieben.

Spezifikation

AMD Instinct™ MI350X GPU

AMD Instinct™ MI350X Plattform

AMD Instinct™ MI355X GPU

AMD Instinct™ MI355X Plattform

GPUs

AMD Instinct MI350X OAM

8 x AMD Instinct MI350X OAM

AMD Instinct MI355X OAM

8 x AMD Instinct MI355X OAM

GPU-Architektur

AMD CDNA™ 4

AMD CDNA™ 4

AMD CDNA™ 4

AMD CDNA™ 4

Dedizierte Speichergröße

288 GB HBM3E

2,3 TB HBM3E

288 GB HBM3E

2,3 TB HBM3E

Speicherbandbreite

8 TB/s

8 TB/s pro OAM

8 TB/s

8 TB/s pro OAM

Max. Performance halbe Genauigkeit (FP16)*

4,6 PFLOPS

36,8 PFLOPS

4,6 PFLOPS

36,8 PFLOPS

Max. Performance Acht-Bit-Genauigkeit (FP8)*

9,228 PFLOPs

72 PFLOPs

9,228 PFLOPs

72 PFLOPs

Max. Performance Sechs-Bit-Genauigkeit (FP6)*

18,45 PFLOPS

148 PFLOPS

18,45 PFLOPS

148 PFLOPS

Max. Performance Vier-Bit-Genauigkeit (FP4)*

18,45 PFLOPS

148 PFLOPS

18,45 PFLOPS

148 PFLOPS

Kühlung

Luftkühlung

Luftkühlung

Direkte Flüssigkühlung

Direkte Flüssigkühlung

Typische Platinenleistung

1.000 W max.

1.000 W max. pro OAM

1.400 W max.

1.400 W max. pro OAM

*mit strukturierter Sparsity

Integriert in AMD ROCm™ Software der nächsten Generation

Aufbauend auf dem Engagement von AMD für Open-Source-Innovationen sind AMD Instinct MI350-Serie GPUs in den AMD ROCm™ Software-Stack der nächsten Generation integriert und bieten damit die offene Premium-Alternative der Branche für KI- und HPC-Workloads.

In Kombination mit der Einführung dieser neuen Beschleuniger ermöglichen die jüngsten Verbesserungen der AMD ROCm Software ganz neue Dimensionen bei KI-Workloads, mit denen KI-Inferencing und -Training sowie die Framework-Kompatibilität weiter optimiert werden, um Ergebnisse mit hohem Durchsatz und niedriger Latenz für anspruchsvolle Workloads wie z. B. Natural Language Processing (NLP), Computer Vision und weitere Anwendungen zu liefern.

Dank der strategischen und vertieften Zusammenarbeit mit wichtigen Partnern bietet die ROCm Software Day-0-Unterstützung für KI-Plattformen und -Modelle führender Anbieter wie OpenAI, Meta, PyTorch, Hugging Face, Databricks, Lamini und weiteren. Dies alles sorgt dafür, dass AMD Instinct GPUs für die Ausführung der neuesten KI-Modelle und -Frameworks sofort nach deren Einführung optimiert sind und sowohl Entwickler als auch Unternehmen ermöglichen, die Integration von KI in ihre Arbeitsabläufe zu beschleunigen.

Es gibt gute Gründe, warum Branchenriesen wie Microsoft und Meta bei der Bereitstellung von KI in großem Maßstab für Modelle wie Llama 405B und GPT auf AMD Instinct GPUs setzen. Kontaktieren Sie Ihren AMD Vertriebsmitarbeiter oder besuchen Sie AMD.com, um mehr zu erfahren und Ihren Kunden die Möglichkeiten der leistungsstarken AMD Instinct Beschleuniger bereitzustellen.

AMD Arena


Erweitern Sie Ihr AMD Produktwissen durch Schulungen zu AMD Ryzen™ PRO, AMD EPYC™, AMD Instinct™ und weiteren.

Verwandte Artikel

Fußnoten
  1. MI325-001A – Berechnungen durchgeführt vom AMD Leistungslabor am 26. September 2024 basierend auf aktuellen Spezifikationen und/oder Schätzungen. Der AMD Instinct™ MI325X OAM Beschleuniger wird über eine Speicherkapazität von 256 GB HBM3E und eine maximale theoretische GPU-Speicherbandbreite von 6 TB/s verfügen. Die tatsächlichen Ergebnisse auf Basis von Chips aus der Produktion können abweichen.
    Die höchsten veröffentlichten Ergebnisse für den NVidia Hopper H200 (141 GB) SXM-GPU-Beschleuniger ergaben eine Speicherkapazität von 141 GB HBM3E und eine GPU-Speicherbandbreite von 4,8 TB/s.  https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446
    Die höchsten veröffentlichten Ergebnisse für den Nvidia Blackwell HGX B100 (192 GB) 700-W-GPU-Beschleuniger ergaben eine HBM3E-Speicherkapazität von 192 GB und eine GPU-Speicherbandbreiten-Performance von 8 TB/s.
    Die höchsten veröffentlichten Ergebnisse für den Nvidia Blackwell HGX B200 (192 GB) GPU-Beschleuniger ergaben eine Speicherkapazität von 192 GB HBM3E und eine GPU-Speicherbandbreite von 8 TB/s.
    Nvidia Blackwell-Spezifikationen unter https://resources.nvidia.com/en-us-blackwell-architecture?_gl=1*1r4pme7*_gcl_aw*R0NMLjE3MTM5NjQ3NTAuQ2p3S0NBancyNkt4QmhCREVpd0F1NktYdDlweXY1dlUtaHNKNmhPdHM4UVdPSlM3dFdQaE40WkI4THZBaW
  2. Basierend auf Berechnungen durch das AMD Leistungslabor im Mai 2025 für die AMD Instinct™ MI350X/MI355X Plattformen mit 8 GPUs zur Ermittlung der theoretischen Spitzenpräzision-Performance beim Vergleich der Datentypen FP64, FP32, TF32, FP16, FP8, FP6, FP4 und INT8 mit Matrix, Tensor, Vector und Sparsity, wie jeweils zutreffend, mit der NVIDIA HGX Blackwell B200 Beschleunigerplattform. Ergebnisse können je nach Konfiguration, Datentyp und Workload variieren. * Nvidia B200 Beschleuniger unterstützen nicht FP32 Tensor. MI350-010
  3. Basierend auf Berechnungen durch das AMD Leistungslabor im Mai 2025 für die AMD Instinct™ MI355X Plattformen mit 8 GPUs zur Ermittlung der theoretischen Spitzenpräzision-Performance beim Vergleich der Datentypen FP64, FP32, TF32, FP16, FP8, FP6, FP4 und INT8 mit Matrix, Tensor, Vector und Sparsity, wie jeweils zutreffend, mit der NVIDIA Grace Blackwell GB200 NVL72 Plattform mit 8 GPUs. Serverhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Die Ergebnisse können aufgrund neuester Treiber und Optimierungen variieren. MI350-018
  4. Berechnungen durchgeführt vom AMD Leistungslabor am 26. September 2024 für die Performance der AMD Instinct™ MI300X GPU-Plattform und der AMD Instinct™ MI300X GPU-Plattform zum Vergleich der Datentypen FP16, FP8 und FP4.

    Instinct MI355X Plattform, 8 x GPU
    Theoretische max. Performance mit halber Genauigkeit (FP16) – 18,5 PFLOPs
    Theoretische max. Performance mit Acht-Bit-Genauigkeit (FP8) – 37 PFLOPs
    Theoretische max. Performance mit Vier-Bit-Genauigkeit (FP4) – 74 PFLOPs

    Instinct MI325X Plattform, 8 x GPU
    Theoretische max. Performance mit halber Genauigkeit (FP16) – 10,4 PFLOPs
    Theoretische max. Performance mit Acht-Bit-Genauigkeit (FP8) – 20,88 PFLOPs

    Instinct MI300X Plattform, 8 x GPU
    Theoretische max. Performance mit halber Genauigkeit (FP16) – 10,4 PFLOPs

    Die tatsächliche Performance hängt von den endgültigen Spezifikationen und der Systemkonfiguration ab. MI355-004