Neue Maßstäbe für KI-Performance

Die Höhe der Investitionen, die Kunden in KI-Beschleuniger tätigen, wird bis 2028 voraussichtlich 500 Milliarden US-Dollar erreichen. In nur vier kurzen Jahren werden Beschleuniger den Unternehmen eine halbe Billion Dollar wert sein. Das Maß an Produktivität, Verbesserung und Revolutionierung, das KI den Unternehmen bietet, ist beispiellos – und Führungskräfte haben das erkannt. Deshalb haben sie bereits Milliarden investiert, um ihre Arbeitsweise zu verändern. Millionen von Menschen verlassen sich bereits jeden Tag auf AMD Instinct™ Beschleuniger, indem sie Anwendungen verwenden, die mit beliebten KI-Modellen wie GPT 4, Llama 3.1 405B und vielen der mehr als eine Million Open-Source-Modelle auf der Plattform Hugging Face ausgeführt werden.

Dieses Produktivitätsniveau wird sprunghaft ansteigen. Mit der Einführung der neuen AMD Instinct™ MI325X Beschleuniger stellt AMD sicher, dass dies früher geschieht als später.

AMD Instinct™ MI325X Beschleuniger

Riesige Speichergröße trifft auf branchenführende Performance

AMD Instinct™ MI325X Beschleuniger setzen neue Maßstäbe bei der Performance von generativen KI-Modellen und Rechenzentren. Sie basieren auf der AMD CDNA™ Architektur der 3. Generation und bieten außergewöhnliche Performance und Effizienz bei einer Reihe anspruchsvoller KI-Aufgaben, einschließlich des Trainings von Modellen und Inferenz. 

Solche intensiven KI-Anwendungen erfordern viel Speicher, weshalb wir branchenführende 256 GB an HBM3e-Speicherkapazität der nächsten Generation und eine Bandbreite von 6 TB/s bieten. In Kombination mit der erforderlichen Rechenleistung und umfassenden Datentypunterstützung bieten AMD Instinct MI325X Beschleuniger das Niveau an Performance, das Unternehmen für praktisch jede KI-Lösung benötigen.1

Im Vergleich mit Konkurrenzprodukten ermöglichen AMD Instinct MI325X Beschleuniger in Modellen wie Mixtral 8x7B, Mistral 7B und Meta Llama-3.1 70B eine bis zu 1,4-fache Verbesserung der führenden Inferenz-Performance.2,3,4

Während die Performance-Zahlen steigen – und mit ihnen die Produktivität –, profitieren Kunden von der branchenführenden Speichergröße und den damit einhergehenden Vorteilen. Kunden können weniger GPUs mit KI Large Language Models verwenden, kleinere Cluster können genutzt werden, um die gleichen oder bessere Ergebnisse als mit Produkten der vorherigen Generation zu erzielen.5 Die Vorteile sind: geringer Platzbedarf, optimierte Bereitstellungen und Energieeinsparungen. AMD Instinct MI325X Beschleuniger sind die klare Wahl für Unternehmen, die eine extreme Performance ohne extreme Gesamtbetriebskosten möchten.

Die AMD Instinct™ MI325X Plattform

Eine Grundlage für branchenführendes Computing ohne Kompromisse

Large Language Models und generative KI erfordern heute drei Dinge, um schnelle Ergebnisse zu liefern: hohe Beschleunigung über mehrere Datentypen hinweg, großen Speicher bzw. große Bandbreite, um riesige Datensätze zu verarbeiten, und extreme E/A-Bandbreite.

Mit der Plattform rund um diese neuen Beschleuniger erhalten Kunden alle drei. Die neue Basisplatine nach Branchenstandard (UBB 2.0) hostet bis zu acht AMD Instinct™ MI325X Beschleuniger und 2 TB an HBM3e-Speicher, um selbst die anspruchsvollsten KI-Modelle zu bewältigen, und mit acht x16 PCIe® Gen 5 Host-E/A-Verbindungen und AMD Infinity Fabric™ Mesh-Technologie, die eine direkte Verbindung zwischen jedem Beschleuniger ermöglicht, gehören Datenengpässe der Vergangenheit an.

Im Vergleich zu ähnlichen Plattformen von Mitbewerbern bietet die MI325X Plattform 1,8-fache Speicherkapazität, 1,3-fache Speicherbandbreite und einen enormen Leistungssprung mit bis zu 1,4-facher Inferenz-Performance. 6, 7, 8

Für Kunden, die ein Upgrade der bestehenden AMD Instinct Infrastruktur durchführen möchten, bieten AMD Instinct MI325X Beschleuniger eine Drop-in-Kompatibilität mit der AMD Instinct™ MI300X Plattform, wodurch die Markteinführungszeit verkürzt und kostspielige Infrastrukturänderungen minimiert werden. 

Beschleuniger

Architektur

Speicher

Speicherbandbreite

FP8-Performance

FP16-Performance

AMD Instinct™ MI325X

AMD CDNA™ 3

256 GB HBM3e

6 TB/s

2,6 PF

1,3 PF


AMD ROCm™ Plattform

Beschleunigung von KI-Inferencing und -Training mit Open Software

AMD Instinct™ MI325X Beschleuniger nutzen die Performance der AMD ROCm™ Software, die Grundlage für beschleunigtes Computing mit AMD, und bieten Benutzern unglaubliche Funktionen – ganz gleich, ob sie an KI-Anwendungen der nächsten Generation, hochmodernen KI-Modellen oder der Optimierung komplexer Simulationen arbeiten.

Kunden, die sich für Beschleuniger von AMD entscheiden, profitieren von Zero-Day-Support für branchenübliche Frameworks wie PyTorch und TensorFlow, die die Migration und Bereitstellung von KI-Modellen vereinfachen und nur minimale Codeänderungen erfordern. Darüber hinaus verbessert die neueste AMD ROCm Version – auf AMD Instinct Beschleunigern mit optimierten Compilern, Bibliotheken und Laufzeitunterstützung – die Trainings-Performance um das 1,8-Fache und die GPU-Inferencing-Performance um das 2,4-Fache. So werden eine schnelle Modellkonvergenz, genaue Modellprognosen und eine unglaublich effiziente GPU-Auslastung gewährleistet.9,10

Möchten Sie mehr über AMD Instinct™ MI325X Beschleuniger erfahren? Besuchen Sie AMD.com, oder wenden Sie sich bezüglich Produktinformationen und -verfügbarkeiten an Ihren AMD Ansprechpartner.

AMD Arena


Erweitern Sie Ihr AMD Produktwissen durch Schulungen zu AMD Ryzen™ PRO, AMD EPYC™, AMD Instinct™ und weiteren.

Verwandte Artikel

Fußnoten
  1. Berechnungen durchgeführt vom AMD Leistungslabor am 26.09.2024 basierend auf aktuellen Spezifikationen und/oder Schätzungen. Der AMD Instinct™ MI325X OAM Beschleuniger wird über eine Speicherkapazität von 256 GB HBM3e und eine maximale theoretische GPU-Speicherbandbreite von 6 TB/s verfügen. Die tatsächlichen Ergebnisse auf Basis von Chips aus der Produktion können abweichen. Die höchsten veröffentlichten Ergebnisse für den NVidia Hopper H200 (141 GB) SXM-GPU-Beschleuniger ergaben eine Speicherkapazität von 141 GB HBM3e und eine GPU-Speicherbandbreite von 4,8 TB/s.  https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446. Die höchsten veröffentlichten Ergebnisse für den Nvidia Blackwell HGX B100 (192 GB) 700-W-GPU-Beschleuniger ergaben eine HBM3e-Speicherkapazität von 192 GB und eine GPU-Speicherbandbreiten-Performance von 8 TB/s. Die höchsten veröffentlichten Ergebnisse für den Nvidia Blackwell HGX B200 (192 GB) GPU-Beschleuniger ergaben eine Speicherkapazität von 192 GB HBM3e und eine GPU-Speicherbandbreite von 8 TB/s. Nvidia Blackwell-Spezifikationen unter https://resources.nvidia.com/en-us-blackwell-architecture. MI325-001A

  2. MI325-004: Basierend auf Tests, die am 28.09.2024 vom AMD Leistungslabor durchgeführt wurden, bei denen der Durchsatz von generiertem Text für das Modell Mixtral-8x7B unter Verwendung des Datentyps FP16 gemessen wurde. Der Test wurde mit einer Eingabelänge von 128 Token und einer Ausgabelänge von 4.096 Token für den AMD Instinct™ MI325X GPU-Beschleuniger und den NVIDIA H200 SXM GPU-Beschleuniger durchgeführt. 1 x MI325X bei 1.000 W mit vLLM-Performance im Vergleich zu 1 x H200 bei 700 W mit TensorRT-LLM v0.13. Serverhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Die Performance kann aufgrund neuester Treiber und Optimierungen variieren. MI325-004

  3. MI325-005: Basierend auf Tests, die am 28.09.2024 vom AMD Leistungslabor durchgeführt wurden, bei denen die Gesamtlatenz für das Mistral-7B-Modell unter Verwendung des Datentyps FP16 gemessen wurde. Der Test wurde mit einer Eingabelänge von 128 Token und einer Ausgabelänge von 128 Token für den AMD Instinct™ MI325X GPU-Beschleuniger und den NVIDIA H200 SXM GPU-Beschleuniger durchgeführt. Serverhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Die Performance kann aufgrund neuester Treiber und Optimierungen variieren. MI325-005

  4. MI325-006: Basierend auf Tests, die am 28.09.2024 vom AMD Leistungslabor durchgeführt wurden, bei denen die Gesamtlatenz für das Modell LLaMA 3.1-70B unter Verwendung des Datentyps FP8 gemessen wurde. Der Test wurde mit einer Eingabelänge von 2.048 Token und einer Ausgabelänge von 2.048 Token für die folgenden Konfigurationen des AMD Instinct™ MI325X GPU-Beschleunigers und des NVIDIA H200 SXM GPU-Beschleunigers durchgeführt. Serverhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Die Performance kann aufgrund neuester Treiber und Optimierungen variieren. MI325-006

  5. MI325-003A: Berechnete Schätzungen basieren auf der Größe des reinen GPU-Speichers im Vergleich zum Speicherbedarf des Modells bei definierten Parametern plus 10 % Overhead. Die Berechnungen beruhen auf veröffentlichten und mitunter vorläufigen Modellspeichergrößen. Die Ergebnisse für PaLM 1, Llama 3.1 405B, Mixtral 8x22B und Samba-1 werden aufgrund der System-/Teileverfügbarkeit für MI325X und H200 geschätzt.

    Ergebnisse (berechnet):
    Erforderliche GPUs: MI325X im Vergleich zu H200
    PaLM-1 (540B) 5 9
    Llama 3.1 (405B) 4 7
    Mixtral 8x22B (141B) 2 3
    Samba-1 (1T) 9 16

    Serverhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Die Performance kann aufgrund neuester Treiber und Optimierungen variieren.

  6. MI325-001A: Berechnungen durchgeführt vom AMD Leistungslabor am 26.09.2024 basierend auf aktuellen Spezifikationen und/oder Schätzungen. Der AMD Instinct™ MI325X OAM Beschleuniger wird über eine Speicherkapazität von 256 GB HBM3e und eine maximale theoretische GPU-Speicherbandbreite von 6 TB/s verfügen. Die tatsächlichen Ergebnisse auf Basis von Chips aus der Produktion können abweichen. Die höchsten veröffentlichten Ergebnisse für den NVidia Hopper H200 (141 GB) SXM-GPU-Beschleuniger ergaben eine Speicherkapazität von 141 GB HBM3e und eine GPU-Speicherbandbreite von 4,8 TB/s: https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446. Die höchsten veröffentlichten Ergebnisse für den Nvidia Blackwell HGX B100 (192 GB) 700-W-GPU-Beschleuniger ergaben eine HBM3e-Speicherkapazität von 192 GB und eine GPU-Speicherbandbreiten-Performance von 8 TB/s. Die höchsten veröffentlichten Ergebnisse für den Nvidia Blackwell HGX B200 (192 GB) GPU-Beschleuniger ergaben eine Speicherkapazität von 192 GB HBM3e und eine GPU-Speicherbandbreite von 8 TB/s. Nvidia Blackwell-Spezifikationen unter https://resources.nvidia.com/en-us-blackwell-architecture.

  7. MI325-002: Die vom AMD Leistungslabor am 28. Mai 2024 durchgeführten Berechnungen für die AMD Instinct™ MI325X GPU ergaben 1.307,4 TFLOPS theoretische Halbpräzision (FP16), 1.307,4 TFLOPS theoretische Spitzenpräzision im Bfloat16-Format (BF16), 2.614,9 TFLOPS theoretische Spitzenpräzision mit 8 Bit (FP8), 2.614,9 TOPs INT8-Gleitkommaleistung. Die tatsächliche Performance hängt von den endgültigen Spezifikationen und der Systemkonfiguration ab.
    Veröffentlichte Ergebnisse für Nvidia H200 SXM (141 GB) GPU: 989,4 TFLOPS theoretische Spitzenleistung bei halber Genauigkeit des Tensors (FP16-Tensor), 989,4 TFLOPS theoretische Spitzenleistung bei Bfloat16-Tensorformat-Genauigkeit (BF16-Tensor), 1.978,9 TFLOPS theoretische Spitzenleistung bei 8-Bit-Genauigkeit (FP8), 1.978,9 TOPs theoretische Spitzenleistung bei INT8-Gleitkommaleistung. Die Performance von BFLOAT16 Tensor Core, FP16 Tensor Core, FP8 Tensor Core und INT8 Tensor Core wurde von Nvidia unter Verwendung von Sparsity veröffentlicht. Zum Vergleich hat AMD diese Zahlen durch Division durch 2 in Nicht-Sparsity/Dense umgewandelt. Diese Zahlen sind oben aufgeführt.
    Nvidia H200 Quelle: https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446 und https://www.anandtech.com/show/21136/nvidia-at-sc23-h200-accelerator-with-hbm3e-and-jupiter-supercomputer-for-2024

    Hinweis: Nvidia H200 GPUs haben die gleiche veröffentlichte FLOPs-Performance wie H100-Produkte https://resources.nvidia.com/en-us-tensor-core. MI325-002

  8. MI325-014: Basierend auf Tests, die am 08.10.2024 vom AMD Leistungslabor durchgeführt wurden, um den Durchsatz von generiertem Text für das LLaMA 3.1-405B-Modell unter Verwendung des Datentyps FP8 zu messen. Der Test wurde mit einer Eingabelänge von 128 Token und einer Ausgabelänge von 2.048 Token für die folgenden Konfigurationen der AMD Instinct™ MI325X 8 x GPU-Plattform und NVIDIA H200 HGX GPU-Plattform durchgeführt. 8 x GPU MI325X-Plattform mit vLLM-Performance im Vergleich zu veröffentlichten Ergebnissen von NVIDIA. Konfigurationen: MI325X 8 x GPU-Plattform. Konfiguration Dell PowerEdge XE9680 mit 2 x Intel Xeon Platinum 8480+ Prozessoren, 8 x AMD Instinct MI325X (256 GiB, 1.000 W) GPUs, Ubuntu 22.04 und einem Pre-Release-Build von ROCm 6.3 im Vergleich zu veröffentlichten Ergebnissen von Nvidia für TensorRT-LLM v0.13, die erfasst wurden unter: https://github.com/NVIDIA/TensorRT-LLM/blob/v0.13.0/docs/source/performance/perf-overview.md – 3.039,7 Ausgabe-Token/s. Serverhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Die Performance kann aufgrund neuester Treiber und Optimierungen variieren. MI325-014

  9. MI300-61: Messungen durchgeführt vom AMD AI Product Management Team am 28.09.2024 mit einer AMD Instinct™ MI300X GPU zum Vergleich der Performance des Large Language Model (LLM) mit aktivierten und deaktivierten Optimierungsmethoden auf Llama 3.1-70B und Llama 3.1-405B und vLLM 0.5.5.

    Systemkonfigurationen:
    AMD EPYC 9654 96-Core Prozessor, 8 x AMD MI300X, ROCm™ 6.1, Linux® 7ee7e017abe3 5.15.0-116-generic #126-Ubuntu® SMP Mon Jul 1 10:14:24 UTC 2024 x86_64 x86_64 x86_64 GNU/Linux, Frequency Boost: aktiviert. Die Performance kann je nach Faktoren wie u. a. verschiedenen Versionen von Konfigurationen, vLLM und Treibern variieren.

  10. MI300-62: Getestet am 29. September 2024 im AMD Leistungslabor zum Vergleich der Inferencing-Performance der ROCm 6.2 Software und der ROCm 6.0 Software auf Systemen mit acht AMD Instinct™ MI300X GPUs in Verbindung mit den Modellen Llama 3.1-8B, Llama 3.1-70B, Mixtral-8x7B, Mixtral-8x22B und Qwen 72B. Die Performance von ROCm 6.2 mit vLLM 0.5.5 wurde mit der Performance von ROCm 6.0 mit vLLM 0.3.3 verglichen, und es wurden Tests über Batchgrößen von 1 bis 256 und Sequenzlängen von 128 bis 2.048 durchgeführt.

    Konfigurationen:
    1P AMD EPYC™ 9534 CPU Server mit 8 x AMD Instinct™ MI300X (192 GB, 750 W) GPUs, Supermicro AS-8125GS-TNMR2, NPS1 (1 NUMA pro Sockel), 1,5 TiB (24 DIMMs, 4800 MT/s Speicher, 64 GiB/DIMM), 4 x 3,49 TB Micron 7450 Speicher, BIOS-Version: 1.8, ROCm 6.2.0-00, vLLM 0.5.5, PyTorch 2.4.0, Ubuntu® 22.04 LTS mit Linux-Kernel 5.15.0-119-generic.
    im Vergleich zu
    1P AMD EPYC 9534 CPU Server mit 8 x AMD Instinct™ MI300X (192 GB, 750 W) GPUs, Supermicro AS-8125GS-TNMR2, NPS1 (1 NUMA pro Sockel), 1,5 TiB 24 DIMMs, 4800 MT/s Speicher, 64 GiB/DIMM), 4 x 3,49 TB Micron 7450 Speicher, BIOS-Version: 1.8, ROCm 6.0.0-00, vLLM 0.3.3, PyTorch 2.1.1, Ubuntu 22.04 LTS mit Linux-Kernel 5.15.0-119-generic.

    Serverhersteller wählen möglicherweise andere Konfigurationen, was zu anderen Ergebnissen führen kann. Die Performance kann je nach Faktoren wie u. a. verschiedenen Versionen von Konfigurationen, vLLM und Treibern variieren.

    HAFTUNGSAUSSCHLUSS: Die hier enthaltenen Angaben dienen ausschließlich zur Information und können ohne Vorankündigung geändert werden. Obwohl dieses Dokument mit aller Sorgfalt angefertigt wurde, kann es technische Ungenauigkeiten, Auslassungen und typografische Fehler enthalten. AMD ist nicht verpflichtet, diese Informationen zu aktualisieren oder anderweitig zu korrigieren. Advanced Micro Devices, Inc. gibt keinerlei Zusicherungen bezüglich der Genauigkeit oder Vollständigkeit dieser Inhalte und übernimmt keinerlei Haftung oder stillschweigende Gewährleistungen für die Nichtverletzung von Rechten, Marktfähigkeit oder Eignung für bestimmte Zwecke bei Betrieb oder Nutzung von AMD Hardware, Software oder anderen hier beschriebenen Produkten. Mit diesem Dokument werden keinerlei gewerbliche Schutzrechte gewährt – weder ausdrücklich noch impliziert oder durch eine Rechtswirkung. Die für Kauf oder Nutzung von AMD Produkten geltenden Bedingungen und Einschränkungen werden schriftlich zwischen den Parteien vereinbart oder in den Standard-Verkaufsbedingungen von AMD festgelegt. GD-18u.

    © 2024 Advanced Micro Devices, Inc. Alle Rechte vorbehalten. AMD, das AMD Pfeillogo, EPYC, Instinct, ROCm und deren Kombinationen sind Marken von Advanced Micro Devices, Inc. Andere Produktnamen in diesem Dokument dienen nur zur Information und können Marken ihrer jeweiligen Inhaber sein. Bestimmte AMD Technologien erfordern möglicherweise die Ermöglichung oder Aktivierung durch Dritte. Die unterstützten Funktionen können je nach Betriebssystem variieren. Bitte informieren Sie sich beim Systemhersteller über spezifische Funktionen. Keine Technologie und kein Produkt kann vollständig sicher sein.