Radeon Instinct and Epyc

Beschleuniger für High-Performance-Computing

Eine neue Ära heterogenen Computings für Maschinenintelligenz und HPC bricht durch die Ankunft der EPYC™ Serverprozessoren und Radeon Instinct™ GPU-Beschleuniger an.

Der Anbruch einer neuen Ära horizontal skalierbaren Computings für HPC und Deep Learning

Um das Tempo des Deep Learning zu beschleunigen und die breiten Anforderungen des Rechenzentrums zu erfüllen, ist eine Kombination aus Hochleistungs-Computing und GPU-Beschleunigung notwendig, die dafür optimiert wurde, enorme Datenmengen mit einer Menge von Gleitkommaberechnungen, die über viele Kerne verteilt werden können, zu bewältigen. Entwickler von großen Systemen brauchen heutzutage auch die Möglichkeit zur Entwicklung effizienter Systeme mit der Flexibilität und Offenheit, Systeme so zu konfigurieren, dass sie die Herausforderungen der heutigen, äußerst anspruchsvollen Workloads bewältigen können.

AMD stattet Entwickler mit diesen Fähigkeiten aus und erlaubt es ihnen dadurch, die Messlatte in Puncto erreichbare Rechendichte anzuheben, indem optimierte Server-Designs mit höherer Performance, verringerter Latenz und verbesserter Effizienz in einer offenen, flexiblen Umgebung ermöglicht werden. Mit der Einführung neuer, auf dem EPYC Prozessor basierender Server mit Radeon Instinct GPU-Beschleunigern und in Kombination mit unserer ROCm Open Software-Plattform, lässt AMD eine neue Ära heterogenen Computings für HPC und Deep Learning anbrechen.

Radeon Instinct™ MI25 Server-Beschleuniger

AMD mischt mit der Einführung seiner auf offenen Standards basierenden Radeon Instinct Produktfamilie die Karten neu. Radeon Instinct Beschleuniger, in Kombination mit unserem offenen Eco-System-Ansatz zu heterogenem Computing, heben die Messlatte für die erreichbare Performance, Effizienz und Flexibilität an, die notwendig sind, um Systeme zu entwickeln, die in der Lage sind, die Herausforderungen der datenorientierten Workloads von heute zu meistern.

Der neue, auf AMDs „Vega“-Architektur der nächsten Generation basierende, Radeon Instinct MI25-Beschleuniger, mit seiner leistungsstarken Engine für paralleles Computing, ist der weltweit ultimative Trainings-Beschleuniger für große Deep Learning-Anwendungen und ist äußerst leistungsfähig bei HPC-Workloads, indem es bis zu 24,6 TFLOPS an FP16- und 12,3 TFLOPS an FP32-Gleitkomma-Rechenleistung liefert.1 Kombinieren Sie diese Power mit der offenen ROCm-Software-Plattform und der weltweit fortschrittlichsten GPU-Speicherarchitektur, mit 16 GB an HBM2 und bis zu 484 GB/s an Speicherbandbreite, und Sie erhalten die ultimative Lösung für die Computing-Workloads von heute.

Highlights des Radeon Instinct MI25:

  • Aufgebaut auf AMDs „Vega“-Architektur der neuesten Generation mit der weltweit fortschrittlichsten GPU-Speicherarchitektur
  • Überragende FP16- und FP32-Performance für HPC und Deep Learning
  • ROCm Open Software-Plattform für Rack-Maßstäbe der HPC-Klasse
  • Breite BAR-Unterstützung für mGPU-Peer-to-Peer
  • MxGPU-Hardwaretechnologien for optimierte Rechenzentrumsauslastung

Überragende Rechendichte und Performance pro Knoten, wenn Server, die auf dem neuen AMD EPYC™ Prozessor basieren, und Radeon Instinct MI25 Beschleuniger kombiniert werden.

EPYC™ Performance für speichergebundene HPC-Workloads

Der AMD EPYC Prozessor bietet eine ausgezeichnete Performance für speichergebundene HPC-Workloads.

HSA and Rocm logos

ROCm Open Software-Plattform

Die ROCm Open Software-Plattform liefert eine Open-Source-Grundlage für heterogenes Computing auf HPC-Niveau und Systemdesigns für Rechenzentren der Spitzenklasse. Die ROCm-Plattform liefert leistungsoptimierte Linux®-Treiber, Compiler, Tools und Bibliotheken. Die ROCm-Software-Designphilosophie bietet Wahlmöglichkeiten bei der Programmierung, Minimalismus und einen modularen Software-Entwicklungsansatz, um ein optimierteres GPU-beschleunigtes Computing zu ermöglichen.

Durch die Kombination dieses Ansatzes mit der sicheren hardwarevirtualisierten MxGPU-Technologie von AMD sind Entwickler nun in der Lage, die Art und Weise Systeme zu designen, zu ändern, um eine höhere Effizienz zu erzielen und eine optimierte Auslastung und Kapazität von Rechenzentren voranzutreiben.

ROCm-Grundelemente:

  • Open Headless Linux® 64-Bit-Treiber und Rich-System-Runtime-Stack, optimiert für Hyperscale und Computing der HPC-Klasse
  • Multi-GPU-Computing, das Kommunikation innerhalb und außerhalb der Server-Knoten über RDMA unterstützt, mit direkter RDMA-Peer-Sync-Unterstützung im Treiber
  • Unkomplizierteres Programmierungsmodell, das Entwicklern, wenn nötig, Kontrolle gibt
  • Echte HCC-Single-Source- und heterogene C++-Compiler, die das ganze System adressieren und nicht nur ein einzelnes Gerät
  • HIP CUDA-Konvertierungstool, das Plattform-Wahlmöglichkeiten bei Nutzung einer GPU-Computing-API bietet

Die ROCm Open Software-Plattform bietet eine solide Grundlage für große Maschinenintelligenz- und HPC-Rechenzentrumsbereitstellung mit einem optimierten offenen Linux-Treiber und Rich-ROCr-System-Runtime, die unabhängig von der Sprache ist und im großen Umfang die Heterogeneous System Architecture (HSA)-Runtime-API verwendet. Dies liefert eine solide Grundlage, um Programmiersprachen wie beispielsweise HCC C++, OpenCL™ der Khronos Group, Anaconda Python von Continuum und das HIP CUDA-Konvertierungstool auszuführen.2

AMD verfolgt auch weiterhin einen offenen Ansatz, um die Unterstützung kritischer Features zu erweitern, die für eine NUMA-Klassen-Beschleunigung unserer Radeon™ GPU-Beschleuniger für HPC- und Deep Learning-Bereitstellung benötigt werden. Und die ROCm-Plattform unterstützt nun unseren neuen GPU-Beschleuniger der Radeon Instinct Produktfamilie und bietet weiterhin Unterstützung für eine Anzahl unserer anderen AMD FirePro™ S Serie, Radeon™ RX Serie und Radeon™ Pro Duo Grafikkarten. Besuchen Sie die ROCm-Webseite für eine vollständige Liste unterstützter GPU-Karten.

OpenCL logo

Unterstützung für OpenCL™, OpenMP und OpenACC

Wir unterstützen diese Standards weiterhin bei unseren aktuellen Produktangeboten3. Unserer Erfahrung nach bevorzugen die meisten Anwender im Bereich High-Performance-Computing (HPC) offene Standards als Basis für ihre Projekte und Simulationen. Darum haben wir von AMD uns die Unterstützung dieses Ziels auf die Fahnen geschrieben und arbeitet eng mit der HPC-Community zusammen, um mit Nachdruck diese offenen Standards zu fördern.

Fußnoten
  1. TFLOPS-Berechnungen: FLOPS-Berechnungen werden durchgeführt, indem man die Speichertaktrate des höchsten DPM-Status nimmt und diesen mit xx Recheneinheiten pro GPU multipliziert. Dann multipliziert man diese Zahl mit den xx Stream-Prozessoren, die in jeder Recheneinheit vorhanden sind. Danach multipliziert man diese Zahl mit 2 FLOPS pro Taktzyklus für FP32. Um TFLOPS für FP16 zu berechnen, werden 4 FLOPS pro Taktzyklus verwendet. Die FP64-TFLOPS-Rate wir berechnet, indem 1/16 der Rate verwendet wird.
  2. Unterstützung für Python ist geplant, befindet sich aber noch in der Entwicklung.
  3. Einige Grafikkarten der S-Serie unterstützen u. U. nicht alle aufgeführten Standards. Einzelheiten zu unterstützten APIs entnehmen Sie bitte den technischen Daten der jeweiligen Grafikkarte.