Beschleuniger für High-Performance-Computing

WEITERENTWICKELND, ANPASSEND UND LERNEND

Eine neue Ära heterogenen Computings für Maschinenintelligenz und HPC bricht durch die Ankunft der EPYC™ Serverprozessoren und Radeon Instinct™ GPU-Beschleuniger an.

AMD EPYC™Radeon Instinct™

Der Anbruch einer neuen Ära horizontal skalierbaren Computings für HPC und Deep Learning

Um das Tempo des Deep Learning zu beschleunigen und die breiten Anforderungen des Rechenzentrums zu erfüllen, ist eine Kombination aus Hochleistungs-Computing und GPU-Beschleunigung notwendig, die dafür optimiert wurde, enorme Datenmengen mit einer Menge von Gleitkommaberechnungen, die über viele Kerne verteilt werden können, zu bewältigen. Entwickler von großen Systemen brauchen heutzutage auch die Möglichkeit zur Entwicklung effizienter Systeme mit der Flexibilität und Offenheit, Systeme so zu konfigurieren, dass sie die Herausforderungen der heutigen, äußerst anspruchsvollen Workloads bewältigen können.

AMD stattet Entwickler mit diesen Fähigkeiten aus und erlaubt es ihnen dadurch, die Messlatte in Puncto erreichbare Rechendichte anzuheben, indem optimierte Server-Designs mit höherer Performance, verringerter Latenz und verbesserter Effizienz in einer offenen, flexiblen Umgebung ermöglicht werden. Mit der Einführung neuer, auf dem EPYC Prozessor basierender Server mit Radeon Instinct GPU-Beschleunigern und in Kombination mit unserer ROCm Open Software-Plattform, lässt AMD eine neue Ära heterogenen Computings für HPC und Deep Learning anbrechen.

Radeon Instinct™ MI25 Server-Beschleuniger

AMD mischt mit der Einführung seiner auf offenen Standards basierenden Radeon Instinct Produktfamilie die Karten neu. Radeon Instinct Beschleuniger, in Kombination mit unserem offenen Eco-System-Ansatz zu heterogenem Computing, heben die Messlatte für die erreichbare Performance, Effizienz und Flexibilität an, die notwendig sind, um Systeme zu entwickeln, die in der Lage sind, die Herausforderungen der datenorientierten Workloads von heute zu meistern.

Der neue, auf AMDs „Vega“-Architektur der nächsten Generation basierende, Radeon Instinct MI25-Beschleuniger, mit seiner leistungsstarken Engine für paralleles Computing, ist der weltweit ultimative Trainings-Beschleuniger für große Deep Learning-Anwendungen und ist äußerst leistungsfähig bei HPC-Workloads, indem es bis zu 24,6 TFLOPS an FP16- und 12,3 TFLOPS an FP32-Gleitkomma-Rechenleistung liefert.1 Kombinieren Sie diese Power mit der offenen ROCm-Software-Plattform und der weltweit fortschrittlichsten GPU-Speicherarchitektur, mit 16 GB an HBM2 und bis zu 484 GB/s an Speicherbandbreite, und Sie erhalten die ultimative Lösung für die Computing-Workloads von heute.

Highlights des Radeon Instinct MI25:

  • Aufgebaut auf AMDs „Vega“-Architektur der neuesten Generation mit der weltweit fortschrittlichsten GPU-Speicherarchitektur
  • Überragende FP16- und FP32-Performance für HPC und Deep Learning
  • ROCm Open Software-Plattform für Rack-Maßstäbe der HPC-Klasse
  • Breite BAR-Unterstützung für mGPU-Peer-to-Peer
  • MxGPU SR-IOV-Hardware-Virtualisierungstechnologien für optimierte Rechenzentrumsauslastung

Überragende Rechendichte und Performance pro Knoten, wenn Server, die auf dem neuen AMD EPYC™ Prozessor basieren, und Radeon Instinct MI25 Beschleuniger kombiniert werden.

WEITERE INFOS


 

ROCm Open Software-Plattform

Die ROCm Open Software-Plattform liefert eine Open-Source-Grundlage für heterogenes Computing auf HPC-Niveau und Systemdesigns für Rechenzentren der Spitzenklasse. Die ROCm-Plattform liefert leistungsoptimierte Linux®-Treiber, Compiler, Tools und Bibliotheken. Die ROCm-Software-Designphilosophie bietet Wahlmöglichkeiten bei der Programmierung, Minimalismus und einen modularen Software-Entwicklungsansatz, um ein optimierteres GPU-beschleunigtes Computing zu ermöglichen.

Durch die Kombination dieses Ansatzes mit der sicheren hardwarevirtualisierten MxGPU-Technologie von AMD sind Entwickler nun in der Lage, die Art und Weise Systeme zu designen, zu ändern, um eine höhere Effizienz zu erzielen und eine optimierte Auslastung und Kapazität von Rechenzentren voranzutreiben.

ROCm-Grundelemente:

HSA Foundation logo ​ ROCm Platform logo
  • Open Headless Linux® 64-Bit-Treiber und Rich-System-Runtime-Stack, optimiert für Hyperscale und Computing der HPC-Klasse
  • Multi-GPU-Computing, das Kommunikation innerhalb und außerhalb der Server-Knoten über RDMA unterstützt, mit direkter RDMA-Peer-Sync-Unterstützung im Treiber
  • Unkomplizierteres Programmierungsmodell, das Entwicklern, wenn nötig, Kontrolle gibt
  • Echte HCC-Single-Source- und heterogene C++-Compiler, die das ganze System adressieren und nicht nur ein einzelnes Gerät
  • HIP CUDA-Konvertierungstool, das Plattform-Wahlmöglichkeiten bei Nutzung einer GPU-Computing-API bietet

Die ROCm Open Software-Plattform bietet eine solide Grundlage für große Maschinenintelligenz- und HPC-Rechenzentrumsbereitstellung mit einem optimierten offenen Linux-Treiber und Rich-ROCr-System-Runtime, die unabhängig von der Sprache ist und im großen Umfang die Heterogeneous System Architecture (HSA)-Runtime-API verwendet. Dies liefert eine solide Grundlage, um Programmiersprachen wie beispielsweise HCC C++, OpenCL™ der Khronos Group, Anaconda Python von Continuum und das HIP CUDA-Konvertierungstool auszuführen.2

AMD verfolgt auch weiterhin einen offenen Ansatz, um die Unterstützung kritischer Features zu erweitern, die für eine NUMA-Klassen-Beschleunigung unserer Radeon™ GPU-Beschleuniger für HPC- und Deep Learning-Bereitstellung benötigt werden. Und die ROCm-Plattform unterstützt nun unseren neuen GPU-Beschleuniger der Radeon Instinct Produktfamilie und bietet weiterhin Unterstützung für eine Anzahl unserer anderen AMD FirePro™ S Serie, Radeon™ RX Serie und Radeon™ Pro Duo Grafikkarten. Besuchen Sie die ROCm-Webseite für eine vollständige Liste unterstützter GPU-Karten.

WEITERE INFOS


 

Unterstützung für OpenCL™, OpenMP und OpenACC

OpenCL 

Wir unterstützen diese Standards weiterhin bei unseren aktuellen Produktangeboten3. Unserer Erfahrung nach bevorzugen die meisten Anwender im Bereich High-Performance-Computing (HPC) offene Standards als Basis für ihre Projekte und Simulationen. Darum haben wir von AMD uns die Unterstützung dieses Ziels auf die Fahnen geschrieben und arbeitet eng mit der HPC-Community zusammen, um mit Nachdruck diese offenen Standards zu fördern.

 Server-Karten der AMD FirePro™ S-Serie

AMD FirePro™ S9300 x2  

​Beschleunigen Sie Ihre komplexesten HPC-Workloads im Bereich der Datenanalyse oder bei seismischen Untersuchungen mit der weltweit schnellsten GPU mit einfacher Genauigkeit, der AMD FirePro™ S9300 x2 Server GPU.4,5 Profitieren Sie von den zahlreichen Tools und Libraries, einschließlich den ROCm-Tools, die auf unserer Entwicklerseite  www.gpuopen.com zur Verfügung stehen.

Vor Kurzem hat einer unserer Kunden, CGG, interessante Tests durchgeführt. CGG ist ein führender Anbieter innovativer Produkte und Dienstleistungen im Bereich Geowissenschaften. Das Unternehmen hat kürzlich eigene Benchmarktests für Wellengleichungsmodelle mit verschiedenen GPUs durchgeführt, u. a. mit der neuen AMD FirePro™ S9300 x2 GPU. Mit zunehmender Komplexität der Wellengleichung wurde der Performancevorteil der AMD FirePro™ S9300 x2 GPU immer größer – schließlich war sie sogar doppelt so schnell wie alle anderen getesteten Karten.6

Wave Table 

Diagramm von CGG bereitgestellt

AMD FirePro™ S9100, S9150 und S9170 GPUs

Anwender, die an einer Rechenleistung mit doppelter Genauigkeit interessiert sind, haben mit der AMD FirePro™ S9100 Serie die richtige Server-Karte gefunden. Die AMD FirePro™ S9150 GPU, liefert die Power des erstplatzierten Supercomputers auf der Green500™-Liste 2014, lässt Wettbewerber problemlos hinter sich und bietet 50 % mehr Rechenleistung bei doppelter Genauigkeit als z. B. die vergleichbare Tesla K40.7

Schauen Sie sich das Video-Interview mit Dr. David Rohr und Professor Lindenstruth zum L-CSC-Cluster an, die Nr. 1 unter den Supercomputern laut Green500™-Liste in 2014.

 

 

DGEMM, oder Double Precision General Matrix-Matrix Multiplication, misst die Gleitkommaausführungsrate für eine Matrix-Matrix-Multiplikation mit doppelter Genauigkeit in Echtzeit. Es gibt zahlreiche praktische Anwendungsgebiet, bei der Matrix-Vorgänge mit doppelter Genauigkeit zum Einsatz kommen. Dazu gehören die numerische Strömungsmechanik, die Finite-Elemente-Analyse (Finite Element Analysis, FAE), die Strukturmodellierung und die Molekulardynamik.

Mit unserer AMD OpenCL BLAS Implementierung können wir mit der AMD FirePro™ S9150 GPU eine kontinuierliche DGEMM-Leistung von mehr als 2 TFLOPS erzielen, die Tesla K40 erzielt lediglich eine DGEMM-Leistung von 1,3 TFLOPS.

Die AMD FirePro™ S9170 GPU ist hervorragend geeignet, wenn umfangreiche Matrix-Matrix-Multiplikationen erforderlich sind. Hier überzeugt der 32 GB große GDDR5-Speicher der Karte. Die Nvidia K80 und K40 mit ihren kleineren integrierten Arbeitsspeichern von 24 GB bzw. 12 GB stoßen bei vergleichbaren Berechnungen schnell an ihre Grenzen.

 Technische Daten der AMD FirePro™ S-Serie

AMD FirePro™ Server-GPU-Lösungen für das High-Performance-Computing

Von der Hochschulforschung zur numerischen Strömungsmechanik bis hin zu seismischen Untersuchungen und Lagerstättensimulationen seitens der Öl- und Gasbranche – Server-GPUs der AMD FirePro™ S-Serie sind in diversen Ausführungen erhältlich und erlauben so die Erfüllung praktisch aller erdenklichen Anforderungen. Dank höchster Rechenleistung sowohl bei einfacher als auch doppelter Genauigkeit stellen AMD FirePro Server-GPUs die optimale Lösung für rechentechnisch komplexe Projekte dar, welche die für die GPU typische Fähigkeit zur Parallelverarbeitung auf höchstem Niveau voraussetzen.4​

​S9100​S9150S9170​​​S9300 X2
AMD FirePro™ S9300 x2
GCN STREAM-PROZESSOREN​2560​28162816​8192​
EINFACHE GENAUIGKEIT (GFLOPS)​4220​50705240​​​13900
​DOPPELTE GENAUIGKEIT (GFLOPS)​2110​2530​2620​​​870
INTEGrierter ARBEITS-SPEICHER​12GB GDDR5​16GB GDDR532​GB GDDR5​8GB HBM
​ECC​Ja (extern)Ja (extern)Ja (extern)​Nein​
​SPEICHERBAND-BREITE (GB/S)​320​320320​​1024​
​SCHNITTSTELLEPCIe 3.0, zwei SteckplätzePCIe 3.0, zwei Steckplätze​PCIe 3.0, zwei Steckplätze​PCIe 3.0, zwei Steckplätze
MAX. LEIS- TUNGSAUFNAHME​225 W​235 W​2​75 W​300 W​
​KÜHLUNGPassiver KühlkörperPassiver KühlkörperPassiver Kühlkörper​Passiver Kühlkörper
​EMPFOHLEN
FÜR

​Anwendungen mit doppelter Genauigkeit:
Rechnerverbunde von Hochschulen und
staatl. Einrichtungen
Öl & Gas – Lagerstätten-
simulationen

Anwendungen mit doppelter Genauigkeit:
Rechnerverbunde von Hochschulen und
staatl. Einrichtungen
Öl & Gas – Lagerstätten-
simulationen

Anwendungen mit doppelter Genauigkeit:
Rechnerverbunde von Hochschulen und
staatl. Einrichtungen
Öl & Gas – Lagerstätten-
simulationen

Workloads mit einfacher Genauig-
keit wie z. B.:

Molekulardynamik
Geowissenschaften
Tiefe neuronale Netze/maschinelles Lernen

 Händler finden

AMD FirePro™ GPUs sind bei verschiedenen Systemherstellern und Systemintegratoren wie Dell, HPE und SuperMicro erhältlich.

Dell ​ ​ ​ ​​ ​HPE
 ​ ​ ​ ​​  ​ ​ ​ ​​  ​ ​ ​ ​​  ​ ​ ​ ​​ SuperMicro ​ ​ ​ ​​ 
​​

Weitere Informationen zu Dell-Servern mit AMD FirePro™ GPUs finden Sie unter www.amd.com/dell-server

Informationen zu HPE-Servern mit AMD FirePro™ GPUs finden Sie unter www.amd.com/hpe

  

  

  

  

  

Fußnoten