Chiles NLHPC hat die Forschungsleistung mit AMD drastisch erhöht

Das National Laboratory for HPC in Chile verdoppelte seine wissenschaftliche Forschungsleistung pro Watt mit AMD EPYC™ CPUs und AMD Instinct™ GPUs

High-Performance-Computing optimiert die wissenschaftliche Forschung auf der ganzen Welt. Ein Land in Südamerika, das dort eine herausragende Rolle spielt, ist Chile, und zwar über sein National Laboratory for HPC (NLHPC, das im Mathematical Modeling Center (CMM) der Universität von Chile gehostet wird). Wie jede Institution, die auf öffentliche Mittel angewiesen ist, braucht auch NLHPC die bestmögliche Performance, während es gleichzeitig die nationalen Nachhaltigkeitsziele verfolgt. AMD EPYC™ CPUs und AMD Instinct™ GPUs lieferten alles, was NLHPC für die neueste HPC-Bereitstellung benötigt.

„Seit 15 Jahren stellen wir der wissenschaftlichen Gemeinschaft in Chile Rechenressourcen zur Verfügung“, sagt Ginés Guerrero, Executive Head, NLHPC. „Die Universität von Chile ist der Hauptpartner, aber derzeit sind 44 weitere Universitäten mit uns verbunden, die praktisch alle wissenschaftlichen Forscher in Chile aufnehmen. Wir werden von der nationalen Agentur für Forschung und Entwicklung (ANID) des Landes finanziert.“ Die breite Palette der Auslastungen macht die Computing-Anforderungen von NLHPC besonders komplex. „Die Anzahl und Vielfalt der Benutzer ist eine Herausforderung. Unsere 500 Benutzer kommen aus 40 verschiedenen Forschungsbereichen, wie Quantenchemie, Bioinformatik, Astronomie, Nanotechnologie und Physik.“

Universidad de Chile Case Study
Mit AMD Prozessoren konnte die Performance pro Watt im Rechenzentrum von NLHPC verdoppelt werden

Doppelte Performance pro Watt

„Eine der intensivsten Auslastungen ist der Umgang mit dem Klimawandel und die Entdeckung neuer Materialien“, so Guerrero. „Forscher untersuchen beispielsweise Photovoltaik-Material, das Solarenergie effizienter einfängt. Auch Astronomie ist in Chile eine große Sache. Wir haben einen der besten Himmel, um die Sterne zu studieren. Wir haben viele, sehr bedeutende Teleskope, die international finanziert werden. Beim Astrocomputing betrachten wir die Entstehung von Galaxien. Es gibt viele Artikel über supermassereiche Schwarze Löcher und die mit Teleskopen gewonnenen Bilder. Dazu gehört ALeRCE (Automatic Learning for the Rapid Classification of Events), ein astronomischer Broker, der alle Bilder von Teleskopen verarbeitet. Diese müssen in Echtzeit analysiert werden, damit ALeRCE Warnmeldungen über Änderungen wie Supernovas senden kann.“

„Als National Lab of Computing in Chile müssen wir über die Entwicklungen bei HPC-Hardware auf dem Laufenden bleiben“, sagt Ginés Guerrero. „Das AMD Team hat uns sehr proaktiv über die neuesten technologischen Fortschritte informiert. Als wir uns mit AMD EPYC CPUs der 4. Generation beschäftigten, hat uns das Team die AVX-512-Fähigkeiten der CPU erläutert. Wir hatten auch Bedenken, die GPUs zu wechseln, da wir unseren vorherigen Anbieter schon lange im Einsatz haben. Das AMD Team hat uns daher mit US-Technikern in Kontakt gebracht, um uns bei einem reibungslosen Übergang zu unterstützen, nachdem wir mit der Integration von AMD GPUs in unser System begonnen hatten.“

NLHPC testete AMD EPYC Prozessoren der 4. Generation und AMD Instinct MI210 GPUs. „Als wir die Server installierten und die Tests durchführten, waren wir von den Ergebnissen überrascht“, sagt Guerrero. Während des Ausschreibungsverfahrens war die Performance der wichtigste Faktor, aber die Energieeffizienz spielte auch eine große Rolle. „Unsere Tests waren sehr vielfältig. Wir hatten mindestens 100 Auslastungen zusammengestellt. Alle Benutzer sagten, dass die Performance mit AMD EPYC CPUs viel besser war, und wir verwendeten auch den LINPACK Benchmark. Als wir diesen auf der vorherigen Architektur ausführten, stellten wir fest, dass die Performance bis zu 60 Prozent niedriger war als die theoretische maximale Performance. Mit dem aktuellen Cluster mit AMD EPYC CPUs der 4. Generation haben wir mehr als 100 Prozent des theoretischen Maximums erreicht. Der Stromverbrauch des vorherigen Clusters war auch doppelt so hoch wie der des neuen Clusters bei gleichen Ergebnissen. Dank AMD EPYC CPUs konnten wir mit LINPACK bei nur doppelt so viel Energie viermal mehr Performance erzielen.“

Universidad de Chile Case Study
AMD EPYC CPUs beschleunigen die Forschung von NLHPC über die Funktionsweise des Universums.

Förderung des wissenschaftlichen Fortschritts in Chile

„Mit AMD EPYC CPUs konnten viele unserer Auslastungen sofort ausgeführt werden“, sagt Guerrero. „Aber nachdem wir Anwendungen mit GNU Complier Collection oder AMD Optimizing C/C++ Compiler neu zusammengestellt hatten, erzielten wir eine wesentlich bessere Performance als der Code unseres vorherigen Compilers. Mit den AMD Instinct GPUs wurde der Einsatz neuer Software notwendig. Deshalb haben wir die Container bereitgestellt, die vom AMD Infinity Hub zur Verfügung gestellt wurden. Die mit der AMD ROCm™ Software verfügbaren Plattformen waren die beste Wahl für diese Umstellung.“

Auf dem neuen Cluster von NLHPC werden 27 Lenovo ThinkSystem SR645 V3 Server mit zwei AMD EPYC 9754 CPUs der 4. Generation mit 128 Kernen und jeweils 768 GB Speicher ausgeführt, was insgesamt 6.912 Kerne für Rechen- und Zugriffsknoten ergibt. Die beiden Lenovo ThinkSystem SR675 V3 GPU-Server arbeiten mit zwei AMD EPYC 9224 CPUs der 4. Generation mit 24 Kernen und jeweils sechs AMD Instinct MI210 GPUs, die aus 12 Beschleunigern bestehen. Das Wasserkühlsystem Lenovo Neptune wurde verwendet, um die Betriebstemperaturen von CPU und GPU bei intensiven KI-Auslastungen einzuhalten.

„Unser wichtigstes Anliegen ist es, Chile zu helfen, wissenschaftliche Fortschritte zu erzielen“, sagt Ginés Guerrero. „Je mehr Ressourcen wir anbieten können, desto größer ist die Wirkung auf die gesamte Gemeinschaft.“ Die Rückmeldungen der chilenischen Wissenschaftler waren überwältigend positiv. „Ein Benutzer, der das Weather Research & Forecasting (WRF)-Modell ausführt, teilte uns mit, dass seine Auslastung viel schneller ausgeführt wird als zuvor. Das Nanoscale Molecular Dynamics (NAMD)-Modell war eine weitere Softwareanwendung, die eine hervorragende Performance zeigte.“

Universidad de Chile Case Study
NLHPC nutzt die Performance von AMD EPYC CPUs für rechenintensive Klimawissenschaften.

Auf dem Weg zu einer vielversprechenden Zukunft der Forschung mit AMD

Der neue Cluster verbessert die Art und Weise, wie Forscher ihre Auslastungen bereitstellen. „Wenn wir viele Kerne in einem Server haben, können wir gemeinsam genutzte Speicheraufgaben ausführen“, sagt Guerrero. „Mit AMD EPYC CPUs können wir jetzt 256 Kerne in einer einzigen Aufgabe nutzen. Die meisten unserer Benutzer verwenden MPI nicht. Sie starten Aufgaben mit gemeinsam genutztem Speicher. Wenn sie mehr als 200 Kerne in einem Server haben, können sie 200 Recheneinheiten verwenden. Dies war unmöglich, als wir nur Server mit 40 Kernen hatten, wie unsere vorherigen CPUs. Das ist eine großer Vorteil.“ Die AMD Instinct Beschleuniger von NLHPC bieten auch eine höhere Performance pro Watt. „Mit den AMD Instinct MI210 GPUs können wir mehr Gleitkommaoperationen pro Sekunde mit höherer Energieeffizienz ausführen. Die meisten unserer Benutzer setzen diese Technologie für die Molekulardynamik ein.“

„Ich verwende oft einen Satz, der im Spanischen so viel bedeutet wie ‚Ohne Computing ist man nicht konkurrenzfähig‘“, sagt Guerrero. „Wenn wir nicht in Computing investieren und weiter vorankommen, werden wir weltweit weniger konkurrenzfähig sein.“ In Chile gibt es einen Wettbewerb, der 7 Millionen US-Dollar für den Kauf von Infrastruktur mit mehr GPUs für neu entstehende Auslastungen wie KI bereitstellt, und natürlich werden wir an diesem Wettbewerb teilnehmen. „Bei KI investieren Länder heute enorme Summen, um die Computing-Kapazität zu erhöhen. Dies hat Auswirkungen auf die Industrie, den Staat, die Forschung und alle Bürger. Die USA, Europa und China sind hierbei führend, aber in Lateinamerika gibt es noch viel zu tun, und wir arbeiten unermüdlich daran, dass Fortschritte erzielt werden.

Ginés Guerrero sieht eine vielversprechende Zukunft für die Beziehung zwischen NLHPC und AMD, um diese nächste Phase umzusetzen. „Aus der Top-500-Liste aller Supercomputer weltweit wird klar ersichtlich, dass AMD Prozessoren immer stärker vertreten sind“, sagt er. „Es gibt immer mehr von ihnen. Wenn man sich ansieht, was weltweit geschieht, sollte man die Integration der AMD Technologie in Erwägung ziehen, da die Ergebnisse, die wir erzielt haben, sehr positiv sind. AMD hat sensationelle Arbeit geleistet. Die Architektur ist tadellos. Dies bedeutet einen allgemeinen Fortschritt für die Gesellschaft, um besseres Computing zu haben. Die Zusammenarbeit zwischen dem NLHPC und dem AMD Entwicklungsteam war der Schlüssel, um die beste Lösung mit mehr Performance und höchster Energieeffizienz anzubieten. Es ist wirklich unglaublich.“

Universidad de Chile Case Study
AMD Instinct GPUs lieferten die Beschleunigung, die NLHPC für Auslastungen für die Molekulardynamik benötigt

Über den Kunden


Chiles National Laboratory for High Performance Computing (NLHPC) ist das führende Supercomputing-Zentrum des Landes. Es stellt fortschrittliche Rechenressourcen zur Unterstützung wissenschaftlicher Forschung, Innovation und technologischer Entwicklung bereit. NLHPC dient der nationalen Wissenschaftsgemeinschaft, Regierungsbehörden und Industrien und fördert die Zusammenarbeit und Fortschritte in Bereichen wie Klimamodellierung, Astrophysik und Genomik. Seine Aufgabe besteht darin, den Zugang zu HPC zu demokratisieren, um hochmoderne Forschung zu ermöglichen und einen Beitrag zum wissenschaftlichen und wirtschaftlichen Fortschritt Chiles zu leisten. Weitere Informationen finden Sie unter nlhpc.cl.

Fallstudienprofil


  • Branche:
    Wissenschaftliche Forschung
  • Herausforderungen:
    Verbesserung der Performance und des Energieverbrauchs für die wissenschaftliche Forschung in Chile
  • Lösung:
    Bereitstellung von Lenovo ThinkSystem SR675 V3 und SR645 V3 Servern mit AMD EPYC CPUs der 4. Generation und AMD Instinct GPUs
  • Ergebnisse:
    Doppelte Performance bei gleichem Energieverbrauch wie die bisherige Rechenzentrumsinfrastruktur
  • AMD Technologie auf einen Blick:
    AMD EPYC 9754 CPUs der 4. Generation (Rechen- und Zugriffsknoten) und AMD EPYC 9224 (GPU-Host)
    AMD Instinct MI210 GPUs
  • Technologiepartner:
Lenovo

Sie möchten mehr darüber erfahren, was AMD für Ihr Rechenzentrum tun kann?