Large Language Models mit der Leistung von AMD aufbauen
TurkuNLP skalierte auf 192 Knoten auf dem LUMI-Supercomputer mit AMD EPYC™ CPUs und AMD Instinct™ GPUs, um Large Language Models für Finnisch zu entwickeln.
Server mit einer hohen Performance sind grundlegend für die Unternehmens-KI. AMD EPYC™ Server-CPUs und führende GPUs liefern beeindruckende Performance für Ihre KI-Trainings- und Large-Model-Auslastungen.
Live-Online-Seminar
Erfahren Sie, wie die gelungene Kombination aus AMD EPYC™ Prozessoren und branchenführenden GPU-Beschleunigern die nötige Leistung aufbringt, um die anspruchsvollsten Unternehmens-KI-Herausforderungen zu meistern.
GPU-Beschleuniger sind die treibende Kraft für moderne KI geworden und zeichnen sich durch das Training großer, komplexer Modelle und die Unterstützung einer effizienten Inferenz in Echtzeit im großen Maßstab aus. Um aber das Potenzial Ihrer Investition in GPUs zu maximieren, ist ein leistungsstarker CPU-Partner erforderlich.
GPUs sind das richtige Tool für viele KI-Auslastungen.
Wenn man die Leistung von GPUs mit der richtigen CPU kombiniert, kann man die KI-Effizienz für bestimmte Auslastungen deutlich verbessern. Achten Sie auf diese wichtigen CPU-Funktionen:
Ihre ideale Wahl, um das wahre Potenzial großer KI-Auslastungen freizusetzen. Sie maximieren die GPU-Beschleuniger-Performance und die KI-Auslastungseffizienz insgesamt. Außerdem ermöglichen die AMD EPYC Prozessoren dank der erweiterten Sicherheitsfunktionen und dem langfristigen, konsequenten Engagement für offene Standards den Unternehmen, die nächste Phase ihrer KI-Reise mit Zuversicht in Angriff zu nehmen.
Lösungen auf Basis von GPU-Beschleunigern und unterstützt durch AMD EPYC CPUs treiben viele der weltweit schnellsten Supercomputer und Cloud-Instanzen an. So erhalten Unternehmen eine bewährte Plattform zur Optimierung der datengestützten Auslastungen und zur Erzielung bahnbrechender Ergebnisse für KI.
CPUs spielen eine entscheidende Rolle bei der Orchestrierung und Synchronisierung von Datenübertragungen zwischen GPUs, da sie Kernel-Start-Overheads handhaben und die Datenvorbereitung verwalten. Mit dieser „leitenden“ Funktion wird sichergestellt, dass die GPUs mit höchster Effizienz arbeiten.
Einige Auslastungen profitieren von hohen CPU-Taktraten zur Verbesserung der GPU-Performance, indem die Verarbeitung, Übertragung und gleichzeitige Ausführung von Daten optimiert werden und so die GPU-Effizienz gesteigert wird.
Zum Nachweis des Konzepts, dass höhere CPU-Frequenzen den Llama2-7B-Auslastungsdurchsatz steigern, haben wir benutzerdefinierte AMD EPYC 9554 CPUs in einem 2P-Server mit 8 x NVIDIA H100 GPUs eingesetzt1
Prozessoren, die hohe Performance, niedrigen Stromverbrauch, effiziente Datenverarbeitung und effektive Energieverwaltungsfunktionen kombinieren, sorgen dafür, dass Ihre KI-Infrastruktur mit optimaler Performance arbeitet und gleichzeitig Energieverbrauch und Kosten optimiert werden.
AMD EPYC Prozessoren treiben die weltweit energieeffizientesten Server an, die herausragende Performance bieten und zur Senkung der Energiekosten beitragen.2 Setzen Sie sie mit Zuversicht ein, um energieeffiziente Lösungen zu schaffen und Ihre KI-Reise zu optimieren.
In den AMD EPYC 9004-Serie Prozessoren bietet die AMD Infinity Energieverwaltung eine hervorragende standardmäßige Performance und ermöglicht eine Feinabstimmung für auslastungsspezifisches Verhalten.
Wählen Sie aus verschiedenen zertifizierten oder validierten GPU-beschleunigten Lösungen, die von AMD EPYC CPUs gehostet werden, um Ihre KI-Auslastungen zu optimieren.
Bevorzugen Sie Lösungen mit AMD Instinct Beschleunigern?
Sie setzen andere GPUs ein? Fragen Sie nach Lösungen mit AMD EPYC CPUs, die bei führenden Anbietern von Plattformlösungen wie Asus, Dell, Gigabyte, HP, Lenovo oder Supermicro erhältlich sind.
Fragen Sie nach Instanzen, die eine AMD EPYC CPU mit GPUs für KI-/ML-Auslastungen kombinieren und von großen Cloud-Anbietern wie AWS, Azure, Google, IBM Cloud und OCI verfügbar sind.
Serverkonfigurationen: 2P EPYC 9554 (CPU mit benutzerdefinierten Frequenzen, 64 Kerne/128 Threads, 16 Kerne aktiv), 1,5 TB Speicher (24 x 64 GB DDR5-5600 bei 4800 MT/Sek), 3,2 TB SSD, Ubuntu® 22.04.4 LTS, mit 8 x NVIDIA H100 80 GB HBM3, HuggingFace Transformers Version 4.31.0, NVIDIA PyTorch 23.12, PEFT 0.4.0, Python 3.10.12, CUDA 12.3.2.001, TensorRT-LLM v 0.9.0.dev2024, CUDNN 8.9.7.29+cuda12.2, NVIDIA-SMI Treiberversion 550.54.15, TRT v8.6.1.6+cuda12.0.1.011, Transformer Engine v1.1
Llama2-7B Feinabstimmung: BS pro Gerät = 4, seqln = 128, Durchschn. aus 4 Läufen, 10 Epochen pro Lauf, FP16
Llama2-7B Training (1K): BS = 56 (7 x 8 GPUs), seqln = 1k, Gradienten auf GPU
Llama2-7B-Training (2K): BS = 24 (3 x 8 GPUs), seqln = 2k, Gradienten auf GPU
Ergebnisse:
CPU-Freq. 2000 MHz 2500 MHz 3000 MHz
Feinabstimmung durchschn. Training Laufzeit Sek. 649,38 584,24 507,1
% Durchsatzsteigerung 0,00 % 11,15 % 28,06 %
Trainingsdurchsatz 1K Sequenzlänge 276,08 238,81 230,82
% Durchsatzsteigerung 0,00 % 15,61 % 19,61 %
Trainingsdurchsatz 2K Sequenzlänge 883,85 807,94 778,72
% Durchsatzsteigerung 0,00 % 9,40 % 13,50 %
Die Ergebnisse können abhängig von Faktoren wie Systemkonfiguration, Softwareversion und BIOS-Einstellungen variieren. HINWEIS: Diese Performance ist der Proof of Concept. Daten erfasst auf einer benutzerdefinierten 2P AMD EPYC™ 9554 als Hostprozessor mit unterschiedlichen Frequenzen unter Verwendung von 8 x Nvidia H100 80 GB Beschleunigern. Bei EPYC Prozessoren der 4. Generation können Endbenutzer die Frequenzen nicht anpassen