Wirtschaftliche Inferenz für Unternehmens-KI
Mit dem Wandel der Branche vom Training zur Ausführung von KI-Modellen können CPUs eine Doppelaufgabe übernehmen: die parallele Ausführung von KI- und allgemeinen Auslastungen.
Durch den Einsatz kleiner und mittelgroßer Modelle auf AMD EPYC™ 9005 Server-CPUs vor Ort oder in der Cloud maximieren Sie den Wert Ihrer Computing-Investitionen.
Zur Vermeidung einer übermäßigen Bereitstellung und für eine optimale Rendite Ihrer KI-Investitionen ist es wichtig, Ihre Modellgröße und Latenzanforderungen auf die richtige Hardware abzustimmen. Die neuesten Generationen der AMD EPYC Server-CPUs können neben allgemeinen Auslastungen auch zahlreiche KI-Aufgaben bewältigen. Mit dem Wachstum der KI-Modelle nehmen auch die Datenmengen zu, sodass geringere Latenzen immer wichtiger und GPUs immer effizienter und wirtschaftlicher werden.
| KI-Inferenzauslastung | Gut geeignet für ... |
||
CPUs |
CPUs und PCIe-basierte GPU |
GPU-Cluster |
|
Dokumentverarbeitung und -klassifizierung |
✓ |
|
|
Data Mining und Datenanalysen |
✓ |
|
✓ |
Wissenschaftliche Simulationen |
✓ |
|
|
Übersetzung |
✓ |
|
|
Indexierung |
✓ |
|
|
Content-Moderation |
✓ |
|
|
Vorausschauende Wartung |
✓ |
|
✓ |
Virtuelle Assistenten |
✓ |
✓ |
|
Chatbots |
✓ |
✓ |
|
Experten-Agenten |
✓ |
✓ |
|
Videountertitelung |
✓ |
✓ |
|
Betrugserkennung |
|
✓ |
✓ |
Entscheidungsfindung |
|
✓ |
✓ |
Dynamische Preisfindung |
|
✓ |
✓ |
Audio- und Videofilterung |
|
✓ |
✓ |
Finanzhandel |
|
|
✓ |
Telekommunikation und Netzwerk |
|
|
✓ |
Autonome Systeme |
|
|
✓ |
Für die Inferenz eignen sich je nach Ihren Anforderungen an die Auslastung entweder CPUs mit einer hohen Anzahl von Kernen oder eine Kombination aus CPUs und GPUs am besten. Erfahren Sie mehr darüber, welche Infrastruktur zur Größe Ihrer KI-Modelle und Ihren Latenzanforderungen passt.
Die neuesten AMD EPYC Server-CPUs erfüllen die Performance-Anforderungen einer Reihe von KI-Auslastungen, darunter klassisches maschinelles Lernen, Computer Vision und KI-Agenten. Erfahren Sie mehr über fünf gängige Auslastungen, die hervorragend auf CPUs ausgeführt werden können.
Unabhängig davon, ob sie in einem reinen CPU-Server eingesetzt oder als Host für GPUs zur Ausführung größerer KI-Modelle verwendet werden, sind AMD EPYC Server-CPUs mit den neuesten offenen Standardtechnologien für die Beschleunigung von KI-Inferenzauslastungen in Unternehmen ausgestattet.
Die Angaben beziehen sich auf den Vergleich von AMD EPYC 9965 Server-CPUs der 5. Generation mit Intel Xeon 6980P.
AMD EPYC 9965 der 5. Generation
Intel Xeon 6980P
AMD EPYC 9965 der 5. Generation
Intel Xeon 6980P
AMD EPYC 9965 der 5. Generation
Intel Xeon 6980P
AMD EPYC 9965 der 5. Generation
Intel Xeon 6980P
AMD EPYC 9965 der 5. Generation
Intel Xeon 6980P
Ermitteln Sie zuerst Ihre Anforderungen an die Performance. Wie schnell benötigen Sie Antworten – innerhalb von Minuten, Sekunden oder Millisekunden? Wie groß sind Ihre KI-Modelle hinsichtlich der Parameter? Möglicherweise können Sie die benötigte Performance durch ein einfaches Upgrade auf eine AMD EPYC CPU der 5. Generation erreichen, wodurch Sie die Kosten für GPU-Hardware vermeiden können.
Wenn Sie keine Antworten in Echtzeit benötigen, ist die Batch-Inferenz für umfangreiche und langfristige Analysen wie beispielsweise die Analyse der Kampagnen-Performance oder die vorausschauende Wartung wirtschaftlich. Für Echtzeit-Inferenz, die interaktive Anwendungsfälle wie den Finanzhandel und autonome Systeme unterstützt, können GPU-Beschleuniger erforderlich sein. CPUs allein eignen sich hervorragend für Batch-Inferenz, während GPUs am besten für Echtzeit-Inferenz geeignet sind.
CPUs allein bieten ausreichend Performance für Inferenz auf KI-Modellen mit bis zu ca. 20 Milliarden Parametern und für Antwortzeiten mit mittlerer Latenz (Sekunden bis Minuten). Das ist für viele KI-Assistenten, Chatbots und Agenten ausreichend. Bei größeren KI-Modellen oder kürzeren Antwortzeiten sollten Sie das Hinzufügen von GPU-Beschleunigern in Betracht ziehen.
Das hängt von verschiedenen Faktoren ab. Das Erreichen der maximalen Performance für eine Auslastung hängt stark von der Auslastung und dem erforderlichen Fachwissen ab. Aus diesem Grund übertreffen ausgewählte AMD EPYC Server-CPUs der 5. Generation vergleichbare Intel Xeon 6 bei der Inferenz für viele gängige KI-Auslastungen, darunter große Sprachmodelle (DeepSeek-R1 671B3), mittelgroße Sprachmodelle (Llama 3.1 8B4 und GPT-J 6B6) und kleine Sprachmodelle (Llama 3.2 1B5).
AMD EPYC Server-CPUs sind mit AMD Infinity Guard ausgestattet, das eine Reihe von chipbasierten Sicherheitsfunktionen bietet.7 AMD Infinity Guard umfasst die sichere verschlüsselte Virtualisierung von AMD (AMD SVV), eine weit verbreitete Lösung für vertrauliches Computing, die mithilfe vertraulicher virtueller Maschinen (VMs) zum Schutz von Daten, KI-Modellen und Auslastungen während der Laufzeit beiträgt.
Passen Sie Ihre Infrastruktur an Ihre KI-Ambitionen an. AMD bietet das breiteste KI-Portfolio, auf offenen Standards basierende Plattformen und ein leistungsstarkes Ökosystem – alles untermauert durch eine führende Performance.
Mit AMD ZenDNN und AMD ROCm™ Software können Entwickler ihre Anwendungs-Performance optimieren und gleichzeitig die Frameworks ihrer Wahl nutzen.