EPYC 9005 für AI Inference

Übersicht

Durch den Einsatz kleiner und mittelgroßer Modelle auf AMD EPYC™ 9005 Server-CPUs vor Ort oder in der Cloud maximieren Sie den Wert Ihrer Computing-Investitionen.

Wirtschaftliche Inferenz für Unternehmens-KI

Mit dem Wandel der Branche vom Training zur Ausführung von KI-Modellen können CPUs eine Doppelaufgabe übernehmen: die parallele Ausführung von KI- und allgemeinen Auslastungen.

Blog-Artikel lesen

Bis zu 10-mal bessere Performance als eine Host-CPU¹

In GPU-basierten Systemen kann die Host-CPU die Gesamt-Performance des KI-Systems beeinflussen. Beim Einsatz als Host-CPU verbessern AMD EPYC 9575F Hochfrequenz-CPUs die latenzabhängige Inferenzverarbeitung erheblich.

Blog-Artikel lesen

So haben wir die Llama-Performance um das bis zu 16-Fache² verbessert

Mithilfe einer spekulativen Dekodierung werden mehrere zukünftige Token vorausberechnet und parallel überprüft. AMD Ingenieure haben diesen Prozess optimiert, um in diesem Anwendungsfall die Performance großer Sprachmodelle (LLMs) auf AMD EPYC™ Server-CPUs der 5. Generation zu verbessern.

Technischen Artikel lesen

Welche Hardware eignet sich für verschiedene Inferenzauslastungen am besten?

Zur Vermeidung einer übermäßigen Bereitstellung und für eine optimale Rendite Ihrer KI-Investitionen ist es wichtig, Ihre Modellgröße und Latenzanforderungen auf die richtige Hardware abzustimmen. Die neuesten Generationen der AMD EPYC Server-CPUs können neben allgemeinen Auslastungen auch zahlreiche KI-Aufgaben bewältigen. Mit dem Wachstum der KI-Modelle nehmen auch die Datenmengen zu, sodass geringere Latenzen immer wichtiger und GPUs immer effizienter und wirtschaftlicher werden.

Mit CPUs für wirtschaftliche Inferenz starten

Die neuesten AMD EPYC Server-CPUs können kleine bis mittlere KI-Inferenzauslastungen mit einer Latenz von weniger als einer Sekunde ausführen, wodurch sie gut für kleine und mittelgroße KI-Modelle geeignet sind. Setzen Sie diese CPUs für die Batch- oder Offline-Verarbeitung ein, bei der die Latenz nicht kritisch ist, sowie für Antwortzeiten mit mittlerer Latenz (Sekunden bis Minuten) und niedriger Latenz (500 ms bis Sekunden).

AMD EPYC™ CPUs der 5. Generation

Hinzufügung von GPUs für größere Modelle und schnellere Antwortzeiten

Mit dem Wachstum der KI-Modelle oder der Verkürzung von Antwortzeiten kann es erforderlich werden, eine speziell für Rechenzentren entwickelte KI-GPU hinzuzufügen. Die Kombination von AMD EPYC Hochfrequenz-CPUs mit AMD Instinct™ GPUs eignet sich hervorragend für Modellgrößen von ca. 20–450 Milliarden Parametern. Zusammen können sie eine niedrige Latenz und Antworten nahezu in Echtzeit (100–500 ms) bereitstellen.

AMD EPYC Server-CPUs als Host für GPUs

Einsatz von GPU-Clustern für umfangreiche Bereitstellungen

Für große KI-Modelle, Echtzeit-Auslastungen und komplexe Pipelines mit mehreren Agenten können GPU-Cluster eine hohe Performance pro Dollar liefern. Bei AMD Instinct Plattformen kommen mehrere GPUs zum Einsatz, wodurch sie optimal für Modelle mit über 450 Milliarden Parametern geeignet sind. Mithilfe von GPU-Clustern können Antworten nahezu in Echtzeit und in Echtzeit bereitgestellt werden.

AMD Instinct GPUs

KI-Inferenzauslastung	Gut geeignet für ...
KI-Inferenzauslastung	CPUs	CPUs und PCIe-basierte GPU	GPU-Cluster
Dokumentverarbeitung und -klassifizierung	✓
Data Mining und Datenanalysen	✓		✓
Wissenschaftliche Simulationen	✓
Übersetzung	✓
Indexierung	✓
Content-Moderation	✓
Vorausschauende Wartung	✓		✓
Virtuelle Assistenten	✓	✓
Chatbots	✓	✓
Experten-Agenten	✓	✓
Videountertitelung	✓	✓
Betrugserkennung		✓	✓
Entscheidungsfindung		✓	✓
Dynamische Preisfindung		✓	✓
Audio- und Videofilterung		✓	✓
Finanzhandel			✓
Telekommunikation und Netzwerk			✓
Autonome Systeme			✓

The AI continuum: what infrastructure works best for inference? infographic cover

Die beste Inferenz-Hardware finden

Für die Inferenz eignen sich je nach Ihren Anforderungen an die Auslastung entweder CPUs mit einer hohen Anzahl von Kernen oder eine Kombination aus CPUs und GPUs am besten. Erfahren Sie mehr darüber, welche Infrastruktur zur Größe Ihrer KI-Modelle und Ihren Latenzanforderungen passt.

Siehe Infografik

5 KI-Inferenzauslastungen, die auf einer CPU ausgeführt werden

Die neuesten AMD EPYC Server-CPUs erfüllen die Performance-Anforderungen einer Reihe von KI-Auslastungen, darunter klassisches maschinelles Lernen, Computer Vision und KI-Agenten. Erfahren Sie mehr über fünf gängige Auslastungen, die hervorragend auf CPUs ausgeführt werden können.

Listicle lesen

5 AI Inference Workloads that Run on a CPU listicle cover

curved transparent to black top gradient divider

Schnelle, effiziente Inferenz mit AMD EPYC Server-CPUs

Unabhängig davon, ob sie in einem reinen CPU-Server eingesetzt oder als Host für GPUs zur Ausführung größerer KI-Modelle verwendet werden, sind AMD EPYC Server-CPUs mit den neuesten offenen Standardtechnologien für die Beschleunigung von KI-Inferenzauslastungen in Unternehmen ausgestattet.

AMD EPYC Server-CPUs der 5. Generation übertreffen Intel Xeon 6 bei Inferenz, bei End-to-End-KI und bei maschinellem Lernen

Die Angaben beziehen sich auf den Vergleich von AMD EPYC 9965 Server-CPUs der 5. Generation mit Intel Xeon 6980P.

Bis zu

89 %

Bessere Chatbot-Performance bei DeepSeek³

Bis zu

33 %

Bessere Inferenz-Performance für den Anwendungsfall Übersetzung mit Llama 3.1 8B⁴

Bis zu

36 %

Bessere Inferenz-Performance für den Anwendungsfall Übersetzung auf Llama 3.2 1B⁵

Kleine Sprachmodelle
Mittelgroße Sprachmodelle
Large Language Models
End-to-End-KI-Performance
Klassisches maschinelles Lernen

Übersetzung auf Llama 3.2 1B⁵

Ca. 1,36x

Essay auf Llama 3.2 1B⁵

Ca. 1,27x

AMD EPYC 9965 der 5. Generation

Intel Xeon 6980P

Übersetzung auf Llama 3.1 8B⁴

Ca. 1,33x

Zusammenfassung auf GPT-J 6B⁶

~1,28 x

AMD EPYC 9965 der 5. Generation

Intel Xeon 6980P

Chatbot auf DeepSeek-R1 671B³

~1,89 x

Essay auf DeepSeek-R1 671B³

Ca. 1,71x

Zusammenfassung auf DeepSeek-R1 671B³

Ca. 1,41x

Umschreiben auf DeepSeek-R1 671B³

~1,20 x

AMD EPYC 9965 der 5. Generation

Intel Xeon 6980P

AMD EPYC 9965 der 5. Generation

Intel Xeon 6980P

TPCx-AI@SF30-Derivat¹⁰

Ca. 1,70x

XGBoost (Higgs)¹¹

Ca. 1,93x

Facebook-KI-Ähnlichkeitssuche (FAISS)¹²

Ca. 1,60x

AMD EPYC 9965 der 5. Generation

Intel Xeon 6980P

Häufig gestellte Fragen

Ermitteln Sie zuerst Ihre Anforderungen an die Performance. Wie schnell benötigen Sie Antworten – innerhalb von Minuten, Sekunden oder Millisekunden? Wie groß sind Ihre KI-Modelle hinsichtlich der Parameter? Möglicherweise können Sie die benötigte Performance durch ein einfaches Upgrade auf eine AMD EPYC CPU der 5. Generation erreichen, wodurch Sie die Kosten für GPU-Hardware vermeiden können.

Wenn Sie keine Antworten in Echtzeit benötigen, ist die Batch-Inferenz für umfangreiche und langfristige Analysen wie beispielsweise die Analyse der Kampagnen-Performance oder die vorausschauende Wartung wirtschaftlich. Für Echtzeit-Inferenz, die interaktive Anwendungsfälle wie den Finanzhandel und autonome Systeme unterstützt, können GPU-Beschleuniger erforderlich sein. CPUs allein eignen sich hervorragend für Batch-Inferenz, während GPUs am besten für Echtzeit-Inferenz geeignet sind.

CPUs allein bieten ausreichend Performance für Inferenz auf KI-Modellen mit bis zu ca. 20 Milliarden Parametern und für Antwortzeiten mit mittlerer Latenz (Sekunden bis Minuten). Das ist für viele KI-Assistenten, Chatbots und Agenten ausreichend. Bei größeren KI-Modellen oder kürzeren Antwortzeiten sollten Sie das Hinzufügen von GPU-Beschleunigern in Betracht ziehen.

Das hängt von verschiedenen Faktoren ab. Das Erreichen der maximalen Performance für eine Auslastung hängt stark von der Auslastung und dem erforderlichen Fachwissen ab. Aus diesem Grund übertreffen ausgewählte AMD EPYC Server-CPUs der 5. Generation vergleichbare Intel Xeon 6 bei der Inferenz für viele gängige KI-Auslastungen, darunter große Sprachmodelle (DeepSeek-R1 671B³), mittelgroße Sprachmodelle (Llama 3.1 8B⁴ und GPT-J 6B⁶) und kleine Sprachmodelle (Llama 3.2 1B⁵).

AMD EPYC Server-CPUs sind mit AMD Infinity Guard ausgestattet, das eine Reihe von chipbasierten Sicherheitsfunktionen bietet.⁷ AMD Infinity Guard umfasst die sichere verschlüsselte Virtualisierung von AMD (AMD SVV), eine weit verbreitete Lösung für vertrauliches Computing, die mithilfe vertraulicher virtueller Maschinen (VMs) zum Schutz von Daten, KI-Modellen und Auslastungen während der Laufzeit beiträgt.

AMD unterstützt das gesamte Spektrum der KI

Passen Sie Ihre Infrastruktur an Ihre KI-Ambitionen an. AMD bietet das breiteste KI-Portfolio, auf offenen Standards basierende Plattformen und ein leistungsstarkes Ökosystem – alles untermauert durch eine führende Performance.

AMD EPYC™ Server-CPUs

Als führende CPU für KI¹³ bieten AMD EPYC Server-CPUs als Inferenzprozessoren und als Hosts für GPU-Plattformen außergewöhnliche Performance.

AMD EPYC Server-CPUs entdecken

AMD Instinct™ GPUs

Verfügbar im PCIe-Formfaktor oder als integrierter Cluster, bieten AMD Instinct™ GPUs außergewöhnliche Effizienz und Performance für generative KI – ideal für das Training gewaltiger Modelle und Hochgeschwindigkeits-Inferenz.

AMD Instinct GPUs entdecken

AMD Pensando™ Networking

Speziell für KI entwickelt, ermöglichen die offenen Netzwerklösungen von AMD Pensando™ ein interoperables High-Speed-Ethernet, das sich flexibel skalieren lässt, um den wachsenden Anforderungen gerecht zu werden.

AMD Pensando Netzwerklösungen entdecken

Adaptive AMD Versal™ SoCs

Diese hochintegrierte Rechenplattform für Embedded-Anwendungen umfasst Echtzeit-CPU-Kerne, programmierbare Logik und Network-on-Chip (NoC) sowie KI-Engines für maschinelles Lernen, die in Anwendungsfällen, die angepasste Hardware erfordern, eine hervorragende Performance auf Systemebene bieten.

Adaptive AMD Versal SoCs entdecken

Datensicherheit für KI-Auslastungen

Mit dem durch KI beschleunigten Datenwachstum wird fortschrittliche Sicherheit wichtiger denn je. Dieser Notwendigkeit wird durch die zunehmende Bedeutung von Datenschutzbestimmungen, Datenhoheit und strengen Strafen bei Verstößen noch mehr Nachdruck verliehen. AMD Infinity Guard ist auf Chipebene implementiert und bietet die für KI erforderlichen Sicherheitsfunktionen wie die sicher verschlüsselte Virtualisierung von AMD (AMD SVV), die branchenweit ausgereifteste Lösung für vertrauliches Computing.⁷

AMD Infinity Guard entdecken

AMD EPYC Bereitstellungsoptionen

Breites Ökosystem für KI On-Premise

Finden Sie Unternehmens-KI-Hardware von unseren OEM-Partnern, darunter Server mit hoher Kernzahl und Hochfrequenz-CPUs, eine erstklassige Reihe von GPUs und interoperable Netzwerklösungen.

Alle Hardware-Partner anzeigen

KI in der Cloud skalieren

Holen Sie das Maximum aus Ihrer Cloud heraus, indem Sie virtuelle Maschinen (VMs) auf Basis von AMD-Technologie für KI-Workloads wählen.

Alle Cloud-Partner anzeigen

Inferenz-Frameworks für offene Softwareentwicklung

Mit AMD ZenDNN und AMD ROCm™ Software können Entwickler ihre Anwendungs-Performance optimieren und gleichzeitig die Frameworks ihrer Wahl nutzen.

AMD Zen Deep Neural Network (ZenDNN)

ZenDNN ist eine Bibliothek zur Beschleunigung tiefer neuronaler Netze, die für die Inferenz auf AMD-CPUs optimiert ist. Sie baut auf Open-Source-Projekten wie oneDNN auf und bietet Entwicklern mehr Freiheit bei der Wahl der Tools.

ZenDNN Hub besuchen

AMD ROCm™ Software für KI

AMD ROCm ist ein offener Software-Stack zur Programmierung von AMD GPUs. Entwickler können offene Frameworks, Modelle und Tools finden, um die Entwicklung zu vereinfachen.

ROCm Entwickler-Hub besuchen

Hugging Face Optimum-AMD

Diese Schnittstelle zwischen Hugging Face-Bibliotheken und dem AMD ROCm Stack hilft Entwicklern, Bibliotheken effizient auf AMD GPUs zu nutzen.

Hugging Face Optimum-AMD besuchen

AMD Quark

AMD Quark unterstützt sowohl PyTorch als auch ONNX-Modelle und ist ein Deep-Learning-Toolkit für die Quantifizierung und Bereitstellung von Modellen auf einer Vielzahl von Hardware-Backends.

AMD Quark-Dokumentation besuchen

Flow of teal data lines with binary numbers and percentages spreading upward on dark background.

AMD Unified Inference Frontend

Unified Inference Frontend (UIF) konsolidiert AMD EPYC, AMD Instinct und andere Rechenplattformen unter einer einheitlichen Inferenzlösung mit einheitlichen Tools und gemeinsamer Laufzeitumgebung.

UIF-Benutzerhandbuch besuchen

Ressourcen

KI-Online-Seminare

Sehen Sie sich On-Demand-Online-Seminare an, um mehr über die Vorteile von Inferenz auf AMD EPYC Server-CPUs zu erfahren.

Online-Seminare anzeigen

KI-Dokumentation

Hier finden Sie Lösungsbeschreibungen, Whitepaper und vieles mehr zu den Einsatzmöglichkeiten von KI-Inferenz auf AMD EPYC Server-CPUs.

Gesamte Dokumentation anzeigen

Technische Artikel und Blogs

Hier finden Sie technische Details und Anleitungen zum Einsatz der Funktionen, Tools und Optimierungsmöglichkeiten von AMD EPYC Server-CPUs für Ihre Inferenz-Auslastungen.

Technische Artikel und Blogs ansehen

Podcast AMD TechTalk

Erfahren Sie von führenden Technologieexperten mehr über die neuesten Trends im Bereich KI.

Jetzt anhören

Rechenzentren-Infos von AMD abonnieren

Jetzt anmelden

Kontakt mit einem AMD EPYC Vertriebsexperten anfordern

AMD kontaktieren

Fußnoten

9xx5-169: Auf den internen Tests von AMD vom 14.05.2025 basierende Ergebnisse für den latenzoptimierten Durchsatz (Goodput) von Llama-3.3-70B. Konfigurationen: Llama-3.3-70B, vLLM API Server v1.0, Datensatz: Sonnet3.5-SlimOrcaDedupCleaned, TP8, 512 max. Anfragen (dynamisches Batching), latenzbegrenzte Zeit bis zum ersten Token (300 ms, 400 ms, 500 ms, 600 ms), OpenMP 128, Ergebnisse in Token/s. 2P AMD EPYC 9575F (128 Kerne gesamt, 400 W TDP, Produktionssystem, 1,5 TB 24 x 64 GB DDR5-6400 ausgeführt bei 6000 MT/s, 2 x 25 GbE ConnectX-6 Lx MT2894, 4 x 3,84 TB Samsung MZWLO3T8HCLS-00A07 NVMe; Micron_7450_MTFDKCC800TFS 800 GB NVMe für Betriebssystem, Ubuntu 22.04.3 LTS, kernel=5.15.0-117-generic, BIOS 3.2, SMT=OFF, Determinism=power, mitigations=off) mit 8 x NVIDIA H100. 2P Intel Xeon 8592+ (128 Kerne gesamt, 350 W TDP, Produktionssystem, 1 TB 16 x 64 GB DDR5-5600, 2 x 25 GbE ConnectX-6 Lx (MT2894), 4 x 3,84 TB Samsung MZWLO3T8HCLS-00A07 NVMe, Micron_7450_MTFDKBA480TFR 480 GB NVMe, Ubuntu 22.04.3 LTS, kernel-5.15.0-118-generic, SMT=OFF, Performance Bias, Mitigations=off) mit 8 x NVIDIA H100. Ergebnisse: CPU 300 400 500 600; 8592+ 0 126,43 1565,65 1987,19; 9575F 346,11 2326,21; 2531,38 2572,42; Relativ NA 18,40 1,62 1,29. Die Ergebnisse können abhängig von Faktoren wie Systemkonfiguration, Softwareversion und BIOS-Einstellungen variieren. TDP-Informationen von ark.intel.com
PARD-Technologie (Parallel Draft Models) auf Llama-3.2-1B-Instruct. Siehe Konfigurationen: https://www.amd.com/en/developer/resources/technical-articles/2025/speculative-llm-inference-on-the-5th-gen-amd-epyc-processors-wit.html
9xx5-152A: Deepseek-R1-671B-Durchsatzergebnisse basierend auf internen Tests von AMD vom 28.01.2025. Konfigurationen: llama.cpp Framework, 1,58 Bit Quantisierung (UD_IQ1_S, MoE bei 1,56 Bit), Batchgrößen 1 und 4, Instanzen mit 16 Kernen, Eingabe-/Ausgabe-Token-Konfigurationen (Anwendungsfälle): [Chatbot = 128/128, Essay = 128/1024, Zusammenfassung = 1024/128, Umschreiben = 1024/1024]. 2P AMD EPYC 9965 (384 Kerne gesamt, 500 W TDP, Referenzsystem, 3 TB 24 x 128 GB DDR5-6400, 2 x 40 GbE Mellanox CX-7 (MT2910) 3,84 TB Samsung MZWLO3T8HCLS-00A07 NVMe, Ubuntu® 22.04.3 LTS | 5.15.0-105-generic), SMT=ON, Determinism=power, Mitigations=on) 2P AMD EPYC 9755 (256 Kerne gesamt, 500 W TDP, Referenzsystem, 3 TB 24 x 128 GB DDR5-6400, 2 x 40 GbE Mellanox CX-7 (MT2910) 3,84 TB Samsung MZWLO3T8HCLS-00A07 NVMe, Ubuntu® 22.04.3 LTS | 5.15.0-105-generic), SMT=ON, Determinism=power, Mitigations=on) 2P Intel Xeon 6980P (256 Kerne gesamt, 500 W TDP, Produktionssystem, 3 TB 24 x 64 GB DDR5-6400, 4 x 1 GbE Broadcom NetXtreme BCM5719 Gigabit Ethernet PCIe 3,84 TB SAMSUNG MZWLO3T8HCLS-00A07 NVMe, Ubuntu 24.04.2 LTS | 6.13.2-061302-generic, SMT=ON, Performance Bias, Mitigations=on) Ergebnisse: BS=1 6980P 9755 9965 Rel9755 Rel9965 Chatbot 47,31 61,88 70,344 1,308 1,487 Essay 42,97 56,04 61,608 1,304 1,434 Zusammenfassen 44,99 59,39 62,304 1,32 1,385 Umschreiben 41,8 68,44 55,08 1,637 1,318 BS=4 6980P 9755 Rel9755 Rel9965 Chatbot 76,01 104,46 143,496 1,374 1,888 Essay 67,89 93,68 116,064 1,38 1,71 Zusammenfassen 70,88 103,39 99,96 1,459 1,41 Umschreiben 65 87,9 78,12 1,352 1,202 Die Ergebnisse können aufgrund von Faktoren wie Systemkonfigurationen, Softwareversionen und BIOS-Einstellungen variieren.
9xx5-156: Llama3.1-8B-Durchsatzergebnisse basierend auf internen Tests von AMD vom 08.04.2025. Llama3.1-8B-Konfigurationen: BF16, Batchgröße 32, Instanzen mit 32 Kernen, Eingabe-/Ausgabe-Token-Konfigurationen (Anwendungsfälle): [Zusammenfassung = 1024/128, Chatbot = 128/128, Übersetzung = 1024/1024, Essay = 128/1024]. 2P AMD EPYC 9965 (384 Kerne gesamt), 1,5 TB 24 x 64 GB DDR5-6400, 1,0 Gbit/s NIC. 3,84 TB Samsung MZWLO3T8HCLS-00A07, Ubuntu® 22.04.5 LTS, Linux 6.9.0-060900-generic, BIOS RVOT1004A, (SMT=off, mitigations=on, Determinism=Power), NPS=1, ZenDNN 5.0.1 2P AMD EPYC 9755 (256 Kerne gesamt), 1,5 TB 24 x 64 GB DDR5-6400, 1,0 Gbit/s NIC, 3,84 TB Samsung MZWLO3T8HCLS-00A07, Ubuntu® 22.04.4 LTS, Linux 6.8.0-52-generic, BIOS RVOT1004A, (SMT=off, mitigations=on, Determinism=Power), NPS=1, ZenDNN 5.0.1 2P Xeon 6980P (256 Kerne gesamt), AMX On, 1,5 TB 24 x 64 GB DDR5-8800 MRDIMM, 1,0 Gbit/s Ethernet Controller X710 für 10GBASE-T, Micron_7450_MTFDKBG1T9TFR 2TB, Ubuntu 22.04.1 LTS Linux 6.8.0-52-generic, BIOS 1.0 (SMT=off, mitigations=on Performance Bias), IPEX 2.6.0 Ergebnisse: CPU 6980P 9755 9965 Zusammenfassung 1 n/a 1,093 Übersetzung 1 1,062 1,334 Essay 1 n/a 1,14 Ergebnisse können aufgrund von Faktoren wie Systemkonfigurationen, Softwareversionen und BIOS-Einstellungen abweichen.
9xx5-166: Llama3.2-1B-Durchsatzergebnisse basierend auf internen Tests von AMD vom 08.04.2025. Llama3.3-1B-Konfigurationen: BF16, Batchgröße 32, Instanzen mit 32 Kernen, Eingabe-/Ausgabe-Token-Konfigurationen (Anwendungsfälle): [Zusammenfassung = 1024/128, Chatbot = 128/128, Übersetzung = 1024/1024, Essay = 128/1024]. 2P AMD EPYC 9965 (384 Kerne gesamt), 1,5 TB 24 x 64 GB DDR5-6400, 1,0 Gbit/s NIC, 3,84 TB Samsung MZWLO3T8HCLS-00A07, Ubuntu® 22.04.5 LTS, Linux 6.9.0-060900-generic, BIOS RVOT1004A, (SMT=off, mitigations=on, Determinism=Power), NPS=1, ZenDNN 5.0.1, Python 3.10.2 2P Xeon 6980P (256 Kerne gesamt), AMX On, 1,5 TB 24 x 64 GB DDR5-8800 MRDIMM, 1,0 Gbit/s Ethernet Controller X710 für 10GBASE-T, Micron_7450_MTFDKBG1T9TFR 2TB, Ubuntu 22.04.1 LTS Linux 6.8.0-52-generic, BIOS 1.0 (SMT=off, mitigations=on, Performance Bias), IPEX 2.6.0, Python 3.12.3 Ergebnisse: CPU 6980P 9965 Zusammenfassen 1 1,213 Übersetzen 1 1,364 Essay 1 1,271 Die Ergebnisse können aufgrund von Faktoren wie Systemkonfigurationen, Softwareversionen und BIOS-Einstellungen variieren.
9xx5-158: GPT-J-6B-Durchsatzergebnisse basierend auf internen Tests von AMD vom 08.04.2025. GPT-J-6B-Konfigurationen: BF16, Batchgröße 32, Instanzen mit 32 Kernen, Eingabe-/Ausgabe-Token-Konfigurationen (Anwendungsfälle): [Zusammenfassung = 1024/128, Chatbot = 128/128, Übersetzung = 1024/1024, Essay = 128/1024]. 2P AMD EPYC 9965 (384 Kerne gesamt), 1,5 TB 24 x 64 GB DDR5-6400, 1,0 Gbit/s NIC, 3,84 TB Samsung MZWLO3T8HCLS-00A07, Ubuntu® 22.04.5 LTS, Linux 6.9.0-060900-generic, BIOS RVOT1004A, (SMT=off, mitigations=on, Determinism=Power), NPS=1, ZenDNN 5.0.1, Python 3.10.12 2P AMD EPYC 9755 (256 Kerne gesamt), 1,5 TB 24 x 64 GB DDR5-6400, 1,0 Gbit/s NIC, 3,84 TB Samsung MZWLO3T8HCLS-00A07, Ubuntu® 22.04.4 LTS, Linux 6.8.0-52-generic, BIOS RVOT1004A, (SMT=off, mitigations=on, Determinism=Power), NPS=1, ZenDNN 5.0.1, Python 3.10.12 2P Xeon 6980P (256 Kerne gesamt), AMX On, 1,5 TB 24 x 64 GB DDR5-8800 MRDIMM, 1,0 Gbit/s Ethernet Controller X710 für 10GBASE-T, Micron_7450_MTFDKBG1T9TFR 2 TB, Ubuntu 22.04.1 LTS Linux 6.8.0-52-generic, BIOS 1.0 (SMT=off, mitigations=on, Performance Bias), IPEX 2.6.0, Python 3.12.3 Ergebnisse: CPU 6980P 9755 9965 Zusammenfassen 1 1,034 1,279 Chatbot 1 0,975 1,163 Übersetzen 1 1,021 0,93 Essay 1 0,978 1,108 Untertitel 1 0,913 1,12 Insgesamt 1 0,983 1,114 Die Ergebnisse können aufgrund von Faktoren wie Systemkonfigurationen, Softwareversionen und BIOS-Einstellungen variieren.
GD-183A AMD Infinity Guard Funktionen variieren je nach EPYC™ Prozessorgeneration und/oder Serie. Sicherheitsfunktionen von Infinity Guard müssen von Server-Erstausrüstern und/oder Cloud-Dienstanbietern vor Betrieb aktiviert werden. Wenden Sie sich an Ihren Erstausrüster oder Anbieter, um die Unterstützung dieser Funktionen zu erfragen. Mehr erfahren über Infinity Guard unter https://www.amd.com/en/products/processors/server/epyc/infinity-guard.html.
9xx5-002F: Vergleich zu SPECrate®2017_int_base basierend auf veröffentlichten Wertungen von www.spec.org vom 04.12.2025. Die nachfolgenden Ergebnisse und Konfigurationen werden in dem folgenden Format angegeben: [Prozessor], [Kerne], [TDP], [1Ku-Preis in USD], [SPECrate®2017)_int_base score], [SPECrate® 2017)_int_base Wert / CPU W], [SPECrate® 2017)_int_base Wert / 1Ku-Preis in USD], [Link zum Wert]
2P AMD EPYC 9654, 96 Kerne, 360 W, 8.452 USD, 1830, 5,083, 0,217, https://www.spec.org/cpu2017/results/res2025q3/cpu2017-20250727-49206.html
2P AMD EPYC 9754, 128 Kerne, 360 W, 10.631 USD, 1950, 5,417, 0,183, https://www.spec.org/cpu2017/results/res2023q2/cpu2017-20230522-36617.html
2P AMD EPYC 9755, 128 Kerne, 500 W, 10.931 USD, 2840, 5,680, 0,260, https://www.spec.org/cpu2017/results/res2025q2/cpu2017-20250324-47223.html
2P AMD EPYC 9965, 192 Kerne, 500 W, 11.988 USD, 3230, 6,460, 0,269, https://www.spec.org/cpu2017/results/res2025q2/cpu2017-20250324-47086.html
2P Intel Xeon 6780E, 144 Kerne, 330 W, 8.513 USD, 1410, 4,273, 0,166, https://www.spec.org/cpu2017/results/res2024q3/cpu2017-20240811-44406.html
2P Intel Xeon 6980P, 128 Kerne, 500 W, 12.460 USD, 2510, 5,020, 0,201, https://www.spec.org/cpu2017/results/res2025q2/cpu2017-20250324-47099.html
2P Intel Xeon Platinum 8592+, 64 Kerne, 350 W, 11.600 USD, 1130, 3,229, 0,097, https://www.spec.org/cpu2017/results/res2023q4/cpu2017-20231127-40064.html
SPEC®, SPEC CPU® und SPECrate® sind eingetragene Marken der Standard Performance Evaluation Corporation. Weitere Informationen auf www.spec.org. AMD CPU-Preise vom 09.12.2025. Intel CPU W und Preise unter https://ark.intel.com/ (Stand 09.12.2025)
9xx5-001: Basierend auf internen Tests von AMD vom 10.09.2024, Performance-Verbesserung im geometrischen Mittel (IPC) bei Festfrequenz. - EPYC der 5. Generation IPC-Steigerung im Generationenvergleich bei ML-/HPC-Server-Auslastungen von 1,369 x (geometrisches Mittel) mit ausgewähltem Satz von 24 Auslastungen und geometrisches Mittel von repräsentativen ML-Server-Auslastungen (geometrisches Mittel) und repräsentativen HPC-Server-Auslastungen (geometrisches Mittel). „Genoa“ Konfiguration (alle NPS1) „Genoa“ Konfiguration: EPYC 9654 BIOS TQZ1005D 12c12t (1c1t/CCD in 12+1), FF 3 GHz, 12 x DDR5-4800 (2Rx4 64 GB), 32 Gbit/s xGMI; „Turin“ Konfiguration (alle NPS1): EPYC 9V45 BIOS RVOT1000F 12c12t (1c1t/CCD in 12+1), FF 3 GHz, 12 x DDR5-6000 (2Rx4 64 GB), 32 Gbit/s xGMI unter Verwendung von Performance-Determinismus und dem Performance-Governor auf dem Betriebssystem Ubuntu 22.04 mit Kernel 6.8.0-40-generic für alle Auslastungen, mit Ausnahme von LAMMPS, HPCG, NAMD, OpenFOAM, Gromacs, die Version 24.04 mit Kernel 6.8.0-40-generic verwenden. SPEC® und SPECrate® sind eingetragene Marken der Standard Performance Evaluation Corporation. Weitere Informationen unter spec.org.
9xx5-151: TPCxAI @SF30 Multi-Instanz mit 32 Kernen Instanzgröße-Durchsatzergebnisse basierend auf internen Tests von AMD vom 01.04.2025 bei Ausführung mehrerer VM-Instanzen. Der aggregierte End-to-End-KI-Durchsatztest ist vom TPCx-AI-Benchmark abgeleitet und als solcher nicht mit den veröffentlichten TPCx-AI-Ergebnissen vergleichbar, da die Ergebnisse des End-to-End-KI-Durchsatztests nicht der TPCx-AI-Spezifikation entsprechen. 2P AMD EPYC 9965 (6067,53 AIUCpm gesamt, 384 Kerne gesamt, 500 W TDP, AMD Referenzsystem, 1,5 TB 24 x 64 GB DDR5-6400, 2 x 40 GbE Mellanox CX-7 (MT2910), 3,84 TB Samsung MZWLO3T8HCLS-00A07 NVMe, Ubuntu® 24.04 LTS-Kernel 6.13, SMT=ON, Determinism=power, Mitigations=on) 2P AMD EPYC 9755 (4073,42 AIUCpm gesamt, 256 Kerne gesamt, 500 W TDP, AMD Referenzsystem, 1,5 TB 24 x 64 GB DDR5-6400, 2 x 40 GbE Mellanox CX-7 (MT2910) 3,84 TB Samsung MZWLO3T8HCLS-00A07 NVMe, Ubuntu 24.04 LTS-Kernel 6.13, SMT=ON, Determinism=power, Mitigations=on) 2P Intel Xeon 6980P (3550,50 AIUCpm gesamt, 256 Kerne gesamt, 500 W TDP, Produktionssystem, 1,5 TB 24 x 64 GB DDR5-6400, 4 x 1GbE Broadcom NetXtreme BCM5719 Gigabit Ethernet PCIe 3,84 TB SAMSUNG MZWLO3T8HCLS-00A07 NVMe, Ubuntu 24.04 LTS-Kernel 6.13, SMT=ON, Performance Bias, Mitigations=on) Die Ergebnisse können abhängig von Faktoren wie u. a. Systemkonfiguration, Softwareversion und BIOS-Einstellungen abweichen. TPC, TPC Benchmark und TPC-H sind Marken des Transaction Processing Performance Council.
9xx5-162: XGBoost (Läufe/Stunde) Durchsatzergebnisse basierend auf internen Tests von AMD vom 08.04.2025. XGBoost-Konfigurationen: v1.7.2, Higgs-Datensatz, Instanzen mit 32 Kernen, FP32 2P AMD EPYC 9965 (384 Kerne gesamt), 1,5 TB 24 x 64 GB DDR5-6400 (bei 6.000 MT/s), 1,0 Gbit/s NIC, 3,84 TB Samsung MZWLO3T8HCLS-00A07, Ubuntu® 22.04.5 LTS, Linux 5.15-Kernel, BIOS RVOT1004A, (SMT=off, mitigations=on, Determinism=Power), NPS=1 2P AMD EPYC 9755 (256 Kerne gesamt), 1,5 TB 24 x 64 GB DDR5-6400 (bei 6.000 MT/s), 1,0 Gbit/s NIC, 3,84 TB Samsung MZWLO3T8HCLS-00A07, Ubuntu® 22.04.4 LTS, Linux 5.15-Kernel, BIOS RVOT1004A, (SMT=off, mitigations=on, Determinism=Power), NPS=1 2P Xeon 6980P (256 Kerne gesamt), 1,5 TB 24 x 64 GB DDR5-8800 MRDIMM, 1,0 Gbit/s Ethernet Controller X710 für 10GBASE-T, Micron_7450_MTFDKBG1T9TFR 2TB, Ubuntu 22.04.1 LTS Linux 6.8.0-52-generic, BIOS 1.0 (SMT=off, mitigations=on, Performance Bias) Ergebnisse: CPU Relativer Durchsatz 2P 6980P 400 1 2P 9755 436 1,090 2P 9965 771 1,928. Die Ergebnisse können abhängig von Faktoren wie Systemkonfiguration, Softwareversion und BIOS-Einstellungen variieren.
9xx5-164: FAISS (Läufe/Stunde) Durchsatzergebnisse basierend auf internen Tests von AMD vom 08.04.2025. FAISS-Konfigurationen: v1.7.2, sift1m-Datensatz, Instanzen mit 32 Kernen, FP32 2P AMD EPYC 9965 (384 Kerne gesamt), 1,5 TB 24 x 64 GB DDR5-6400 (bei 6.000 MT/s), 1,0 Gbit/s NIC, 3,84 TB Samsung MZWLO3T8HCLS-00A07, Ubuntu® 22.04.5 LTS, Linux 5.15-Kernel, BIOS RVOT1004A, (SMT=off, mitigations=on, Determinism=Power), NPS=1 2P AMD EPYC 9755 (256 Kerne gesamt), 1,5 TB 24 x 64 GB DDR5-6400 (bei 6.000 MT/s), 1,0 Gbit/s NIC, 3,84 TB Samsung MZWLO3T8HCLS-00A07, Ubuntu® 22.04.4 LTS, Linux 5.15-Kernel, BIOS RVOT1004A, (SMT=off, mitigations=on, Determinism=Power), NPS=1 2P Xeon 6980P (256 Kerne gesamt), 1,5 TB 24 x 64 GB DDR5-8800 MRDIMM, 1,0 Gbit/s Ethernet Controller X710 für 10GBASE-T, Micron_7450_MTFDKBG1T9TFR 2TB, Ubuntu 22.04.1 LTS Linux 6.8.0-52-generic, BIOS 1.0 (SMT=off, mitigations=on, Performance Bias) Ergebnisse: Relativer Durchsatz 2P 6980P 36,63 1 2P 9755 46,86 1,279 2P 9965 58,6 1,600. Die Ergebnisse können abhängig von Faktoren wie Systemkonfiguration, Softwareversion und BIOS-Einstellungen variieren.
9xx5-012: TPCxAI @SF30 Multi-Instanz mit 32 Kernen Instanzgröße-Durchsatzergebnisse basierend auf internen Tests von AMD vom 05.09.2024 bei Ausführung mehrerer VM-Instanzen. Der aggregierte End-to-End-KI-Durchsatztest ist vom TPCx-AI-Benchmark abgeleitet und als solcher nicht mit den veröffentlichten TPCx-AI-Ergebnissen vergleichbar, da die Ergebnisse des End-to-End-KI-Durchsatztests nicht der TPCx-AI-Spezifikation entsprechen.
2P AMD EPYC 9965 (384 Kerne gesamt), 12 Instanzen mit 32 Kernen, NPS1, 1,5 TB 24 x 64 GB DDR5-6400 (bei 6000 MT/s), 1 DPC, 1,0 Gbit/s NetXtreme BCM5720 Gigabit Ethernet PCIe, 3,5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®, Ubuntu® 22.04.4 LTS, 6.8.0-40-generic (tuned-adm profile throughput-performance, ulimit -l 198096812, ulimit -n 1024, ulimit -s 8192), BIOS RVOT1000C (SMT = off, Determinism = Power, Turbo Boost = Enabled)
2P AMD EPYC 9755 (256 Kerne gesamt), 8 Instanzen mit 32 Kernen, NPS1, 1,5 TB 24 x 64 GB DDR5-6400 (bei 6000 MT/s), 1 DPC, 1,0 Gbit/s NetXtreme BCM5720 Gigabit Ethernet PCIe, 3,5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®, Ubuntu 22.04.4 LTS, 6.8.0-40-generic (tuned-adm profile throughput-performance, ulimit -l 198096812, ulimit -n 1024, ulimit -s 8192), BIOS RVOT0090F (SMT = off, Determinism = Power, Turbo Boost = Enabled)
2P AMD EPYC 9654 (192 Kerne gesamt), 6 Instanzen mit 32 Kernen, NPS1, 1,5 TB 24 x 64 GB DDR5-4800, 1 DPC, 2 x 1,92 TB Samsung MZQL21T9HCJR-00A07 NVMe, Ubuntu 22.04.3 LTS, BIOS 1006C (SMT = off, Determinism = Power)
Im Vergleich zu 2P Xeon Platinum 8592+ (128 Kerne gesamt), 4 Instanzen mit 32 Kernen, AMX Ein, 1 TB 16 x 64 GB DDR5-5600, 1 DPC, 1,0 Gbit/s NetXtreme BCM5719 Gigabit Ethernet PCIe, 3,84 TB KIOXIA KCMYXRUG3T84 NVMe, Ubuntu 22.04.4 LTS, 6.5.0-35 generic (tuned-adm profile throughput-performance, ulimit -l 132065548, ulimit -n 1024, ulimit -s 8192), BIOS ESE122V (SMT = off, Determinism = Power, Turbo Boost = Enabled)
Ergebnisse:
CPU Medianwert Relativer Wert Generationenvergleich
Turin 192 Kerne, 12 Instanzen 6067,531 3,775 2,278
Turin 128 Kerne, 8 Instanzen 4091,85 2,546 1,536
Genoa 96 Kerne, 6 Instanzen 2663,14 1,657 1
EMR 64 Kerne, 4 Instanzen 1607,417 1 k. A.
Die Ergebnisse können abhängig von Faktoren wie Systemkonfiguration, Softwareversion und BIOS-Einstellungen variieren. TPC, TPC Benchmark und TPC-C sind Marken des Transaction Processing Performance Council.

Server-CPUs

Business-Systeme

Personal Computing und Gaming

Embedded

Ressourcen

GPU-Beschleuniger

Adaptive Beschleuniger

DPU-Beschleuniger

Ethernet-Adapter

Workstations

Desktops

Notebooks

Ressourcen

FPGAs und adaptive SoCs

Systemmodule (SOMs)

Technologien

Ressourcen für Entwickler

Probeplatinen und Bausätze

Prozessor-Tools

Grafik-Tools und -Apps

Tools für FPGAs und adaptive SoCs

Urheberrechte und Apps

Tools und Apps für GPU-Beschleuniger

Ethernet-Adapter-Tools

Übersicht

Für Rechenzentren und die Cloud

Für Edge und Endpunkte

Für Entwickler

Branchen

Branchen

Branchen

Branchen

Industrias

Einsatzbereiche

Gaming

Systeme

Technologien

Ressourcen

EPYC Prozessoren

Radeon GPUs und AMD Chipsätze

FPGAs und adaptive SoCs

Alveo-Beschleuniger & Kria-SOMs

Ryzen Prozessoren

Ethernet-Adapter

Übersicht

Prozessoren

Beschleuniger

Embedded Produkte

Grafikprodukte

Übersicht

Ressourcen nach Produkt

Ressourcen nach Typ

Über unsere Partner

Weltweiter AMD Support

Prozessoren und Grafikprodukte

Beschleuniger

FPGAs und adaptive SoCs

Gaming und Personal Computing

Adaptive und Embedded Computing

Get AMD Fan Gear

Buy Direct From AMD

Buy Direct From AMD

Buy Direct From AMD

Buy Direct From AMD

Buy Direct From AMD

Verlagerung von KI-Inferenzauslastungen auf AMD EPYC™ Server-CPUs

Übersicht

Welche Hardware eignet sich für verschiedene Inferenzauslastungen am besten?

Die beste Inferenz-Hardware finden

5 KI-Inferenzauslastungen, die auf einer CPU ausgeführt werden

Schnelle, effiziente Inferenz mit AMD EPYC Server-CPUs

AMD EPYC Server-CPUs der 5. Generation übertreffen Intel Xeon 6 bei Inferenz, bei End-to-End-KI und bei maschinellem Lernen

Häufig gestellte Fragen

Wie können wir die Inferenz-Performance ohne explodierende Computing-Kosten verbessern?

Welche Auslastungen eignen sich am besten für eine Batch-Inferenz im Vergleich zur Echtzeit-Inferenz? Wie beeinflusst das unsere Entscheidungen hinsichtlich der Infrastruktur?

Sind für unsere Inferenz-Auslastungen CPUs ausreichend? Wann müssen wir Beschleuniger hinzufügen?

Hat AMD EPYC oder Intel Xeon eine bessere Inferenz-Performance?

Wie können wir sicherstellen, dass unsere Inferenz-Auslastungen sicher sind?

AMD unterstützt das gesamte Spektrum der KI

AMD EPYC Bereitstellungsoptionen