Les processeurs AMD EPYC™ contribuent à optimiser la valeur des investissements importants en GPU

Les accélérateurs GPU sont devenus les outils de référence pour l'IA moderne, car ils excellent dans l'entraînement de modèles complexes et volumineux, et prennent efficacement en charge l'inférence en temps réel à grande échelle. Toutefois, pour optimiser votre investissement en GPU, vous avez besoin d'un partenaire d'exception en matière de CPU.

Pourquoi choisir des GPU pour les charges de travail d'IA ?

Les GPU sont l'outil idéal pour de nombreuses charges de travail d'IA.

  • Entraînement de l'IA : les GPU accélèrent l'entraînement des modèles de grande et moyenne taille grâce à leurs capacités de traitement parallèle.
  • Déploiements d'IA dédiés : les GPU offrent la vitesse et l'évolutivité nécessaires pour l'inférence en temps réel dans les déploiements à grande échelle.

L'avantage du CPU :

Associer la puissance des GPU au bon CPU peut considérablement améliorer l'efficacité de l'IA pour certaines charges de travail. Dans un CPU, vous rechercherez les fonctionnalités clés suivantes :

  • Processeurs EPYC haute fréquence : pour une gestion rapide et efficace des tâches étendues de préparation et de post-traitement des données.
  • Grande taille de cache : pour un accès rapide aux données des grands ensembles de données.
  • Bande passante mémoire élevée et E/S hautes performances : pour un échange de données rapide et fluide entre le CPU et le GPU.
  • Cœurs économes en énergie : pour libérer de l'énergie qui servira aux GPU et réduire la consommation d'énergie globale.
  • Compatibilité avec les GPU et l'écosystème software : permet une optimisation optimale des performances, de l'efficacité et un fonctionnement fluide.
GPU System with AMD EPYC and Instinct

Processeurs AMD EPYC 9005

Les processeurs AMD EPYC Série 9005 haute fréquence constituent le choix idéal afin de révéler le plein potentiel de vos GPU pour les charges de travail d'IA de grande envergure. En tant que CPU hôtes, ils permettent de s'assurer que les GPU disposent des données appropriées au bon moment pour poursuivre le traitement, ce qui est essentiel pour atteindre le meilleur débit de charge de travail d'IA et assurer l'efficacité du système.  Leur fréquence de cœur élevée et leur grande capacité de mémoire sont des facteurs clés qui distinguent les processeurs haute fréquence AMD EPYC. Pour comprendre comment ces facteurs clés permettent d'augmenter le débit des GPU, lisez cet article.

Applications et secteurs

Des solutions basées sur les accélérateurs GPU et alimentées par les CPU AMD EPYC équipent de nombreux supercalculateurs et instances cloud parmi les plus rapides au monde, offrant aux entreprises une plateforme éprouvée pour optimiser les charges de travail axées sur les données et obtenir des résultats révolutionnaires en matière d'IA.

Processeurs AMD EPYC série 9005 Le bon choix pour optimiser la valeur des investissements importants en GPU

Les CPU jouent un rôle crucial dans l'orchestration et la synchronisation des transferts de données entre les GPU, la gestion des frais de lancement de noyau et la gestion de la préparation des données. Cette fonction de « conducteur » permet aux GPU de fonctionner à un rendement maximal.

Optimisez la valeur de vos investissements dans les GPU, avec des CPU hautes performances

De nombreuses charges de travail bénéficient de vitesses d'horloge du CPU élevées pour améliorer les performances des GPU en rationalisant le traitement des données, le transfert et l'exécution simultanée, ce qui alimente l'efficacité des GPU. L'EPYC 9575F a été spécialement conçu pour être un processeur de nœud hôte IA hautes performances, capable de fonctionner à des vitesses pouvant atteindre 5 GHz.

Comparaison des serveurs 2P avec les accélérateurs à 8 GPU

CPU AMD par rapport au CPU Intel Host Node avec GPU AMD Instinct
MLPerf® v4.1 Inference Lama 2-70B Benchmark¹
8 AMD Instinct™ MI300X + 2P EPYC 9575F (64 cœurs – 5 GHz) de 5e génération
1,11 x
8 AMD Instinct™ MI300X + 2P Xeon 9575F+ (40 cœurs – 3,7 GHz)
x 1,0

Inférence - Lama3.1-70B Inference Benchmark (BF16)²
8 Nvidia H100 + 2P EPYC 9575F (64 cœurs) de 5e génération
~1,20x
8 Nvidia H100 + 2P Xeon 8592+ (64 cœurs)
x 1,0
Entraînement - Llama3.1-8B Inference Benchmark (FP8)³
8 Nvidia H100 + 2P EPYC 9575F (64 cœurs) de 5e génération
~1,15x
8 Nvidia H100 + 2P Xeon 8592+ (64 cœurs)
x 1,0

Déployez efficacement l'IA d'entreprise

Les processeurs comme les AMD EPYC de 5e génération qui combinent hautes performances, faible consommation d'énergie, traitement efficace des données et capacités de gestion de la consommation énergétique permettent à votre infrastructure d'IA de fonctionner à des performances optimales tout en optimisant la consommation d'énergie et en réduisant les coûts.

Les processeurs AMD EPYC™ équipent des serveurs économes en énergie et apportent des performances exceptionnelles assorties de coûts énergétiques réduits. Déployez-les en toute confiance pour créer des solutions économes en énergie et vous aider à optimiser votre parcours d'IA.

Dans les processeurs AMD EPYC série 9005, AMD Infinity Power Management offre d'excellentes performances par défaut et permet un réglage précis du comportement spécifique à la charge de travail.

Abstract illustration with glowing blue lines

Ayez l’esprit tranquille : adoptez l'IA avec des solutions fiables

Faites votre choix parmi plusieurs solutions accélérées par GPU, certifiées ou validées et hébergées par les CPU AMD EPYC pour booster vos charges de travail d'IA.

Vous utilisez d'autres GPU ? Demandez des solutions certifiées AMD EPYC accélérées par CPU auprès des principaux fournisseurs de solutions de plateforme, notamment Asus, Dell, Gigabyte, HPE, Lenovo et Supermicro.

Un écosystème croissant d'options d'instance IA/ML cloud avec CPU AMD EPYC + GPU

Demandez des instances combinant un CPU AMD EPYC avec des GPU pour les charges de travail IA/ML provenant des principaux fournisseurs de cloud, notamment AWS, Azure, Google, IBM Cloud et OCI.

server room photo

Ressources

Accélérateurs AMD Instinct

Parfaitement adapté pour faire évoluer vos charges de travail d'IA les plus exigeantes.

Présentation sur l'IA d'entreprise avec AMD EPYC

Trouvez des documents AMD et partenaires décrivant les innovations en matière d'IA et d'apprentissage automatique (ML) à l'aide de CPU et de GPU

Podcasts

Écoutez des experts des technologies d'AMD et du secteur discuter des dernières tendances concernant les serveurs, le cloud computing, l'IA, le calcul hautes performances, etc.

Notes de bas de page
  1. 9xx5-013 : score d'inférence MLPerf™ officiel v4.1 Llama2-70B-99.9 jetons de serveur/s et résultats de jetons hors ligne/s récupérés à partir de https://mlcommons.org/benchmarks/inference-datacenter/ le 01/09/2024, à partir des entrées suivantes : 4.1-0070 (aperçu) et 4.1.0022. Le nom et le logo MLPerf™ sont des marques commerciales de MLCommons Association aux États-Unis et dans d'autres pays. Tous droits réservés. Toute utilisation non autorisée est strictement interdite. Rendez-vous sur www.mlcommons.org pour plus d'informations.
  2. 9xx5-014 : résultats du débit d'inférences Llama3.1-70B basés sur les tests internes d'AMD en date du 01/09/2024. Configurations Llama3.1-70B : TensorRT-LLM 0.9.0, nvidia/cuda 12.5.0-devel-ubuntu22.04, FP8, configurations de jeton d'entrée/de sortie (cas d'utilisation) : [BS=1 024 E/S=128/128, BS=1 024 E/S=128/2 048, BS=96 E/S=2 048/128, BS=64 E/S=2 048/2 048]. Résultats en jetons/seconde.2P AMD EPYC 9575F (128 cœurs au total) avec 8 NVIDIA H100 80 Go HBM3, 1,5 To 24x64 Go de DDR5-6000, NVMe® Micron_9300_MTFDHAL3T8T8TDP 3 To 1 Gbit/s, BIOS T20240805173113 (déterminisme=puissance, SR-IOV=activé), Ubuntu 22.04.3 LTS, noyau=5.15.0-117-generic (atténuations=désactivées, cpupower frequency-set -g performance, cpupower idle-set -d 2, echo 3> /proc/syss/vm/drop_caches), 2P Intel Xeon Platinum 8592+ (128 cœurs au total) avec 8 NVIDIA H100 80 Go HBM3, 1 To 16x64 Go de DDR5-5600, NVMe® Dell Ent PPM1735a MU 3,2 To, Ubuntu 22.04.3 LTS, kernel-5.15.0-118-generic (processor.max_cstate=1, intel_idle.max_cstate=0 atténuations=désactivées, cpupower frequency-set -g performance), BIOS 2.1 (performances maximales, SR-IOV=activé), taille du lot de jetons d'entrée/de sortie EMR Turin relative 128/128 1024 814.678 1101.966 1.353 128/2048 1024 2120.664 2331.776 1.1 2048/128 96 114.954 146.187 1.272 2048/2048 64 333.325 354.208 1.063Pour une multiplication moyenne du débit de 1,197. Les résultats peuvent varier en fonction de facteurs tels que les configurations système, les versions logicielles et les paramètres du BIOS.
  3. 9xx5-015 : résultats des tests d'entraînement Llama3.1-8B (BF16, longueur de séquence max. 1 024) basés sur les tests internes d'AMD en date du 05/09/2024. Configurations Llama3.1-8B : longueur de séquence max. 1024, BF16, Docker : huggingface/transformers-pytorch-gpu:latest 2P AMD EPYC 9575F (128 cœurs au total) avec 8 NVIDIA H100 80 Go HBM3, 1,5 To 24x64 Go DDR5-6000, Micron_9300_MTFDHAL3T8TDP 3 To NVMe® 1 Gbit/s, BIOS T20240805173113 (déterminisme=puissance, SR-IOV=activé), Ubuntu 22.04.3 LTS, noyau=5.15.0-117-generic (atténuations=désactivées, cpupower frequency-set -g performance, cpupower idle-set -d 2, echo 3> /proc/syss/vm/drop_caches) pour 31,79 échantillons d'entraînement/seconde2P Intel Xeon Platinum 8592+ (128 cœurs au total) avec 8 NVIDIA H100 80 Go HBM3, 1 To 16x64 Go DDR5-5600, Dell Ent NVMe® PM1735a MU 3,2 To, Ubuntu 22.04.3 LTS, kernel-5.15.0-118-generic (processor.max_cstate=1, intel_idle.max_cstate=0 atténuations=désactivées, cpupower frequency-set -g performance), BIOS 2.1 (performances maximales, SR-IOV=activé), pour 24,74 échantillons d'entraînement/seconde pour une multiplication moyenne du débit de 1,146.  Les résultats peuvent varier en fonction de facteurs tels que les configurations système, les versions logicielles et les paramètres du BIOS.