Développer de grands modèles de langage avec la puissance d'AMD
TurkuNLP a fait passer à 192 nœuds le supercalculateur LUMI, propulsé par des CPU AMD EPYC™ et des GPU Instinct™, afin de créer de grands modèles de langage pour le finnois.
Les serveurs hautes performances sont au cœur de l'IA d'entreprise. Les CPU pour serveur AMD EPYC™ et les principaux GPU offrent des performances impressionnantes pour l'entraînement de l'IA et les charges de travail des grands modèles.
Webinaire en direct
Découvrez comment la combinaison gagnante des processeurs AMD EPYC™ et des accélérateurs GPU de pointe offre la puissance nécessaire pour relever les défis les plus exigeants de l'IA d'entreprise.
Les accélérateurs GPU sont devenus les outils de référence pour l'IA moderne, car ils excellent dans l'entraînement de modèles complexes et volumineux, et prennent efficacement en charge l'inférence en temps réel à grande échelle. Toutefois, pour optimiser votre investissement en GPU, vous avez besoin d'un partenaire d'exception en matière de CPU.
Les GPU sont l'outil idéal pour de nombreuses charges de travail d'IA.
Associer la puissance des GPU au bon CPU peut considérablement améliorer l'efficacité de l'IA pour certaines charges de travail. Dans un CPU, vous rechercherez les fonctionnalités clés suivantes :
Le choix idéal pour débrider le plein potentiel de vos charges de travail d'IA de grande envergure. Ils contribuent à l'optimisation des performances des accélérateurs GPU et à l'efficacité globale de la charge de travail d'IA. De plus, grâce à des fonctionnalités de sécurité améliorées et à un engagement constant et durable en faveur des normes ouvertes, les processeurs AMD EPYC permettent aux entreprises de déployer en toute confiance la prochaine phase de leur transition vers l'IA.
Des solutions basées sur les accélérateurs GPU et alimentées par les CPU AMD EPYC équipent de nombreux supercalculateurs et instances cloud parmi les plus rapides au monde, offrant aux entreprises une plateforme éprouvée pour optimiser les charges de travail axées sur les données et obtenir des résultats révolutionnaires en matière d'IA.
Les CPU jouent un rôle crucial dans l'orchestration et la synchronisation des transferts de données entre les GPU, la gestion des frais de lancement de noyau et la gestion de la préparation des données. Cette fonction de « conducteur » garantit que les GPU fonctionnent à un rendement maximal.
Certaines charges de travail bénéficient de vitesses d'horloge du CPU élevées pour améliorer les performances des GPU en rationalisant le traitement des données, le transfert et l'exécution simultanée, ce qui alimente l'efficacité des GPU.
Afin de prouver que des fréquences de CPU plus élevées boostent le débit de charge de travail Llama2-7B, nous avons utilisé des CPU AMD EPYC 9554 personnalisés dans un serveur 2P équipé de 8 GPU NVIDIA H1001
Les processeurs qui combinent hautes performances, faible consommation d'énergie, gestion efficace des données et capacités de gestion de la consommation énergétique permettent à votre infrastructure d'IA de fonctionner à des performances optimales tout en optimisant la consommation d'énergie et en réduisant les coûts.
Les processeurs AMD EPYC propulsent les serveurs les plus économes en énergie au monde, offrant des performances exceptionnelles et contribuant à réduire les coûts énergétiques.2 Déployez-les en toute confiance pour créer des solutions économes en énergie et optimiser votre parcours d'IA.
Dans les processeurs AMD EPYC série 9004, AMD Infinity Power Management offre d'excellentes performances par défaut et permet un réglage précis du comportement spécifique à la charge de travail.
Faites votre choix parmi plusieurs solutions accélérées par GPU, certifiées ou validées et hébergées par les CPU AMD EPYC pour booster vos charges de travail d'IA.
Vous préférez les solutions propulsées par accélérateur AMD Instinct ?
Vous utilisez d'autres GPU ? Demandez des solutions certifiées AMD EPYC accélérées par CPU auprès des principaux fournisseurs de solutions de plateforme, notamment Asus, Dell, Gigabyte, HPE, Lenovo et Supermicro.
Demandez des instances combinant un CPU AMD EPYC avec des GPU pour les charges de travail IA/ML provenant des principaux fournisseurs de cloud, notamment AWS, Azure, Google, IBM Cloud et OCI.
Configurations de serveur : 2P EPYC 9554 (CPU avec fréquences personnalisées, 64C/128T, 16 cœurs actifs), 1,5 To de mémoire (24 x 64 Go DDR5-5600 fonctionnant à 4800 MT/s), SSD 3,2 To, Ubuntu® 22.04.4 LTS, avec 8 NVIDIA H100 80 Go HBM3, transformateurs HuggingFace v 4.31.0, NVIDIA PyTorch 23.12, PEFT 0.4.0, Python 3.10.12, CUDA 12.3.2.001, TensorRT-LLM v 0.9.0.dev2024, CUDNN 8.9.7.29+cuda12.2, pilote NVIDIA-SMI version 550.54.15, TRT v8.6.1.6+cuda12.0.1.011, moteur de transformation v1.1
Réglage précis du Llama2-7B : BS par appareil=4, seqln=128, moyenne sur 4 exécutions, 10 périodes par exécution, FP16
Formation Llama2-7B (1K) : BS=56 (7x8 processeurs graphiques), seqln=1k, gradients sur GPU
Formation Llama2-7B (2K) : BS=24 (3x8 processeurs graphiques), seqln=2k, gradients sur GPU
Les résultats :
Fréquence du CPU 2000 MHz 2500 MHz 3000 MHz
Réglage précis durée moyenne de l'entraînement en secondes 649.38 584.24 507.1
% d'augmentation du débit 0,00 % 11,15 % 28,06 %
Débit de l'entraînement 1K Longueur de séquence 276,08 238,81 230,82
% d'augmentation du débit 0,00 % 15,61 % 19,61 %
Débit de l'entraînement 2K Longueur de séquence 883,85 807,94 778,72
% d'augmentation du débit 0,00 % 9,40 % 13,50 %
Les résultats peuvent varier en fonction de facteurs tels que les configurations système, les versions logicielles et les paramètres du BIOS. REMARQUE : Cette performance est une démonstration de faisabilité. Données collectées sur processeur hôte 2P AMD EPYC™ 9554 personnalisé avec diverses fréquences utilisant 8 accélérateurs Nvidia H100 80 Go. Les processeurs EPYC de 4e génération ne permettent pas aux utilisateurs finaux de régler les fréquences.