une nouvelle référence en matière de performances IA
Les clients qui investissent dans les accélérateurs d'IA devraient atteindre les 500 milliards de dollars d'ici 2028. Dans quatre ans à peine, les accélérateurs représenteront plusieurs milliers de milliards de dollars pour les entreprises. L'IA offre aux entreprises des niveaux de productivité, d'amélioration et de révolution inégalés, et les chefs d'entreprise en sont conscients. C'est pourquoi ils ont déjà investi des milliards, transformant ainsi leur façon de travailler. Chaque jour, des millions de personnes font confiance aux accélérateurs AMD Instinct™ et utilisent des applications exécutées avec des modèles d'IA populaires comme GPT 4 et Llama 3.1 405B, ainsi que quelques-uns des plus d'un million de modèles open source sur la plateforme Hugging Face.
Ce niveau de productivité va monter en flèche. Avec le lancement des nouveaux accélérateurs AMD Instinct™ MI325X, cette évolution se précise rapidement.
Accélérateurs AMD Instinct™ MI325X
Quand une mémoire étendue s’allie à des performances de pointe
Les accélérateurs AMD Instinct™ MI325X constituent la nouvelle référence en matière de performances pour les modèles d'IA générative et les centres de données. Construits sur l'architecture AMD CDNA™ de 3e génération, ils sont conçus pour offrir des performances et une efficacité exceptionnelles sur un ensemble de tâches d'IA exigeantes, notamment les modèles d'entraînement et l'inférence.
Des applications d'IA aussi intensives nécessitent beaucoup de mémoire. C'est pourquoi vous disposerez d'une capacité de mémoire HBM3e de nouvelle génération de pointe avec 256 Go et d'une bande passante de 6 To/s. Associés à la puissance de calcul et à la prise en charge requise d'un grand nombre de types de données, les accélérateurs AMD Instinct MI325X offrent les niveaux de performance dont les entreprises ont besoin pour pratiquement toutes les solutions d'IA1.
En comparant les accélérateurs AMD Instinct MI325X aux produits concurrents, on constate que les performances d'inférence de pointe sont jusqu'à 1,4 fois supérieures dans des modèles tels que Mixtral 8x7B, Mistral 7B et Meta Llama-3.1 70B2,3,4.
Alors que les performances et la productivité augmentent de concert, les clients profiteront d'une capacité de mémoire de pointe et des avantages qu'elle procure. En effet, les clients pourront réduire le nombre de GPU pour les grands modèles de langage d'IA et utiliser des clusters plus petits pour parvenir à des résultats identiques ou supérieurs à ceux obtenus avec les produits de la génération précédente5. En résumé, cela se traduit par des encombrements plus faibles, des déploiements simplifiés et des économies d'énergie. Les accélérateurs AMD Instinct MI325X sont la solution idéale pour les entreprises qui souhaitent bénéficier de performances extrêmes tout en maîtrisant leur TCO (coût total de possession).
La plateforme AMD Instinct™ MI325X
Une base de calcul de pointe optimale
Aujourd'hui, les grands modèles de langage et l'IA générative ont besoin de trois éléments pour fournir des résultats rapides : une accélération rapide sur plusieurs types de données, une mémoire et une bande passante importantes pour gérer d'énormes ensembles de données, et une bande passante d'E/S intensive.
Grâce à la plateforme qui s'articule autour de ces nouveaux accélérateurs, les clients bénéficient de ces trois éléments. Le nouveau contrôleur standard (UBB 2.0) héberge jusqu'à huit accélérateurs AMD Instinct™ MI325X et 2 To de mémoire HBM3e pour aider à traiter les modèles d'IA les plus exigeants. Grâce à huit connexions d'E/S hôtes PCIe® de 5e génération x16 et à la technologie de maillage AMD Infinity Fabric™ qui offre une connectivité directe entre chaque accélérateur, les goulets d'étranglement de données sont de l'histoire ancienne.
Par rapport aux plateformes concurrentes similaires, la plateforme MI325X offre une capacité de mémoire 1,8 fois supérieure, une largeur de bande de mémoire 1,3 fois supérieure et des performances d'inférence jusqu'à 1,4 fois supérieures, ce qui représente un immense bond en avant. 6, 7, 8
Les accélérateurs AMD Instinct MI325X offrent aux clients souhaitant mettre à niveau leur infrastructure AMD Instinct une compatibilité directe avec la plateforme AMD Instinct™ MI300X, ce qui permet de réduire les délais de mise sur le marché et de réduire les changements d'infrastructure coûteux.
Accélérateur |
Architecture |
Mémoire |
Bande passante mémoire |
Performances FP8 |
Performances FP16 |
AMD Instinct™ MI325X |
AMD CDNA™ 3 |
256 Go HBM3e |
6 To/s |
2,6 PF |
1,3 PF |
Plateforme AMD ROCm™
Accélérer l'inférence et l'entraînement de l'IA grâce à des softwares ouverts
Les accélérateurs AMD Instinct™ MI325X tirent parti de la puissance du software AMD ROCm™, la base du calcul accéléré d'AMD. Ils offrent des capacités exceptionnelles aux utilisateurs, qu'ils travaillent sur des applications d'IA de nouvelle génération, des modèles d'IA de pointe ou qu'ils optimisent des simulations complexes.
Les clients qui optent pour les accélérateurs AMD peuvent bénéficier d'une prise en charge Day-Zero des structures standards, notamment PyTorch et TensorFlow, ce qui simplifie la migration et les déploiements de modèles d'IA et ne nécessite qu'un minimum de modifications du code. De plus, la dernière version d'AMD ROCm multiplie par 1,8 les performances d'entraînement et par 2,4 les performances d'inférence du GPU sur les accélérateurs AMD Instinct, grâce à des compilateurs, des bibliothèques et un support d'exécution optimisés. Cela permet d'assurer une convergence rapide des modèles, des prédictions précises et une utilisation particulièrement efficace du GPU9,10.
Vous souhaitez en savoir plus sur les accélérateurs AMD Instinct™ MI325X ? Pour obtenir plus d'informations et connaître les disponibilités, rendez-vous sur AMD.com ou contactez votre représentant AMD.
AMD Arena
Améliorez vos connaissances sur les produits AMD avec des formations sur AMD Ryzen™ PRO, AMD EPYC™, AMD Instinct™ et plus encore.
S'abonner
Recevez des communications mensuelles sur les derniers produits et ressources de formation AMD, ainsi que les webinaires Rencontrer les Experts.

Articles connexes
Notes de bas de page
- Calculs effectués par AMD Performance Labs le 26 septembre 2024, sur la base des spécifications et/ou estimations actuelles. L'accélérateur OAM AMD Instinct™ MI325X offre une capacité de mémoire de 256 Go HBM3e et des performances de bande passante mémoire théorique de pointe du GPU de 6 To/s. Les résultats réels peuvent varier selon la production de silicium. Les résultats publiés les plus élevés sur l'accélérateur de GPU Nvidia Hopper H200 (141 Go) SXM ont indiqué une capacité de mémoire HBM3e de 141 Go et des performances de bande passante mémoire du GPU de 4,8 To/s. https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446. Les résultats publiés les plus élevés sur l'accélérateur de GPU Nvidia Blackwell HGX B100 (192 Go) 700 W ont indiqué une capacité de mémoire HBM3e de 192 Go et des performances de bande passante mémoire du GPU de 8 To/s. Les résultats publiés les plus élevés sur l'accélérateur de GPU Nvidia Blackwell HGX B200 (192 Go) ont indiqué une capacité de mémoire HBM3e de 192 Go et des performances de bande passante mémoire du GPU de 8 To/s. Spécifications de Nvidia Blackwell sur https://resources.nvidia.com/en-us-blackwell-architecture. MI325-001A
- MI325-004 : sur la base des tests effectués le 28/09/2024 par AMD Performance Labs pour mesurer le débit généré par le texte pour le modèle Mixtral-8x7B en utilisant le type de données FP16. Le test a été effectué à l'aide d'une longueur d'entrée de 128 jetons et d'une longueur de sortie de 4 096 jetons pour l'accélérateur de GPU AMD Instinct™ MI325X et l'accélérateur de GPU Nvidia H200 SXM. 1 MI325X à 1 000 W avec performances vLLM contre 1 H200 à 700 W avec TensorRT-LLM v0.13. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI325-004
- MI325-005 : sur la base de tests réalisés le 28/09/2024 par AMD Performance Labs mesurant le temps de latence global pour le modèle Mistral-7B utilisant le type de données FP16. Le test a été effectué à l'aide d'une longueur d'entrée de 128 jetons et d'une longueur de sortie de 128 jetons pour l'accélérateur de GPU AMD Instinct™ MI325X et l'accélérateur de GPU Nvidia H200 SXM. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI325-005
- MI325-006 : sur la base de tests réalisés le 28/09/2024 par AMD Performance Labs mesurant le temps de latence global pour le modèle Llama 3.1-70B utilisant le type de données FP8. Le test a été effectué à l'aide d'une longueur d'entrée de 2048 jetons et d'une longueur de sortie de 2048 jetons pour les configurations suivantes de l'accélérateur de GPU AMD Instinct™ MI325X et de l'accélérateur de GPU Nvidia H200 SXM. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI325-006
- MI325-003A : Estimations calculées en fonction de la taille de la mémoire des GPU uniquement, par rapport à la mémoire requise par le modèle, aux paramètres définis et en ajoutant 10 % supplémentaires. Les calculs reposent sur des tailles de mémoire de modèle publiées et parfois préliminaires. Les résultats de PaLM 1, Llama 3.1 405B, Mixtral 8x22B et Samba-1 sont estimés sur MI325X et H200 en raison de la disponibilité du système/des pièces.
Résultats (calculés) :
GPU requis : comparaison entre MI325X et H200
PaLM-1 (540B) 5 9
Llama 3.1 (405B) 4 7
Mixtral 8x22B (141B) 2 3
Samba-1 (1T) 9 16
Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations.
- MI325-001A : Calculs effectués par AMD Performance Labs le 26 septembre 2024, sur la base des spécifications et/ou estimations actuelles. L'accélérateur OAM AMD Instinct™ MI325X offre une capacité de mémoire de 256 Go HBM3e et des performances de bande passante mémoire théorique de pointe du GPU de 6 To/s. Les résultats réels peuvent varier selon la production de silicium. Les résultats publiés les plus élevés sur l'accélérateur de GPU Nvidia Hopper H200 (141 Go) SXM ont indiqué une capacité de mémoire HBM3e de 141 Go et des performances de bande passante mémoire du GPU de 4,8 To/s : https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446. Les résultats publiés les plus élevés sur l'accélérateur de GPU Nvidia Blackwell HGX B100 (192 Go) 700 W ont indiqué une capacité de mémoire HBM3e de 192 Go et des performances de bande passante mémoire du GPU de 8 To/s. Les résultats publiés les plus élevés sur l'accélérateur de GPU Nvidia Blackwell HGX B200 (192 Go) ont indiqué une capacité de mémoire HBM3e de 192 Go et des performances de bande passante mémoire du GPU de 8 To/s. Spécifications de Nvidia Blackwell sur https://resources.nvidia.com/en-us-blackwell-architecture.
- MI325-002 : les calculs effectués par AMD Performance Labs le 28 mai 2024 pour le GPU AMD Instinct™ MI325X ont indiqué 1 307,4 TFLOPS en crête en demi-précision théorique (FP16), 1 307,4 TFLOPS en crête en précision au format Bfloat16 théorique (BF16), 2 614,9 TFLOPS en crête en précision 8 bits théorique (FP8), 2 614,9 TOPS en performance de calcul en virgule flottante INT8. Les performances réelles varieront en fonction des spécifications finales et de la configuration du système.
Résultats publiés avec le GPU Nvidia H200 SXM (141 Go) : 989,4 TFLOPS en crête de tenseur en demi-précision théorique (Tensor FP16), 989,4 TFLOPS en crête en précision au format de tenseur Bfloat16 théorique (Tensor BF16), 1 978,9 TFLOPS en crête en précision de 8 bits théorique (FP8), 1 978,9 TOPS en crête de performance de calcul en virgule flottante INT8 théorique. Les performances du cœur Tensor BFLOAT16, du cœur Tensor FP16, du cœur Tensor FP8 et du cœur Tensor INT8 ont été communiquées par Nvidia en utilisant la dispersion ; à des fins de comparaison, AMD a converti ces chiffres en chiffres non dispersés/denses en les divisant par 2, et ces chiffres apparaissent ci-dessus.
Source Nvidia H200 : https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446 et https://www.anandtech.com/show/21136/nvidia-at-sc23-h200-accelerator-with-hbm3e-and-jupiter-supercomputer-for-2024
Remarque : les GPU Nvidia H200 ont les mêmes performances en FLOPS publiées que les produits H100 https://resources.nvidia.com/en-us-tensor-core. MI325-002
- MI325-014 : sur la base des tests effectués le 08/10/2024 par AMD Performance Labs pour mesurer le débit généré par le texte pour le modèle Llama 3.1-405B en utilisant le type de données FP8. Le test a été effectué à l'aide d'une longueur d'entrée de 128 jetons et d'une longueur de sortie de 2 048 jetons pour les configurations suivantes de la plateforme 8 GPU AMD Instinct™ MI325X et de la plateforme GPU Nvidia H200 HGX. Plateforme 8 GPU MI325X avec performances vLLM par rapport aux résultats publiés par Nvidia Configurations : Plateforme 8 GPU MI325X configuration Dell PowerEdge XE9680 équipés de 2 processeurs Intel Xeon Platinum 8480+, 8 GPU AMD Instinct MI325X (256 Gio, 1 000 W), Ubuntu 22.04 et une version préliminaire de ROCm 6.3 par rapport aux résultats publiés par Nvidia pour TensorRT-LLM v0.13 capturés à partir de : https://github.com/NVIDIA/TensorRT-LLM/blob/v0.13.0/docs/source/performance/perf-overview.md - 3 039,7 jetons de sortie/s. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI325-014
- MI300-61 : mesures réalisées par l'équipe de gestion des produits IA d'AMD sur le GPU AMD Instinct™ MI300X pour comparer les performances du grand modèle de langage (LLM) avec les méthodologies d'optimisation activées et désactivées en date du 28/09/2024 sur Llama 3.1-70B et Llama 3.1-405B et vLLM 0.5.5.
Configurations système :
processeur AMD EPYC 9654 96 cœurs, 8 AMD MI300X, ROCm™ 6.1, Linux® 7ee7e017abe3 5.15.0-116-generic #126-Ubuntu® SMP Mon Jul 1 10:14:24 UTC 2024 x86_64 x86_64 x86_64 GNU/Linux, augmentation de fréquence : activée. Les performances peuvent varier en fonction de facteurs, y compris, mais sans s'y limiter : les différentes versions de configurations, vLLM et les pilotes.
- MI300-62 : tests réalisés en interne par AMD Performance Labs en date du 29 septembre 2024, comparaison des performances d'inférence entre les softwares ROCm 6.2 et ROCm 6.0 sur les systèmes équipés de 8 GPU AMD Instinct™ MI300X couplés aux modèles Llama 3.1-8B, Llama 3.1-70B, Mixtral-8x7B, Mixtral-8x22B et Qwen 72B. Les performances de ROCm 6.2 avec vLLM 0.5.5 ont été comparées à celles de ROCm 6.0 avec vLLM 0.3.3, et les tests ont été effectués sur des lots dont la taille variait de 1 à 256 et sur des séquences dont la longueur variait de 128 à 2 048.
Configurations :
serveur de CPU 1P AMD EPYC™ 9534 avec 8 GPU AMD Instinct™ MI300X (192 Go, 750 W), Supermicro AS-8125GS-TNMR2, NPS1 (1 NUMA par socket), 1,5 Tio (24 DIMM, 4 800 mts mémoire, 64 Gio/DIMM), 4 x 3,49 To de stockage Micron 7450, version du BIOS : 1.8, ROCm 6.2.0-00, vLLM 0.5.5, PyTorch 2.4.0, Ubuntu® 22.04 LTS avec Linux kernel 5.15.0-119-generic.
vs
serveur de CPU 1P AMD EPYC 9534 avec 8 GPU AMD Instinct™ MI300X (192 Go, 750 W), Supermicro AS-8125GS-TNMR2, NPS1 (1 NUMA par socket), 1,5 Tio (24 DIMM, 4 800 mts mémoire, 64 Gio/DIMM), 4 x 3,49 To de stockage Micron 7450, version du BIOS : 1.8, ROCm 6.0.0-00, vLLM 0.3.3, PyTorch 2.1.1, Ubuntu 22.04 LTS avec Linux kernel 5.15.0-119-generic.
Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de facteurs, y compris, mais sans s'y limiter : les différentes versions de configurations, vLLM et les pilotes.
CLAUSE DE NON-RESPONSABILITÉ : Les informations contenues dans le présent document ne sont fournies qu'à titre indicatif et peuvent être modifiées sans préavis. Bien que toutes les précautions aient été prises dans la préparation du présent document, il pourrait cependant contenir des inexactitudes techniques, des omissions et des erreurs typographiques. AMD n'a aucune obligation de mettre à jour ou de corriger ces informations. Advanced Micro Devices, Inc. n'émet aucune déclaration ni garantie concernant l'exactitude ou le caractère complet du contenu du présent document, et n'assume aucune responsabilité que ce soit, notamment de garantie implicite de non-violation, de qualité marchande ou d'adaptation à des usages particuliers lors de l'utilisation ou du fonctionnement de composants matériels, logiciels ou d'autres produits AMD présentés ici. Aucune licence, notamment implicite ou découlant d'une question déjà tranchée, n'est accordée par le présent document pour quelque droit de propriété intellectuelle que ce soit. Les conditions et limitations applicables à l'achat ou à l'utilisation de produits AMD sont définies dans un accord signé entre les parties, ou dans les conditions générales de vente d'AMD. GD-18u.
© 2024 Advanced Micro Devices, Inc. Tous droits réservés. AMD, le logo AMD avec la flèche, EPYC, Instinct, ROCm et leurs combinaisons sont des marques commerciales d'Advanced Micro Devices, Inc. Les autres noms de produits apparaissant dans cette publication sont donnés à titre indicatif uniquement et peuvent être des marques déposées de leurs sociétés respectives. Certaines technologies AMD peuvent nécessiter des activations tierces. Les fonctionnalités prises en charge peuvent varier selon le système d'exploitation. Veuillez consulter le fabricant du système pour connaître les caractéristiques spécifiques. Aucune technologie ni aucun produit ne peut être totalement sûr.
- Calculs effectués par AMD Performance Labs le 26 septembre 2024, sur la base des spécifications et/ou estimations actuelles. L'accélérateur OAM AMD Instinct™ MI325X offre une capacité de mémoire de 256 Go HBM3e et des performances de bande passante mémoire théorique de pointe du GPU de 6 To/s. Les résultats réels peuvent varier selon la production de silicium. Les résultats publiés les plus élevés sur l'accélérateur de GPU Nvidia Hopper H200 (141 Go) SXM ont indiqué une capacité de mémoire HBM3e de 141 Go et des performances de bande passante mémoire du GPU de 4,8 To/s. https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446. Les résultats publiés les plus élevés sur l'accélérateur de GPU Nvidia Blackwell HGX B100 (192 Go) 700 W ont indiqué une capacité de mémoire HBM3e de 192 Go et des performances de bande passante mémoire du GPU de 8 To/s. Les résultats publiés les plus élevés sur l'accélérateur de GPU Nvidia Blackwell HGX B200 (192 Go) ont indiqué une capacité de mémoire HBM3e de 192 Go et des performances de bande passante mémoire du GPU de 8 To/s. Spécifications de Nvidia Blackwell sur https://resources.nvidia.com/en-us-blackwell-architecture. MI325-001A
- MI325-004 : sur la base des tests effectués le 28/09/2024 par AMD Performance Labs pour mesurer le débit généré par le texte pour le modèle Mixtral-8x7B en utilisant le type de données FP16. Le test a été effectué à l'aide d'une longueur d'entrée de 128 jetons et d'une longueur de sortie de 4 096 jetons pour l'accélérateur de GPU AMD Instinct™ MI325X et l'accélérateur de GPU Nvidia H200 SXM. 1 MI325X à 1 000 W avec performances vLLM contre 1 H200 à 700 W avec TensorRT-LLM v0.13. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI325-004
- MI325-005 : sur la base de tests réalisés le 28/09/2024 par AMD Performance Labs mesurant le temps de latence global pour le modèle Mistral-7B utilisant le type de données FP16. Le test a été effectué à l'aide d'une longueur d'entrée de 128 jetons et d'une longueur de sortie de 128 jetons pour l'accélérateur de GPU AMD Instinct™ MI325X et l'accélérateur de GPU Nvidia H200 SXM. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI325-005
- MI325-006 : sur la base de tests réalisés le 28/09/2024 par AMD Performance Labs mesurant le temps de latence global pour le modèle Llama 3.1-70B utilisant le type de données FP8. Le test a été effectué à l'aide d'une longueur d'entrée de 2048 jetons et d'une longueur de sortie de 2048 jetons pour les configurations suivantes de l'accélérateur de GPU AMD Instinct™ MI325X et de l'accélérateur de GPU Nvidia H200 SXM. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI325-006
- MI325-003A : Estimations calculées en fonction de la taille de la mémoire des GPU uniquement, par rapport à la mémoire requise par le modèle, aux paramètres définis et en ajoutant 10 % supplémentaires. Les calculs reposent sur des tailles de mémoire de modèle publiées et parfois préliminaires. Les résultats de PaLM 1, Llama 3.1 405B, Mixtral 8x22B et Samba-1 sont estimés sur MI325X et H200 en raison de la disponibilité du système/des pièces.
Résultats (calculés) :
GPU requis : comparaison entre MI325X et H200
PaLM-1 (540B) 5 9
Llama 3.1 (405B) 4 7
Mixtral 8x22B (141B) 2 3
Samba-1 (1T) 9 16
Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations.
- MI325-001A : Calculs effectués par AMD Performance Labs le 26 septembre 2024, sur la base des spécifications et/ou estimations actuelles. L'accélérateur OAM AMD Instinct™ MI325X offre une capacité de mémoire de 256 Go HBM3e et des performances de bande passante mémoire théorique de pointe du GPU de 6 To/s. Les résultats réels peuvent varier selon la production de silicium. Les résultats publiés les plus élevés sur l'accélérateur de GPU Nvidia Hopper H200 (141 Go) SXM ont indiqué une capacité de mémoire HBM3e de 141 Go et des performances de bande passante mémoire du GPU de 4,8 To/s : https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446. Les résultats publiés les plus élevés sur l'accélérateur de GPU Nvidia Blackwell HGX B100 (192 Go) 700 W ont indiqué une capacité de mémoire HBM3e de 192 Go et des performances de bande passante mémoire du GPU de 8 To/s. Les résultats publiés les plus élevés sur l'accélérateur de GPU Nvidia Blackwell HGX B200 (192 Go) ont indiqué une capacité de mémoire HBM3e de 192 Go et des performances de bande passante mémoire du GPU de 8 To/s. Spécifications de Nvidia Blackwell sur https://resources.nvidia.com/en-us-blackwell-architecture.
- MI325-002 : les calculs effectués par AMD Performance Labs le 28 mai 2024 pour le GPU AMD Instinct™ MI325X ont indiqué 1 307,4 TFLOPS en crête en demi-précision théorique (FP16), 1 307,4 TFLOPS en crête en précision au format Bfloat16 théorique (BF16), 2 614,9 TFLOPS en crête en précision 8 bits théorique (FP8), 2 614,9 TOPS en performance de calcul en virgule flottante INT8. Les performances réelles varieront en fonction des spécifications finales et de la configuration du système.
Résultats publiés avec le GPU Nvidia H200 SXM (141 Go) : 989,4 TFLOPS en crête de tenseur en demi-précision théorique (Tensor FP16), 989,4 TFLOPS en crête en précision au format de tenseur Bfloat16 théorique (Tensor BF16), 1 978,9 TFLOPS en crête en précision de 8 bits théorique (FP8), 1 978,9 TOPS en crête de performance de calcul en virgule flottante INT8 théorique. Les performances du cœur Tensor BFLOAT16, du cœur Tensor FP16, du cœur Tensor FP8 et du cœur Tensor INT8 ont été communiquées par Nvidia en utilisant la dispersion ; à des fins de comparaison, AMD a converti ces chiffres en chiffres non dispersés/denses en les divisant par 2, et ces chiffres apparaissent ci-dessus.
Source Nvidia H200 : https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446 et https://www.anandtech.com/show/21136/nvidia-at-sc23-h200-accelerator-with-hbm3e-and-jupiter-supercomputer-for-2024
Remarque : les GPU Nvidia H200 ont les mêmes performances en FLOPS publiées que les produits H100 https://resources.nvidia.com/en-us-tensor-core. MI325-002
- MI325-014 : sur la base des tests effectués le 08/10/2024 par AMD Performance Labs pour mesurer le débit généré par le texte pour le modèle Llama 3.1-405B en utilisant le type de données FP8. Le test a été effectué à l'aide d'une longueur d'entrée de 128 jetons et d'une longueur de sortie de 2 048 jetons pour les configurations suivantes de la plateforme 8 GPU AMD Instinct™ MI325X et de la plateforme GPU Nvidia H200 HGX. Plateforme 8 GPU MI325X avec performances vLLM par rapport aux résultats publiés par Nvidia Configurations : Plateforme 8 GPU MI325X configuration Dell PowerEdge XE9680 équipés de 2 processeurs Intel Xeon Platinum 8480+, 8 GPU AMD Instinct MI325X (256 Gio, 1 000 W), Ubuntu 22.04 et une version préliminaire de ROCm 6.3 par rapport aux résultats publiés par Nvidia pour TensorRT-LLM v0.13 capturés à partir de : https://github.com/NVIDIA/TensorRT-LLM/blob/v0.13.0/docs/source/performance/perf-overview.md - 3 039,7 jetons de sortie/s. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI325-014
- MI300-61 : mesures réalisées par l'équipe de gestion des produits IA d'AMD sur le GPU AMD Instinct™ MI300X pour comparer les performances du grand modèle de langage (LLM) avec les méthodologies d'optimisation activées et désactivées en date du 28/09/2024 sur Llama 3.1-70B et Llama 3.1-405B et vLLM 0.5.5.
Configurations système :
processeur AMD EPYC 9654 96 cœurs, 8 AMD MI300X, ROCm™ 6.1, Linux® 7ee7e017abe3 5.15.0-116-generic #126-Ubuntu® SMP Mon Jul 1 10:14:24 UTC 2024 x86_64 x86_64 x86_64 GNU/Linux, augmentation de fréquence : activée. Les performances peuvent varier en fonction de facteurs, y compris, mais sans s'y limiter : les différentes versions de configurations, vLLM et les pilotes.
- MI300-62 : tests réalisés en interne par AMD Performance Labs en date du 29 septembre 2024, comparaison des performances d'inférence entre les softwares ROCm 6.2 et ROCm 6.0 sur les systèmes équipés de 8 GPU AMD Instinct™ MI300X couplés aux modèles Llama 3.1-8B, Llama 3.1-70B, Mixtral-8x7B, Mixtral-8x22B et Qwen 72B. Les performances de ROCm 6.2 avec vLLM 0.5.5 ont été comparées à celles de ROCm 6.0 avec vLLM 0.3.3, et les tests ont été effectués sur des lots dont la taille variait de 1 à 256 et sur des séquences dont la longueur variait de 128 à 2 048.
Configurations :
serveur de CPU 1P AMD EPYC™ 9534 avec 8 GPU AMD Instinct™ MI300X (192 Go, 750 W), Supermicro AS-8125GS-TNMR2, NPS1 (1 NUMA par socket), 1,5 Tio (24 DIMM, 4 800 mts mémoire, 64 Gio/DIMM), 4 x 3,49 To de stockage Micron 7450, version du BIOS : 1.8, ROCm 6.2.0-00, vLLM 0.5.5, PyTorch 2.4.0, Ubuntu® 22.04 LTS avec Linux kernel 5.15.0-119-generic.
vs
serveur de CPU 1P AMD EPYC 9534 avec 8 GPU AMD Instinct™ MI300X (192 Go, 750 W), Supermicro AS-8125GS-TNMR2, NPS1 (1 NUMA par socket), 1,5 Tio (24 DIMM, 4 800 mts mémoire, 64 Gio/DIMM), 4 x 3,49 To de stockage Micron 7450, version du BIOS : 1.8, ROCm 6.0.0-00, vLLM 0.3.3, PyTorch 2.1.1, Ubuntu 22.04 LTS avec Linux kernel 5.15.0-119-generic.
Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de facteurs, y compris, mais sans s'y limiter : les différentes versions de configurations, vLLM et les pilotes.
CLAUSE DE NON-RESPONSABILITÉ : Les informations contenues dans le présent document ne sont fournies qu'à titre indicatif et peuvent être modifiées sans préavis. Bien que toutes les précautions aient été prises dans la préparation du présent document, il pourrait cependant contenir des inexactitudes techniques, des omissions et des erreurs typographiques. AMD n'a aucune obligation de mettre à jour ou de corriger ces informations. Advanced Micro Devices, Inc. n'émet aucune déclaration ni garantie concernant l'exactitude ou le caractère complet du contenu du présent document, et n'assume aucune responsabilité que ce soit, notamment de garantie implicite de non-violation, de qualité marchande ou d'adaptation à des usages particuliers lors de l'utilisation ou du fonctionnement de composants matériels, logiciels ou d'autres produits AMD présentés ici. Aucune licence, notamment implicite ou découlant d'une question déjà tranchée, n'est accordée par le présent document pour quelque droit de propriété intellectuelle que ce soit. Les conditions et limitations applicables à l'achat ou à l'utilisation de produits AMD sont définies dans un accord signé entre les parties, ou dans les conditions générales de vente d'AMD. GD-18u.
© 2024 Advanced Micro Devices, Inc. Tous droits réservés. AMD, le logo AMD avec la flèche, EPYC, Instinct, ROCm et leurs combinaisons sont des marques commerciales d'Advanced Micro Devices, Inc. Les autres noms de produits apparaissant dans cette publication sont donnés à titre indicatif uniquement et peuvent être des marques déposées de leurs sociétés respectives. Certaines technologies AMD peuvent nécessiter des activations tierces. Les fonctionnalités prises en charge peuvent varier selon le système d'exploitation. Veuillez consulter le fabricant du système pour connaître les caractéristiques spécifiques. Aucune technologie ni aucun produit ne peut être totalement sûr.