
Qu'est-ce qui se cache sous le capot ?
Les accélérateurs AMD Instinct sont basés sur l'architecture AMD CDNA™, qui offre les technologies Matrix Core et la compatibilité avec une large gamme de capacités de précision, des INT8 et FP8 hautement efficaces aux FP64 les plus exigeantes pour les HPC.

Accélérateurs AMD Instinct MI250X
Les accélérateurs AMD Instinct MI250X propulsent certains des meilleurs supercalculateurs au monde.
220 unités de calcul
220 unités de calcul GPU
128 Go
128 Go de mémoire HBM2e
3,2 To/s
Bande passante mémoire de crête de 3,2 To/s
400 Go/s
Bande passante totale de crête Infinity Fabric de 400 Go/s
Comparaisons de spécifications
Performances maximales de 383 TFLOPS en crête en demi-précision théorique (FP16) avec une capacité de mémoire et une bande passante jusqu'à 1,6 fois supérieure aux GPU concurrents pour les charges de travail d'IA les plus exigeantes2,3,4
MI250X
A100
Offre jusqu'à 4 fois plus d'avantages que les GPU concurrents, avec des performances théoriques en crête maximales allant jusqu'à 47,9 TFLOPS en FP64 et 95,7 TFLOPS en matrice FP642.
MI250X
A100
* Le format de données TF32 n'est pas conforme à la norme IEEE et n'est pas inclus dans cette comparaison.

Accélérateurs AMD Instinct MI250
Les accélérateurs AMD Instinct MI250 offrent des performances d'IA et de HPC exceptionnelles pour les cas d'utilisation impliquant des entreprises, des chercheurs et des universitaires.
208 unités de calcul
208 unités de calcul GPU
128 Go
128 Go de mémoire HBM2e
3,2 To/s
Bande passante mémoire de crête de 3,2 To/s
100 Go/s
Bande passante de crête d'Infinity Fabric™ Link de 100 Go/s
Benchmarks de performances
HPCG 3.0 : le benchmark HPCG (High Performance Conjugate Gradients) est un indicateur de classement des systèmes HPC. Le HPCG est destiné à compléter le benchmark HPL (High Performance LINPACK) actuellement utilisé pour le classement TOP500 des systèmes informatiques5.
Mesure |
1xMI250 |
2xMI250 |
4xMI250 |
GFLOPS |
488,8 |
972,6 |
1927,7 |
HPL : Le HPL est une implémentation du benchmark High-Performance Linpack. Le code résout un système aléatoire d'équations linéaires et rapporte le temps et le taux d'exécution en virgule flottante à l'aide d'une formule standard pour le nombre d'opérations6.
Mesure |
1xMI250 |
2xMI250 |
4xMI250 |
TFLOPS |
40,45 |
80,666 |
161,97 |
Le HPL-AI (High Performance LINPACK for Accelerator Introspection) est un benchmark qui met en évidence la convergence des charges de travail d'IA et de HPC en résolvant un système d'équations linéaires à l'aide de nouveaux algorithmes de précision mixte7.
Mesure |
Module de test |
4xMI250 |
TFLOPS |
Mixte FP16/32/64 |
930,44 |
PyFR est une structure Python open source qui permet de résoudre les problèmes de type advection-diffusion sur les architectures de streaming à l'aide de l'approche de reconstruction de flux de Huynh. La structure est conçue pour résoudre divers systèmes de gouvernance sur des grilles mixtes non structurées contenant différents types d'éléments8.
Mesure |
Module de test |
1xMI250 |
Simulations/jour |
TGV |
41,73 |
OpenFOAM (Open-source Field Operation And Manipulation) est une boîte à outils C++ conçue pour le développement de solveurs numériques personnalisés et d'utilitaires de pré-/post-traitement pour la résolution des problèmes de mécanique des milieux continus, notamment la dynamique des fluides numérique (CFD)9.
Mesure |
Module de test |
1xMI250 |
2xMI250 |
4xMI250 |
Durée (s) |
HPC Motorbike (les valeurs les plus élevées ne sont pas les meilleures) |
662,3 |
364,26 |
209,84 |
Amber est une suite de programmes de simulation biomoléculaire. Son nom, Amber, désigne deux éléments distincts : un ensemble de champs de force mécaniques moléculaires pour la simulation de biomolécules d'une part et, d'autre part, un ensemble de programmes de simulation moléculaire qui inclut un code source et des démonstrations10.
Application |
Mesure |
Module de test |
Les valeurs les plus élevées sont les meilleures |
1xMI250 |
AMBER |
ns/jour |
Cellulose Production NPT 4fs |
Oui |
227,2 |
AMBER |
ns/jour |
Cellulose Production NVE 4fs |
Oui |
242,4 |
AMBER |
ns/jour |
FactorIX Production NPT 4fs |
Oui |
803,1 |
AMBER |
ns/jour |
FactorIX Production NVE 4fs |
Oui |
855,2 |
AMBER |
ns/jour |
JAC Production NPT 4fs |
Oui |
1794 |
AMBER |
ns/jour |
JAC Production NVE 4fs |
Oui |
1871 |
AMBER |
ns/jour |
STMV Production NPT 4fs |
Oui |
80,65 |
AMBER |
ns/jour |
STMV Production NVE 4fs |
Oui |
86,7 |
GROMACS est un package de dynamique moléculaire principalement conçu pour les simulations de protéines, de lipides et d'acides nucléiques. Il a été créé par le département de chimie biophysique de l'Université de Groningue et est désormais géré par des contributeurs issus d'universités et de centres de recherche du monde entier11.
Application |
Mesure |
Module de test |
Les valeurs les plus élevées sont les meilleures |
1xMI250 |
2xMI250 |
4xMI250 |
GROMACS |
ns/jour |
STMV |
Oui |
34,2 |
61,812 |
89,26 |
LAMMPS est un code de dynamique moléculaire classique axé sur la modélisation des matériaux. Il s'agit de l'acronyme de « Large-scale Atomic/Molecular Massively Parallel Simulator » (Simulateur atomique/moléculaire massivement parallèle à grande échelle). Le LAMMPS est particulièrement intéressant pour les matériaux solides (métaux, semi-conducteurs) et les matières molles (biomolécules, polymères), ainsi que les systèmes à gros grain ou mésoscopiques12.
Application |
Mesure |
Module de test |
Les valeurs les plus élevées sont les meilleures |
1xMI250 |
2xMI250 |
4xMI250 |
LAMMPS |
Atome-Temps pas/s |
LJ |
Oui |
6E+08 |
1E+09 |
2E+09 |
LAMMPS |
Atome-Temps pas/s |
ReaxFF |
Oui |
7E+06 |
1E+07 |
3E+07 |
LAMMPS |
Atome-Temps pas/s |
Tersoff |
Oui |
5E+08 |
1E+09 |
2E+09 |
NAMD est un package de dynamique moléculaire conçu pour simuler le mouvement des biomolécules au fil du temps. Il est adapté aux systèmes biomoléculaires de grande taille et a été utilisé pour simuler des systèmes avec plus de 1 milliard d'atomes, offrant une évolutivité exceptionnelle sur des milliers de cœurs de CPU et de GPU13.
Application |
Mesure |
Module de test |
Les valeurs les plus élevées sont les meilleures |
1xMI250 |
2xMI250 |
4xMI250 |
NAMD 3.0 |
ns/jour |
APOA1_NVE |
Oui |
221,4 |
443,61 |
879,43 |
NAMD 3.0 |
ns/jour |
STMV_NVE |
Oui |
19,87 |
39,545 |
77,132 |

Accélérateurs AMD Instinct MI210
Les accélérateurs AMD Instinct MI210 propulsent les charges de travail HPC et d'IA des entreprises, des chercheurs et des universitaires pour les solutions monoserveur et bien plus encore.
104 unités de calcul
104 unités de calcul GPU
64 Go
64 Go de mémoire HBM2e
1,6 To/s
Bande passante mémoire de crête de 1,6 To/s
100 Go/s
Bande passante de crête d'Infinity Fabric™ Link de 100 Go/s
Benchmarks de performances
HPL : Le HPL est une implémentation du benchmark High-Performance Linpack. Le code résout un système aléatoire d'équations linéaires et rapporte le temps et le taux d'exécution en virgule flottante à l'aide d'une formule standard pour le nombre d'opérations14.
Mesure |
Les valeurs les plus élevées sont les meilleures |
1xMI210 |
2xMI210 |
4xMI210 | 8xMI210 |
TFLOPS |
Oui |
21,07 |
40,878 |
81,097 | 159,73 |
HPL-AI : Le HPL-AI (High Performance LINPACK for Accelerator Introspection) est un benchmark qui met en évidence la convergence des charges de travail d'IA et de HPC en résolvant un système d'équations linéaires à l'aide de nouveaux algorithmes de précision mixte15.
Mesure |
Module de test |
Les valeurs les plus élevées sont les meilleures |
4xMI210 |
8xMI210 |
TFLOPS |
Mixte FP16/32/64 |
Oui |
444,77 |
976,18 |
LAMMPS : LAMMPS est un code de dynamique moléculaire classique axé sur la modélisation des matériaux. Il s'agit de l'acronyme de « Large-scale Atomic/Molecular Massively Parallel Simulator » (Simulateur atomique/moléculaire massivement parallèle à grande échelle). Le LAMMPS est particulièrement intéressant pour les matériaux solides (métaux, semi-conducteurs) et les matières molles (biomolécules, polymères), ainsi que les systèmes à gros grain ou mésoscopiques16.
Mesure |
Module de test |
Les valeurs les plus élevées sont les meilleures |
4xMI210 | 8xMI210 |
Atome-Temps pas/s |
ReaxFF |
Oui |
1E+07 | 3E+07 |

Tenez-vous au courant
Abonnez-vous pour recevoir les actualités et contenus les plus récents sur les centres de données et les serveurs.
Notes de bas de page
- Liste Top 500, juin 2023
- Le GPU pour centre de données le plus rapide au monde est l'AMD Instinct™ MI250X. Les calculs effectués par AMD Performance Labs le 15 septembre 2021 pour l'accélérateur AMD Instinct™ MI250X (module OAM HBM2e de 128 Go) à une fréquence du processeur boostée de 1 700 MHz en crête ont donné des performances de calcul en virgule flottante de 95,7 TFLOPS en crête en double précision théorique (matrice FP64), de 47,9 TFLOPS en crête en double précision théorique (FP64), de 95,7 TFLOPS en crête en matrice simple précision théorique (matrice FP32), de 47,9 TFLOPS en crête en simple précision théorique (FP32), de 383,0 TFLOPS en crête en demi-précision théorique (FP16) et de 383,0 TFLOPS en crête en précision de format Bfloat16 théorique (BF16). Les calculs effectués par AMD Performance Labs le 18 septembre 2020 pour l'accélérateur AMD Instinct™ MI100 (carte PCIe® HBM2 de 32 Go) à une fréquence du processeur boostée de 1 502 MHz en crête ont donné des performances de calcul en virgule flottante de 11,54 TFLOPS en crête en double précision théorique (FP64), de 46,1 TFLOPS en crête en matrice simple précision théorique (FP32), de 23,1 TFLOPS en crête en simple précision théorique (FP32) et de 184,6 TFLOPS en crête en demi-précision théorique (FP16). Les résultats publiés sur l'accélérateur de GPU NVidia Ampere A100 (80 Go) à une fréquence du processeur boostée de 1 410 MHz ont donné 19,5 TFLOPS en crête de cœurs Tensor en double précision (cœur Tensor FP64) et 9,7 TFLOPS en crête en double précision (FP64). Performances de calcul en virgule flottante théorique de 19,5 TFLOPS en crête en simple précision (FP32), de 78 TFLOPS en crête en demi-précision (FP16), de 312 TFLOPS en crête en demi-précision (flux Tensor FP16), de 39 TFLOPS en crête en précision de format Bfloat 16 (BF16) et de 312 TFLOPS en crête en précision de format Bfloat16 (flux Tensor BF16). Le format de données TF32 n'est pas conforme à la norme IEEE et n'est pas inclus dans cette comparaison. https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/nvidia-ampere-architecture-whitepaper.pdf, page 15, Tableau 1. MI200-01
- Les calculs effectués par AMD Performance Labs au 21 septembre 2021 pour les accélérateurs OAM AMD Instinct™ MI250X et MI250 (HBM2e de 128 Go) conçus avec la technologie de processus AMD CDNA™ 2 FinFET 6 nm à une fréquence mémoire de crête de 1 600 MHz ont indiqué des performances de bande passante mémoire de crête théorique de 3,2768 TFLOPS. L'interface du bus mémoire MI250/MI250X est de 4 096 bits multiplié par 2 circuits imprimés et le débit de données de la mémoire est de 3,2 Gbit/s pour une bande passante mémoire totale de 3,2768 To/s ((3,2 Gbit/s*(4 096 bits*2))/8). Les résultats les plus élevés publiés sur l'accélérateur de GPU Nvidia Ampere A100 (80 Go) SXM ont indiqué des performances de bande passante mémoire du GPU de 2,039 To/s. https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/a100/pdf/nvidia-a100-datasheet-us-nvidia-1758950-r4-web.pdf MI200-07
- Les calculs effectués par AMD Performance Labs au 21 septembre 2021 pour les accélérateurs AMD Instinct™ MI250X et MI250 (OAM) conçus avec la technologie de processus AMD CDNA™ 2 FinFET 6 nm à une fréquence mémoire de crête de 1 600 MHz ont indiqué une capacité de mémoire HBMe de 128 Go. Les spécifications publiées sur les accélérateurs Nvidia Ampere A100 (80 Go) SXM et A100 (PCIe®) ont indiqué une capacité de mémoire de 80 Go. Résultats trouvés sur : https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/a100/pdf/nvidia-a100-datasheet-us-nvidia-1758950-r4-web.pdf MI200-18
- Tests effectués par AMD Performance Labs le 2 novembre 2022 en utilisant HPCG 3.0 pour comparer deux systèmes : un serveur propulsé par EPYC™ 7763 2P, SMT désactivé, avec 1, 2 et 4 GPU AMD Instinct™ MI250 (HBM2e de 128 Go) 560 W, SBIOS M12, Ubuntu 20.04.4, hôte ROCm 5.2.0, par rapport à un serveur AMD EPYC™ 7742 2P avec 1, 2 et 4 GPU Nvidia Ampere A100 SXM de 80 Go et 400 W, SBIOS 0.34, Ubuntu 20.04.4, CUDA 11.6. Conteneur HPCG 3.0 : nvcr.io/nvidia/hpc-benchmarks:21.4-hpcg disponible sur https://catalog.ngc.nvidia.com/orgs/nvidia/containers/hpc-benchmarks. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-70A.
- Tests effectués par AMD Performance Labs le 14 novembre 2022 en utilisant HPL pour comparer deux systèmes : un serveur propulsé par EPYC™ 7763 2P, SMT désactivé, avec 1, 2 et 4 GPU AMD Instinct™ MI250 (HBM2e de 128 Go) de 560 W, hôte ROCm 5.2.0 rocHPL6.0.0. dont le conteneur AMD HPL n'est pas encore disponible sur Infinity Hub, par rapport à un serveur propulsé par AMD EPYC™ 7742 2P, SMT activé, avec 1, 2 et 4 GPU Nvidia Ampere A100 SXM de 80 Go (400 W), CUDA 11.6 et version du pilote 510.47.03. Conteneur HPL (nvcr.io/nvidia/hpc-benchmarks:21.4-hpl) disponible sur https://catalog.ngc.nvidia.com/orgs/nvidia/containers/hpc-benchmarks. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-69A.
- Comparaison HPL-AI basée sur des tests internes effectués par AMD au 2 novembre 2022 pour mesurer les performances du benchmark HPL-AI (TFLOPS) à l'aide d'un serveur propulsé par 2 EPYC 7763 avec 4 MI250 dotés d'une HBM2e de 128 Mo exécutant l'hôte ROCm 5.2.0, HPL-AI-AMD v1.0.0, par rapport à un serveur propulsé par 2 EPYC 7742 avec 4 A100 SXM dotés d'une HBM2e de 80 Go exécutant CUDA 11.6, HPL-AI-NVIDIA v2.0.0, conteneur nvcr.io/nvidia/hpc-benchmarks:21.4-hpl. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-81.
- tests effectués par AMD Performance Labs le 25 novembre 2022 en utilisant PyFR TGV et NACA 0021 pour comparer deux systèmes : un serveur propulsé par EPYC™ 7763 2P, SMT désactivé, avec 1 GPU AMD Instinct™ MI250 (HBM2e de 128 Go) 560 W, SBIOS M12, Ubuntu 20.04.4, hôte ROCm 5.2.0, par rapport à un serveur AMD EPYC™ 7742 2P, SMT activé, avec 1 GPU Nvidia Ampere A100 SXM de 80 Go et 400 W, SBIOS 0.34, Ubuntu 20.04.4, CUDA 11.6. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-82.
- Tests effectués par AMD Performance Labs le 14 avril 2023 avec OpenFOAM v2206 sur un serveur de production équipé d'un CPU EPYC 7763 2P avec 1, 2 et 4 GPU AMD Instinct™ MI250 (128 Go, 560 W) avec la technologie AMD Infinity Fabric™ activée, ROCm™ 5.3.3, Ubuntu® 20.04.4, par rapport à un serveur de production équipé d'un CPU EPYC 7742 2P avec 1, 2 et 4 GPU Nvidia A100 SXM 80 Go (400 W) avec la technologie NVLink activée, CUDA® 11.8, Ubuntu 20.04.4. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations.
- tests effectués par AMD Performance Labs le 26 août 2022 en utilisant AMBER : Cellulose_production_NPT_4fs, Cellulose_production_NVE_4fs, FactorIX_production_NPT_4fs, FactorIX_production_NVE_4fs, STMV_production_NPT_4fs, STMV_production_NVE_4fs, JAC_production_NPT_4fs et JAC production_NVE_4fs. Comparaison de deux systèmes : un serveur propulsé par EPYC™ 7763 2P avec 1 GPU AMD Instinct™ MI250 (HBM2e de 128 Go) 560 W, ROCm 5.2.0, conteneur Amber 22.amd_100, par rapport à un serveur propulsé par EPYC™ 7742 2P avec 1 GPU Nvidia A100 SXM (HBM2e de 80 Go) 400 W, MPS activé (2 instances), CUDA 11.6. MI200-73.
- Tests effectués par AMD Performance Labs le 18 octobre 2022 en utilisant Gromacs STMV pour comparer deux systèmes : un serveur propulsé par EPYC™ 7763 2P avec 4 GPU AMD Instinct™ MI250 (HBM2e de 128 Go) 560 W dotés de la technologie Infinity Fabric™, ROCm™ 5.2.0, conteneur Gromacs 2022.3.amd1_174, par rapport aux affirmations publiques de Nvidia https://developer.nvidia.com/hpc-application-performance. (Gromacs 2022.2). EPYC 7742 double avec 4 GPU Nvidia Ampere A100 SXM 80 Go. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction facteurs tels que l'utilisation de pilotes plus récents et des optimisations. MI200-74.
- Tests effectués par AMD Performance Labs le 3 octobre 2022 en utilisant LAMMPS : EAM, LJ, ReaxFF et Tersoff pour comparer deux systèmes : un serveur propulsé par EPYC™ 7763 2P avec 4 GPU AMD Instinct™ MI250 (HBM2e de 128 Go) 560 W, ROCm 5.2.0, conteneur LAMMPS 2021.5.14_121amdih/lammps:2022.5.04_130, par rapport aux affirmations publiques de Nvidia http://web.archive.org/web/20220718053400/https://developer.nvidia.com/hpc-application-performance. (Stable, 23 juin 2022, mise à jour 1). Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-77.
- tests effectués par AMD Performance Labs le 13 septembre 2022 en utilisant NAMD : STMV_NVE, APOA1_NVE pour comparer deux systèmes : un serveur propulsé par EPYC™ 7763 2P, avec 1, 2 et 4 GPU AMD Instinct™ MI250 (HBM2e de 128 Go) de 560 W doté de la technologie Infinity Fabric™, ROCm 5.2.0, conteneur NAMD namd3:3.0a9 par rapport aux affirmations publiques de performances de Nvidia relatives au serveur EPYC 7742 2P avec 1, 2 et 4 GPU Nvidia Ampere A100 SXM de 80 Go https://developer.nvidia.com/hpc-application-performance. (v2.15a AVX-512). Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-76.
- Tests effectués par AMD Performance Labs le 14 novembre 2022 sur un Supermicro 4124 propulsé par un CPU AMD EPYC™ 7763 à socket 2P avec 8 GPU AMD Instinct™ MI210 (PCIe® de 64 Go à 300 W) avec la technologie AMD Infinity Fabric™ activée. Ubuntu 18.04.6 LTS, hôte ROCm 5.2.0, rocHPL 6.0.0. Résultats calculés à partir des valeurs médianes de cinq exécutions, par rapport aux tests effectués par AMD Performance sur un Supermicro 4124 propulsé par un CPU AMD EPYC™ 7763 à socket 2P avec 8 GPU Nvidia A100 (PCIe® de 80 Go à 300 W), Ubuntu 18.04.6 LTS, CUDA 11.6, avec l'image de conteneur HPL Nvidia 21.4-HPL. Tous les résultats ont été mesurés sur des systèmes configurés avec 8 GPU ; 2 paires de 4 GPU MI210 connectés par un pont de liaison Infinity Fabric™ à 4 voies ; 4 paires de 2 GPU A100 PCIe 80 Go connectés par des ponts NVLink à 2 voies. Informations sur HPL : https://www.netlib.org/benchmark/hpl/. Détails du conteneur AMD HPL : le conteneur HPL n'est pas disponible sur Infinity Hub pour le moment. Détails du conteneur Nvidia HPL : https://ngc.nvidia.com/catalog/containers/nvidia:hpc-benchmarks. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-49A.
- Comparaison HPL-AI basée sur des tests internes effectués par AMD au 2 novembre 2022 pour mesurer les performances du benchmark HPL-AI (TFLOPS) à l'aide d'un serveur propulsé par 2 EPYC™ 7763 avec 8 MI210 (HBM2e de 64 Mo) doté de la technologie Infinity Fabric exécutant l'hôte ROCm 5.2.0, HPL-AI-AMD v1.0.0, dont le conteneur AMD HPL-AI n'est pas encore disponible sur Infinity Hub, par rapport à un serveur propulsé par 2 EPYC 7763 avec 8 A100 PCIe (HBM2e de 80 Go) exécutant CUDA 11.6, HPL-AI-NVIDIA v2.0.0, conteneur nvcr.io/nvidia/hpc-benchmarks:21.4-hpl. Les fabricants de serveurs peuvent faire évoluer les configurations, ce qui aboutirait à des résultats différents. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-83.
- tests effectués par AMD Performance Labs le 3 octobre 2022 sur un Supermicro 4124 propulsé par CPU AMD EPYC™ 7763 à socket 2P avec 4 et 8 GPU AMD Instinct™ MI210 (PCIe® de 64 Go à 300 W), doté de la technologie AMD Infinity Fabric™. SBIOS2,2, Ubuntu® 18.04.6 LTS, hôte ROCm™ 5.2.0. Conteneur LAMMPS amdih-2022.5.04_130 (ROCm 5.1), par rapport aux affirmations publiques de Nvidia concernant les 4 et 8 GPU A100 PCIe de 80 Go http://web.archive.org/web/20220718053400/https://developer.nvidia.com/hpc-application-performance. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-47A.
- Liste Top 500, juin 2023
- Le GPU pour centre de données le plus rapide au monde est l'AMD Instinct™ MI250X. Les calculs effectués par AMD Performance Labs le 15 septembre 2021 pour l'accélérateur AMD Instinct™ MI250X (module OAM HBM2e de 128 Go) à une fréquence du processeur boostée de 1 700 MHz en crête ont donné des performances de calcul en virgule flottante de 95,7 TFLOPS en crête en double précision théorique (matrice FP64), de 47,9 TFLOPS en crête en double précision théorique (FP64), de 95,7 TFLOPS en crête en matrice simple précision théorique (matrice FP32), de 47,9 TFLOPS en crête en simple précision théorique (FP32), de 383,0 TFLOPS en crête en demi-précision théorique (FP16) et de 383,0 TFLOPS en crête en précision de format Bfloat16 théorique (BF16). Les calculs effectués par AMD Performance Labs le 18 septembre 2020 pour l'accélérateur AMD Instinct™ MI100 (carte PCIe® HBM2 de 32 Go) à une fréquence du processeur boostée de 1 502 MHz en crête ont donné des performances de calcul en virgule flottante de 11,54 TFLOPS en crête en double précision théorique (FP64), de 46,1 TFLOPS en crête en matrice simple précision théorique (FP32), de 23,1 TFLOPS en crête en simple précision théorique (FP32) et de 184,6 TFLOPS en crête en demi-précision théorique (FP16). Les résultats publiés sur l'accélérateur de GPU NVidia Ampere A100 (80 Go) à une fréquence du processeur boostée de 1 410 MHz ont donné 19,5 TFLOPS en crête de cœurs Tensor en double précision (cœur Tensor FP64) et 9,7 TFLOPS en crête en double précision (FP64). Performances de calcul en virgule flottante théorique de 19,5 TFLOPS en crête en simple précision (FP32), de 78 TFLOPS en crête en demi-précision (FP16), de 312 TFLOPS en crête en demi-précision (flux Tensor FP16), de 39 TFLOPS en crête en précision de format Bfloat 16 (BF16) et de 312 TFLOPS en crête en précision de format Bfloat16 (flux Tensor BF16). Le format de données TF32 n'est pas conforme à la norme IEEE et n'est pas inclus dans cette comparaison. https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/nvidia-ampere-architecture-whitepaper.pdf, page 15, Tableau 1. MI200-01
- Les calculs effectués par AMD Performance Labs au 21 septembre 2021 pour les accélérateurs OAM AMD Instinct™ MI250X et MI250 (HBM2e de 128 Go) conçus avec la technologie de processus AMD CDNA™ 2 FinFET 6 nm à une fréquence mémoire de crête de 1 600 MHz ont indiqué des performances de bande passante mémoire de crête théorique de 3,2768 TFLOPS. L'interface du bus mémoire MI250/MI250X est de 4 096 bits multiplié par 2 circuits imprimés et le débit de données de la mémoire est de 3,2 Gbit/s pour une bande passante mémoire totale de 3,2768 To/s ((3,2 Gbit/s*(4 096 bits*2))/8). Les résultats les plus élevés publiés sur l'accélérateur de GPU Nvidia Ampere A100 (80 Go) SXM ont indiqué des performances de bande passante mémoire du GPU de 2,039 To/s. https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/a100/pdf/nvidia-a100-datasheet-us-nvidia-1758950-r4-web.pdf MI200-07
- Les calculs effectués par AMD Performance Labs au 21 septembre 2021 pour les accélérateurs AMD Instinct™ MI250X et MI250 (OAM) conçus avec la technologie de processus AMD CDNA™ 2 FinFET 6 nm à une fréquence mémoire de crête de 1 600 MHz ont indiqué une capacité de mémoire HBMe de 128 Go. Les spécifications publiées sur les accélérateurs Nvidia Ampere A100 (80 Go) SXM et A100 (PCIe®) ont indiqué une capacité de mémoire de 80 Go. Résultats trouvés sur : https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/a100/pdf/nvidia-a100-datasheet-us-nvidia-1758950-r4-web.pdf MI200-18
- Tests effectués par AMD Performance Labs le 2 novembre 2022 en utilisant HPCG 3.0 pour comparer deux systèmes : un serveur propulsé par EPYC™ 7763 2P, SMT désactivé, avec 1, 2 et 4 GPU AMD Instinct™ MI250 (HBM2e de 128 Go) 560 W, SBIOS M12, Ubuntu 20.04.4, hôte ROCm 5.2.0, par rapport à un serveur AMD EPYC™ 7742 2P avec 1, 2 et 4 GPU Nvidia Ampere A100 SXM de 80 Go et 400 W, SBIOS 0.34, Ubuntu 20.04.4, CUDA 11.6. Conteneur HPCG 3.0 : nvcr.io/nvidia/hpc-benchmarks:21.4-hpcg disponible sur https://catalog.ngc.nvidia.com/orgs/nvidia/containers/hpc-benchmarks. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-70A.
- Tests effectués par AMD Performance Labs le 14 novembre 2022 en utilisant HPL pour comparer deux systèmes : un serveur propulsé par EPYC™ 7763 2P, SMT désactivé, avec 1, 2 et 4 GPU AMD Instinct™ MI250 (HBM2e de 128 Go) de 560 W, hôte ROCm 5.2.0 rocHPL6.0.0. dont le conteneur AMD HPL n'est pas encore disponible sur Infinity Hub, par rapport à un serveur propulsé par AMD EPYC™ 7742 2P, SMT activé, avec 1, 2 et 4 GPU Nvidia Ampere A100 SXM de 80 Go (400 W), CUDA 11.6 et version du pilote 510.47.03. Conteneur HPL (nvcr.io/nvidia/hpc-benchmarks:21.4-hpl) disponible sur https://catalog.ngc.nvidia.com/orgs/nvidia/containers/hpc-benchmarks. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-69A.
- Comparaison HPL-AI basée sur des tests internes effectués par AMD au 2 novembre 2022 pour mesurer les performances du benchmark HPL-AI (TFLOPS) à l'aide d'un serveur propulsé par 2 EPYC 7763 avec 4 MI250 dotés d'une HBM2e de 128 Mo exécutant l'hôte ROCm 5.2.0, HPL-AI-AMD v1.0.0, par rapport à un serveur propulsé par 2 EPYC 7742 avec 4 A100 SXM dotés d'une HBM2e de 80 Go exécutant CUDA 11.6, HPL-AI-NVIDIA v2.0.0, conteneur nvcr.io/nvidia/hpc-benchmarks:21.4-hpl. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-81.
- tests effectués par AMD Performance Labs le 25 novembre 2022 en utilisant PyFR TGV et NACA 0021 pour comparer deux systèmes : un serveur propulsé par EPYC™ 7763 2P, SMT désactivé, avec 1 GPU AMD Instinct™ MI250 (HBM2e de 128 Go) 560 W, SBIOS M12, Ubuntu 20.04.4, hôte ROCm 5.2.0, par rapport à un serveur AMD EPYC™ 7742 2P, SMT activé, avec 1 GPU Nvidia Ampere A100 SXM de 80 Go et 400 W, SBIOS 0.34, Ubuntu 20.04.4, CUDA 11.6. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-82.
- Tests effectués par AMD Performance Labs le 14 avril 2023 avec OpenFOAM v2206 sur un serveur de production équipé d'un CPU EPYC 7763 2P avec 1, 2 et 4 GPU AMD Instinct™ MI250 (128 Go, 560 W) avec la technologie AMD Infinity Fabric™ activée, ROCm™ 5.3.3, Ubuntu® 20.04.4, par rapport à un serveur de production équipé d'un CPU EPYC 7742 2P avec 1, 2 et 4 GPU Nvidia A100 SXM 80 Go (400 W) avec la technologie NVLink activée, CUDA® 11.8, Ubuntu 20.04.4. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations.
- tests effectués par AMD Performance Labs le 26 août 2022 en utilisant AMBER : Cellulose_production_NPT_4fs, Cellulose_production_NVE_4fs, FactorIX_production_NPT_4fs, FactorIX_production_NVE_4fs, STMV_production_NPT_4fs, STMV_production_NVE_4fs, JAC_production_NPT_4fs et JAC production_NVE_4fs. Comparaison de deux systèmes : un serveur propulsé par EPYC™ 7763 2P avec 1 GPU AMD Instinct™ MI250 (HBM2e de 128 Go) 560 W, ROCm 5.2.0, conteneur Amber 22.amd_100, par rapport à un serveur propulsé par EPYC™ 7742 2P avec 1 GPU Nvidia A100 SXM (HBM2e de 80 Go) 400 W, MPS activé (2 instances), CUDA 11.6. MI200-73.
- Tests effectués par AMD Performance Labs le 18 octobre 2022 en utilisant Gromacs STMV pour comparer deux systèmes : un serveur propulsé par EPYC™ 7763 2P avec 4 GPU AMD Instinct™ MI250 (HBM2e de 128 Go) 560 W dotés de la technologie Infinity Fabric™, ROCm™ 5.2.0, conteneur Gromacs 2022.3.amd1_174, par rapport aux affirmations publiques de Nvidia https://developer.nvidia.com/hpc-application-performance. (Gromacs 2022.2). EPYC 7742 double avec 4 GPU Nvidia Ampere A100 SXM 80 Go. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction facteurs tels que l'utilisation de pilotes plus récents et des optimisations. MI200-74.
- Tests effectués par AMD Performance Labs le 3 octobre 2022 en utilisant LAMMPS : EAM, LJ, ReaxFF et Tersoff pour comparer deux systèmes : un serveur propulsé par EPYC™ 7763 2P avec 4 GPU AMD Instinct™ MI250 (HBM2e de 128 Go) 560 W, ROCm 5.2.0, conteneur LAMMPS 2021.5.14_121amdih/lammps:2022.5.04_130, par rapport aux affirmations publiques de Nvidia http://web.archive.org/web/20220718053400/https://developer.nvidia.com/hpc-application-performance. (Stable, 23 juin 2022, mise à jour 1). Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-77.
- tests effectués par AMD Performance Labs le 13 septembre 2022 en utilisant NAMD : STMV_NVE, APOA1_NVE pour comparer deux systèmes : un serveur propulsé par EPYC™ 7763 2P, avec 1, 2 et 4 GPU AMD Instinct™ MI250 (HBM2e de 128 Go) de 560 W doté de la technologie Infinity Fabric™, ROCm 5.2.0, conteneur NAMD namd3:3.0a9 par rapport aux affirmations publiques de performances de Nvidia relatives au serveur EPYC 7742 2P avec 1, 2 et 4 GPU Nvidia Ampere A100 SXM de 80 Go https://developer.nvidia.com/hpc-application-performance. (v2.15a AVX-512). Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-76.
- Tests effectués par AMD Performance Labs le 14 novembre 2022 sur un Supermicro 4124 propulsé par un CPU AMD EPYC™ 7763 à socket 2P avec 8 GPU AMD Instinct™ MI210 (PCIe® de 64 Go à 300 W) avec la technologie AMD Infinity Fabric™ activée. Ubuntu 18.04.6 LTS, hôte ROCm 5.2.0, rocHPL 6.0.0. Résultats calculés à partir des valeurs médianes de cinq exécutions, par rapport aux tests effectués par AMD Performance sur un Supermicro 4124 propulsé par un CPU AMD EPYC™ 7763 à socket 2P avec 8 GPU Nvidia A100 (PCIe® de 80 Go à 300 W), Ubuntu 18.04.6 LTS, CUDA 11.6, avec l'image de conteneur HPL Nvidia 21.4-HPL. Tous les résultats ont été mesurés sur des systèmes configurés avec 8 GPU ; 2 paires de 4 GPU MI210 connectés par un pont de liaison Infinity Fabric™ à 4 voies ; 4 paires de 2 GPU A100 PCIe 80 Go connectés par des ponts NVLink à 2 voies. Informations sur HPL : https://www.netlib.org/benchmark/hpl/. Détails du conteneur AMD HPL : le conteneur HPL n'est pas disponible sur Infinity Hub pour le moment. Détails du conteneur Nvidia HPL : https://ngc.nvidia.com/catalog/containers/nvidia:hpc-benchmarks. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-49A.
- Comparaison HPL-AI basée sur des tests internes effectués par AMD au 2 novembre 2022 pour mesurer les performances du benchmark HPL-AI (TFLOPS) à l'aide d'un serveur propulsé par 2 EPYC™ 7763 avec 8 MI210 (HBM2e de 64 Mo) doté de la technologie Infinity Fabric exécutant l'hôte ROCm 5.2.0, HPL-AI-AMD v1.0.0, dont le conteneur AMD HPL-AI n'est pas encore disponible sur Infinity Hub, par rapport à un serveur propulsé par 2 EPYC 7763 avec 8 A100 PCIe (HBM2e de 80 Go) exécutant CUDA 11.6, HPL-AI-NVIDIA v2.0.0, conteneur nvcr.io/nvidia/hpc-benchmarks:21.4-hpl. Les fabricants de serveurs peuvent faire évoluer les configurations, ce qui aboutirait à des résultats différents. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-83.
- tests effectués par AMD Performance Labs le 3 octobre 2022 sur un Supermicro 4124 propulsé par CPU AMD EPYC™ 7763 à socket 2P avec 4 et 8 GPU AMD Instinct™ MI210 (PCIe® de 64 Go à 300 W), doté de la technologie AMD Infinity Fabric™. SBIOS2,2, Ubuntu® 18.04.6 LTS, hôte ROCm™ 5.2.0. Conteneur LAMMPS amdih-2022.5.04_130 (ROCm 5.1), par rapport aux affirmations publiques de Nvidia concernant les 4 et 8 GPU A100 PCIe de 80 Go http://web.archive.org/web/20220718053400/https://developer.nvidia.com/hpc-application-performance. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-47A.