Apporter des performances d'IA et de HPC exceptionnelles

Les accélérateurs AMD Instinct™ série MI200 offrent des performances de pointe pour les centres de données, à n'importe quelle échelle, des solutions monoserveur aux plus grands supercalculateurs de classe exascale du monde1.

Qu'est-ce qui se cache sous le capot ?

Les accélérateurs AMD Instinct sont basés sur l'architecture AMD CDNA™, qui offre les technologies Matrix Core et la compatibilité avec une large gamme de capacités de précision, des INT8 et FP8 hautement efficaces aux FP64 les plus exigeantes pour les HPC.

Découvrez la série

Découvrez les accélérateurs AMD Instinct MI250X, MI250 et MI210.

Accélérateurs AMD Instinct MI250X 

Les accélérateurs AMD Instinct MI250X propulsent certains des meilleurs supercalculateurs au monde.

220 unités de calcul

220 unités de calcul GPU

128 Go

128 Go de mémoire HBM2e

3,2 To/s

Bande passante mémoire de crête de 3,2 To/s

400 Go/s

Bande passante totale de crête Infinity Fabric de 400 Go/s

Comparaisons de spécifications

Performances maximales de 383 TFLOPS en crête en demi-précision théorique (FP16) avec une capacité de mémoire et une bande passante jusqu'à 1,6 fois supérieure aux GPU concurrents pour les charges de travail d'IA les plus exigeantes2,3,4

MI250X

A100

FP32*
95
19
0
20
40
60
80
100
120
FP16
383
312
0
100
200
300
400
500

Offre jusqu'à 4 fois plus d'avantages que les GPU concurrents, avec des performances théoriques en crête maximales allant jusqu'à 47,9 TFLOPS en FP64 et 95,7 TFLOPS en matrice FP642.

MI250X

A100

Vecteur FP64
47
9
0
10
20
30
40
50
60
Tensor FP64 Matrice FP64
95
19
0
20
40
60
80
100
120
Vecteur FP32
47
19
0
10
20
30
40
50
60

* Le format de données TF32 n'est pas conforme à la norme IEEE et n'est pas inclus dans cette comparaison.

Accélérateurs AMD Instinct MI250

Les accélérateurs AMD Instinct MI250 offrent des performances d'IA et de HPC exceptionnelles pour les cas d'utilisation impliquant des entreprises, des chercheurs et des universitaires.

208 unités de calcul

208 unités de calcul GPU

128 Go

128 Go de mémoire HBM2e

3,2 To/s

Bande passante mémoire de crête de 3,2 To/s

100 Go/s

Bande passante de crête d'Infinity Fabric™ Link de 100 Go/s

Benchmarks de performances

HPCG 3.0 : le benchmark HPCG (High Performance Conjugate Gradients) est un indicateur de classement des systèmes HPC. Le HPCG est destiné à compléter le benchmark HPL (High Performance LINPACK) actuellement utilisé pour le classement TOP500 des systèmes informatiques5.

Mesure

1xMI250

2xMI250

4xMI250

GFLOPS

488,8

972,6

1927,7

 

HPL : Le HPL est une implémentation du benchmark High-Performance Linpack. Le code résout un système aléatoire d'équations linéaires et rapporte le temps et le taux d'exécution en virgule flottante à l'aide d'une formule standard pour le nombre d'opérations6.

Mesure

1xMI250

2xMI250

4xMI250

TFLOPS

40,45

80,666

161,97

 

Le HPL-AI (High Performance LINPACK for Accelerator Introspection) est un benchmark qui met en évidence la convergence des charges de travail d'IA et de HPC en résolvant un système d'équations linéaires à l'aide de nouveaux algorithmes de précision mixte7.

Mesure

Module de test

4xMI250

TFLOPS

Mixte FP16/32/64

930,44

 

PyFR est une structure Python open source qui permet de résoudre les problèmes de type advection-diffusion sur les architectures de streaming à l'aide de l'approche de reconstruction de flux de Huynh. La structure est conçue pour résoudre divers systèmes de gouvernance sur des grilles mixtes non structurées contenant différents types d'éléments8.

Mesure

Module de test

1xMI250

Simulations/jour

TGV

41,73

 

OpenFOAM (Open-source Field Operation And Manipulation) est une boîte à outils C++ conçue pour le développement de solveurs numériques personnalisés et d'utilitaires de pré-/post-traitement pour la résolution des problèmes de mécanique des milieux continus, notamment la dynamique des fluides numérique (CFD)9.

Mesure

Module de test

1xMI250

2xMI250

4xMI250

Durée (s)

HPC Motorbike (les valeurs les plus élevées ne sont pas les meilleures)

662,3

364,26

209,84

 

Amber est une suite de programmes de simulation biomoléculaire. Son nom, Amber, désigne deux éléments distincts : un ensemble de champs de force mécaniques moléculaires pour la simulation de biomolécules d'une part et, d'autre part, un ensemble de programmes de simulation moléculaire qui inclut un code source et des démonstrations10.

Application

Mesure

Module de test

Les valeurs les plus élevées sont les meilleures

1xMI250

AMBER

ns/jour

Cellulose Production NPT 4fs

Oui

227,2

AMBER

ns/jour

Cellulose Production NVE 4fs

Oui

242,4

AMBER

ns/jour

FactorIX Production NPT 4fs

Oui

803,1

AMBER

ns/jour

FactorIX Production NVE 4fs

Oui

855,2

AMBER

ns/jour

JAC Production NPT 4fs

Oui

1794

AMBER

ns/jour

JAC Production NVE 4fs

Oui

1871

AMBER

ns/jour

STMV Production NPT 4fs

Oui

80,65

AMBER

ns/jour

STMV Production NVE 4fs

Oui

86,7

 

GROMACS est un package de dynamique moléculaire principalement conçu pour les simulations de protéines, de lipides et d'acides nucléiques. Il a été créé par le département de chimie biophysique de l'Université de Groningue et est désormais géré par des contributeurs issus d'universités et de centres de recherche du monde entier11.

Application

Mesure

Module de test

Les valeurs les plus élevées sont les meilleures

1xMI250

2xMI250

4xMI250

GROMACS

ns/jour

STMV

Oui

34,2

61,812

89,26

 

LAMMPS est un code de dynamique moléculaire classique axé sur la modélisation des matériaux. Il s'agit de l'acronyme de « Large-scale Atomic/Molecular Massively Parallel Simulator » (Simulateur atomique/moléculaire massivement parallèle à grande échelle). Le LAMMPS est particulièrement intéressant pour les matériaux solides (métaux, semi-conducteurs) et les matières molles (biomolécules, polymères), ainsi que les systèmes à gros grain ou mésoscopiques12.

Application

Mesure

Module de test

Les valeurs les plus élevées sont les meilleures

1xMI250

2xMI250

4xMI250

LAMMPS

Atome-Temps pas/s

LJ

Oui

6E+08

1E+09

2E+09

LAMMPS

Atome-Temps pas/s

ReaxFF

Oui

7E+06

1E+07

3E+07

LAMMPS

Atome-Temps pas/s

Tersoff

Oui

5E+08

1E+09

2E+09

 

NAMD est un package de dynamique moléculaire conçu pour simuler le mouvement des biomolécules au fil du temps. Il est adapté aux systèmes biomoléculaires de grande taille et a été utilisé pour simuler des systèmes avec plus de 1 milliard d'atomes, offrant une évolutivité exceptionnelle sur des milliers de cœurs de CPU et de GPU13.

Application

Mesure

Module de test

Les valeurs les plus élevées sont les meilleures

1xMI250

2xMI250

4xMI250

NAMD 3.0

ns/jour

APOA1_NVE

Oui

221,4

443,61

879,43

NAMD 3.0

ns/jour

STMV_NVE

Oui

19,87

39,545

77,132

 

Accélérateurs AMD Instinct MI210 

Les accélérateurs AMD Instinct MI210 propulsent les charges de travail HPC et d'IA des entreprises, des chercheurs et des universitaires pour les solutions monoserveur et bien plus encore.

104 unités de calcul

104 unités de calcul GPU

64 Go

64 Go de mémoire HBM2e

1,6 To/s

Bande passante mémoire de crête de 1,6 To/s

100 Go/s

Bande passante de crête d'Infinity Fabric™ Link de 100 Go/s

Benchmarks de performances

HPL : Le HPL est une implémentation du benchmark High-Performance Linpack. Le code résout un système aléatoire d'équations linéaires et rapporte le temps et le taux d'exécution en virgule flottante à l'aide d'une formule standard pour le nombre d'opérations14.

Mesure

Les valeurs les plus élevées sont les meilleures

1xMI210

2xMI210

4xMI210 8xMI210

TFLOPS

Oui

21,07

40,878

81,097 159,73

 

HPL-AI : Le HPL-AI (High Performance LINPACK for Accelerator Introspection) est un benchmark qui met en évidence la convergence des charges de travail d'IA et de HPC en résolvant un système d'équations linéaires à l'aide de nouveaux algorithmes de précision mixte15.

Mesure

Module de test

Les valeurs les plus élevées sont les meilleures

4xMI210

8xMI210

TFLOPS

Mixte FP16/32/64

Oui

444,77

976,18

 

LAMMPS : LAMMPS est un code de dynamique moléculaire classique axé sur la modélisation des matériaux. Il s'agit de l'acronyme de « Large-scale Atomic/Molecular Massively Parallel Simulator » (Simulateur atomique/moléculaire massivement parallèle à grande échelle). Le LAMMPS est particulièrement intéressant pour les matériaux solides (métaux, semi-conducteurs) et les matières molles (biomolécules, polymères), ainsi que les systèmes à gros grain ou mésoscopiques16.

Mesure

Module de test

Les valeurs les plus élevées sont les meilleures

4xMI210 8xMI210

Atome-Temps pas/s

ReaxFF

Oui

1E+07 3E+07

Logiciel AMD ROCm™

Le logiciel AMD ROCm™ inclut un large éventail de modèles de programmation, d'outils, de compilateurs, de bibliothèques et d'exécutions pour optimiser les accélérateurs AMD Instinct dédiés aux charges de travail d'IA et de HPC.

Études de cas

Trouver des solutions

Trouvez un partenaire offrant des solutions basées sur les accélérateurs AMD Instinct.

Ressources

Documentation

Trouvez des présentations de solutions, des livres blancs, des références pour programmeurs et plus de documentation, relatifs aux accélérateurs AMD Instinct. 

Tenez-vous au courant

Abonnez-vous pour recevoir les actualités et contenus les plus récents sur les centres de données et les serveurs.

Notes de bas de page
  1. Liste Top 500, juin 2023
  2. Le GPU pour centre de données le plus rapide au monde est l'AMD Instinct™ MI250X. Les calculs effectués par AMD Performance Labs le 15 septembre 2021 pour l'accélérateur AMD Instinct™ MI250X (module OAM HBM2e de 128 Go) à une fréquence du processeur boostée de 1 700 MHz en crête ont donné des performances de calcul en virgule flottante de 95,7 TFLOPS en crête en double précision théorique (matrice FP64), de 47,9 TFLOPS en crête en double précision théorique (FP64), de 95,7 TFLOPS en crête en matrice simple précision théorique (matrice FP32), de 47,9 TFLOPS en crête en simple précision théorique (FP32), de 383,0 TFLOPS en crête en demi-précision théorique (FP16) et de 383,0 TFLOPS en crête en précision de format Bfloat16 théorique (BF16). Les calculs effectués par AMD Performance Labs le 18 septembre 2020 pour l'accélérateur AMD Instinct™ MI100 (carte PCIe® HBM2 de 32 Go) à une fréquence du processeur boostée de 1 502 MHz en crête ont donné des performances de calcul en virgule flottante de 11,54 TFLOPS en crête en double précision théorique (FP64), de 46,1 TFLOPS en crête en matrice simple précision théorique (FP32), de 23,1 TFLOPS en crête en simple précision théorique (FP32) et de 184,6 TFLOPS en crête en demi-précision théorique (FP16). Les résultats publiés sur l'accélérateur de GPU NVidia Ampere A100 (80 Go) à une fréquence du processeur boostée de 1 410 MHz ont donné 19,5 TFLOPS en crête de cœurs Tensor en double précision (cœur Tensor FP64) et 9,7 TFLOPS en crête en double précision (FP64). Performances de calcul en virgule flottante théorique de 19,5 TFLOPS en crête en simple précision (FP32), de 78 TFLOPS en crête en demi-précision (FP16), de 312 TFLOPS en crête en demi-précision (flux Tensor FP16), de 39 TFLOPS en crête en précision de format Bfloat 16 (BF16) et de 312 TFLOPS en crête en précision de format Bfloat16 (flux Tensor BF16). Le format de données TF32 n'est pas conforme à la norme IEEE et n'est pas inclus dans cette comparaison. https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/nvidia-ampere-architecture-whitepaper.pdf, page 15, Tableau 1. MI200-01
  3. Les calculs effectués par AMD Performance Labs au 21 septembre 2021 pour les accélérateurs OAM AMD Instinct™ MI250X et MI250 (HBM2e de 128 Go) conçus avec la technologie de processus AMD CDNA™ 2 FinFET 6 nm à une fréquence mémoire de crête de 1 600 MHz ont indiqué des performances de bande passante mémoire de crête théorique de 3,2768 TFLOPS. L'interface du bus mémoire MI250/MI250X est de 4 096 bits multiplié par 2 circuits imprimés et le débit de données de la mémoire est de 3,2 Gbit/s pour une bande passante mémoire totale de 3,2768 To/s ((3,2 Gbit/s*(4 096 bits*2))/8). Les résultats les plus élevés publiés sur l'accélérateur de GPU Nvidia Ampere A100 (80 Go) SXM ont indiqué des performances de bande passante mémoire du GPU de 2,039 To/s. https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/a100/pdf/nvidia-a100-datasheet-us-nvidia-1758950-r4-web.pdf MI200-07
  4. Les calculs effectués par AMD Performance Labs au 21 septembre 2021 pour les accélérateurs AMD Instinct™ MI250X et MI250 (OAM) conçus avec la technologie de processus AMD CDNA™ 2 FinFET 6 nm à une fréquence mémoire de crête de 1 600 MHz ont indiqué une capacité de mémoire HBMe de 128 Go. Les spécifications publiées sur les accélérateurs Nvidia Ampere A100 (80 Go) SXM et A100 (PCIe®) ont indiqué une capacité de mémoire de 80 Go. Résultats trouvés sur : https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/a100/pdf/nvidia-a100-datasheet-us-nvidia-1758950-r4-web.pdf MI200-18
  5. Tests effectués par AMD Performance Labs le 2 novembre 2022 en utilisant HPCG 3.0 pour comparer deux systèmes : un serveur propulsé par EPYC™ 7763 2P, SMT désactivé, avec 1, 2 et 4 GPU AMD Instinct™ MI250 (HBM2e de 128 Go) 560 W, SBIOS M12, Ubuntu 20.04.4, hôte ROCm 5.2.0, par rapport à un serveur AMD EPYC™ 7742 2P avec 1, 2 et 4 GPU Nvidia Ampere A100 SXM de 80 Go et 400 W, SBIOS 0.34, Ubuntu 20.04.4, CUDA 11.6. Conteneur HPCG 3.0 : nvcr.io/nvidia/hpc-benchmarks:21.4-hpcg disponible sur https://catalog.ngc.nvidia.com/orgs/nvidia/containers/hpc-benchmarks. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-70A.
  6. Tests effectués par AMD Performance Labs le 14 novembre 2022 en utilisant HPL pour comparer deux systèmes : un serveur propulsé par EPYC™ 7763 2P, SMT désactivé, avec 1, 2 et 4 GPU AMD Instinct™ MI250 (HBM2e de 128 Go) de 560 W, hôte ROCm 5.2.0 rocHPL6.0.0. dont le conteneur AMD HPL n'est pas encore disponible sur Infinity Hub, par rapport à un serveur propulsé par AMD EPYC™ 7742 2P, SMT activé, avec 1, 2 et 4 GPU Nvidia Ampere A100 SXM de 80 Go (400 W), CUDA 11.6 et version du pilote 510.47.03. Conteneur HPL (nvcr.io/nvidia/hpc-benchmarks:21.4-hpl) disponible sur https://catalog.ngc.nvidia.com/orgs/nvidia/containers/hpc-benchmarks. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-69A.
  7. Comparaison HPL-AI basée sur des tests internes effectués par AMD au 2 novembre 2022 pour mesurer les performances du benchmark HPL-AI (TFLOPS) à l'aide d'un serveur propulsé par 2 EPYC 7763 avec 4 MI250 dotés d'une HBM2e de 128 Mo exécutant l'hôte ROCm 5.2.0, HPL-AI-AMD v1.0.0, par rapport à un serveur propulsé par 2 EPYC 7742 avec 4 A100 SXM dotés d'une HBM2e de 80 Go exécutant CUDA 11.6, HPL-AI-NVIDIA v2.0.0, conteneur nvcr.io/nvidia/hpc-benchmarks:21.4-hpl. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-81.
  8. tests effectués par AMD Performance Labs le 25 novembre 2022 en utilisant PyFR TGV et NACA 0021 pour comparer deux systèmes : un serveur propulsé par EPYC™ 7763 2P, SMT désactivé, avec 1 GPU AMD Instinct™ MI250 (HBM2e de 128 Go) 560 W, SBIOS M12, Ubuntu 20.04.4, hôte ROCm 5.2.0, par rapport à un serveur AMD EPYC™ 7742 2P, SMT activé, avec 1 GPU Nvidia Ampere A100 SXM de 80 Go et 400 W, SBIOS 0.34, Ubuntu 20.04.4, CUDA 11.6. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-82.
  9. Tests effectués par AMD Performance Labs le 14 avril 2023 avec OpenFOAM v2206 sur un serveur de production équipé d'un CPU EPYC 7763 2P avec 1, 2 et 4 GPU AMD Instinct™ MI250 (128 Go, 560 W) avec la technologie AMD Infinity Fabric™ activée, ROCm™ 5.3.3, Ubuntu® 20.04.4, par rapport à un serveur de production équipé d'un CPU EPYC 7742 2P avec 1, 2 et 4 GPU Nvidia A100 SXM 80 Go (400 W) avec la technologie NVLink activée, CUDA® 11.8, Ubuntu 20.04.4. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations.
  10. tests effectués par AMD Performance Labs le 26 août 2022 en utilisant AMBER : Cellulose_production_NPT_4fs, Cellulose_production_NVE_4fs, FactorIX_production_NPT_4fs, FactorIX_production_NVE_4fs, STMV_production_NPT_4fs, STMV_production_NVE_4fs, JAC_production_NPT_4fs et JAC production_NVE_4fs. Comparaison de deux systèmes : un serveur propulsé par EPYC™ 7763 2P avec 1 GPU AMD Instinct™ MI250 (HBM2e de 128 Go) 560 W, ROCm 5.2.0, conteneur Amber 22.amd_100, par rapport à un serveur propulsé par EPYC™ 7742 2P avec 1 GPU Nvidia A100 SXM (HBM2e de 80 Go) 400 W, MPS activé (2 instances), CUDA 11.6. MI200-73.
  11. Tests effectués par AMD Performance Labs le 18 octobre 2022 en utilisant Gromacs STMV pour comparer deux systèmes : un serveur propulsé par EPYC™ 7763 2P avec 4 GPU AMD Instinct™ MI250 (HBM2e de 128 Go) 560 W dotés de la technologie Infinity Fabric™, ROCm™ 5.2.0, conteneur Gromacs 2022.3.amd1_174, par rapport aux affirmations publiques de Nvidia https://developer.nvidia.com/hpc-application-performance. (Gromacs 2022.2). EPYC 7742 double avec 4 GPU Nvidia Ampere A100 SXM 80 Go. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction facteurs tels que l'utilisation de pilotes plus récents et des optimisations. MI200-74.
  12. Tests effectués par AMD Performance Labs le 3 octobre 2022 en utilisant LAMMPS : EAM, LJ, ReaxFF et Tersoff pour comparer deux systèmes : un serveur propulsé par EPYC™ 7763 2P avec 4 GPU AMD Instinct™ MI250 (HBM2e de 128 Go) 560 W, ROCm 5.2.0, conteneur LAMMPS 2021.5.14_121amdih/lammps:2022.5.04_130, par rapport aux affirmations publiques de Nvidia http://web.archive.org/web/20220718053400/https://developer.nvidia.com/hpc-application-performance. (Stable, 23 juin 2022, mise à jour 1). Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-77.
  13. tests effectués par AMD Performance Labs le 13 septembre 2022 en utilisant NAMD : STMV_NVE, APOA1_NVE pour comparer deux systèmes : un serveur propulsé par EPYC™ 7763 2P, avec 1, 2 et 4 GPU AMD Instinct™ MI250 (HBM2e de 128 Go) de 560 W doté de la technologie Infinity Fabric™, ROCm 5.2.0, conteneur NAMD namd3:3.0a9 par rapport aux affirmations publiques de performances de Nvidia relatives au serveur EPYC 7742 2P avec 1, 2 et 4 GPU Nvidia Ampere A100 SXM de 80 Go https://developer.nvidia.com/hpc-application-performance. (v2.15a AVX-512). Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-76.
  14. Tests effectués par AMD Performance Labs le 14 novembre 2022 sur un Supermicro 4124 propulsé par un CPU AMD EPYC™ 7763 à socket 2P avec 8 GPU AMD Instinct™ MI210 (PCIe® de 64 Go à 300 W) avec la technologie AMD Infinity Fabric™ activée. Ubuntu 18.04.6 LTS, hôte ROCm 5.2.0, rocHPL 6.0.0. Résultats calculés à partir des valeurs médianes de cinq exécutions, par rapport aux tests effectués par AMD Performance sur un Supermicro 4124 propulsé par un CPU AMD EPYC™ 7763 à socket 2P avec 8 GPU Nvidia A100 (PCIe® de 80 Go à 300 W), Ubuntu 18.04.6 LTS, CUDA 11.6, avec l'image de conteneur HPL Nvidia 21.4-HPL. Tous les résultats ont été mesurés sur des systèmes configurés avec 8 GPU ; 2 paires de 4 GPU MI210 connectés par un pont de liaison Infinity Fabric™ à 4 voies ; 4 paires de 2 GPU A100 PCIe 80 Go connectés par des ponts NVLink à 2 voies. Informations sur HPL :  https://www.netlib.org/benchmark/hpl/. Détails du conteneur AMD HPL : le conteneur HPL n'est pas disponible sur Infinity Hub pour le moment. Détails du conteneur Nvidia HPL :  https://ngc.nvidia.com/catalog/containers/nvidia:hpc-benchmarks. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-49A.
  15. Comparaison HPL-AI basée sur des tests internes effectués par AMD au 2 novembre 2022 pour mesurer les performances du benchmark HPL-AI (TFLOPS) à l'aide d'un serveur propulsé par 2 EPYC™ 7763 avec 8 MI210 (HBM2e de 64 Mo) doté de la technologie Infinity Fabric exécutant l'hôte ROCm 5.2.0, HPL-AI-AMD v1.0.0, dont le conteneur AMD HPL-AI n'est pas encore disponible sur Infinity Hub, par rapport à un serveur propulsé par 2 EPYC 7763 avec 8 A100 PCIe (HBM2e de 80 Go) exécutant CUDA 11.6, HPL-AI-NVIDIA v2.0.0, conteneur nvcr.io/nvidia/hpc-benchmarks:21.4-hpl. Les fabricants de serveurs peuvent faire évoluer les configurations, ce qui aboutirait à des résultats différents. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-83.
  16. tests effectués par AMD Performance Labs le 3 octobre 2022 sur un Supermicro 4124 propulsé par CPU AMD EPYC™ 7763 à socket 2P avec 4 et 8 GPU AMD Instinct™ MI210 (PCIe® de 64 Go à 300 W), doté de la technologie AMD Infinity Fabric™. SBIOS2,2, Ubuntu® 18.04.6 LTS, hôte ROCm™ 5.2.0. Conteneur LAMMPS amdih-2022.5.04_130 (ROCm 5.1), par rapport aux affirmations publiques de Nvidia concernant les 4 et 8 GPU A100 PCIe de 80 Go http://web.archive.org/web/20220718053400/https://developer.nvidia.com/hpc-application-performance. Les résultats peuvent varier en fonction des configurations créées par les fabricants de serveurs. Les performances peuvent varier en fonction de l'utilisation de pilotes plus récents et des optimisations. MI200-47A.