Um novo padrão em desempenho de IA

Estima-se que os clientes que investem em aceleradores de IA atingirão US$ 500 bilhões até 2028; em apenas quatro anos, os aceleradores valerão meio trilhão de dólares para as empresas. Os níveis de produtividade, aprimoramento e revolução que a IA está trazendo para as empresas são incomparáveis e os líderes empresariais sabem disso. É por isso que já investiram bilhões, transformando a maneira como trabalham. Milhões de pessoas já recorrem aos aceleradores AMD Instinct™ todos os dias, usando aplicativos executados com modelos de IA populares, como GPT 4, Llama 3.1 405B e muitos dos mais de um milhão de modelos de código aberto na plataforma Hugging Face.

Esse nível de produtividade só vai disparar. Na verdade, com o lançamento dos novos aceleradores AMD Instinct™ MI325X, a AMD está garantindo que isso aconteça mais cedo ou mais tarde.

Aceleradores AMD Instinct™ MI325X

Onde a memória vasta encontra o desempenho da liderança

Os aceleradores AMD Instinct™ MI325X definem um novo padrão quando se trata de desempenho para modelos de IA generativa e data centers. Com base na arquitetura AMD CDNA™ de terceira geração, eles foram projetados para oferecer desempenho e eficiência excepcionais em diversas tarefas de IA exigentes, incluindo modelos de treinamento e inferência. 

Ess aplicações intensivas de IA exigem muita memória, e é por isso que você encontrará os líderes da indústria usando 256 GB de capacidade de memória HBM3e de última geração e 6 TB/s de largura de banda. Combinados com o poder de processamento e o amplo suporte a tipos de dados necessários, os aceleradores AMD Instinct MI325X oferecem os níveis de desempenho que as empresas precisam para praticamente qualquer solução de IA.1

Ao comparar aceleradores AMD Instinct MI325X com produtos da concorrência, é possível observar melhorias de até 1,4x no desempenho de inferência de liderança em modelos como Mixtral 8x7B, Mistral 7B e Meta Llama-3.1 70 B.2,3,4

Embora os números de desempenho e a produtividade aumentem, os clientes poderão aproveitar a capacidade de memória líder do setor e os benefícios que ela oferece. Ao permitir que os clientes usem menos GPUs com modelos de linguagem grande de IA, clusters menores podem ser usados para obter resultados iguais ou melhores do que com produtos da geração anterior.5 Em resumo, menores áreas para implantação, implantações simplificadas e contribuições para a economia de energia são esperados. Os aceleradores AMD Instinct MI325X são a escolha clara para empresas que querem um desempenho extremo sem um custo total de propriedade extremo.

A Plataforma AMD Instinct™ MI325X

Uma base de liderança em computação inflexível

Atualmente, modelos de linguagem grande e IA generativa exigem três coisas para entregar resultados rápidos: aceleração rápida em vários tipos de dados, memória grande e largura de banda para lidar com grandes conjuntos de dados e largura de banda de E/S intensiva.

Com a plataforma em torno desses novos aceleradores, os clientes recebem as três. A nova placa de base padrão do setor (UBB 2.0) hospeda até oito aceleradores AMD Instinct™ MI325X e 2 TB de memória HBM3e para ajudar a processar até mesmo os modelos de IA mais exigentes, e com oito conexões de E/S de host PCIe® Gen 5 x16 e a tecnologia de malha AMD Infinity Fabric™ que fornece conectividade direta entre cada acelerador, os gargalos de dados são coisa do passado.

Em comparação com plataformas concorrentes semelhantes, a plataforma MI325X oferece 1,8 vez a capacidade de memória, 1,3 vez a largura de banda de memória e um enorme avanço com desempenho de inferência até 1,4x maior. 6, 7, 8

Para os clientes que desejam fazer atualização a partir da infraestrutura existente do AMD Instinct, os aceleradores AMD Instinct MI325X oferecem compatibilidade imediata com a plataforma AMD Instinct™ MI300X, agilizando o tempo de lançamento no mercado e minimizando mudanças caras na infraestrutura. 

Acelerador

Arquitetura

Memória

Largura de banda de memória

Desempenho do FP8

Desempenho do FP16

AMD Instinct™ MI325X

AMD CDNA™ 3

HBM3e de 256GB

6 TB/s

2,6 PF

1,3 PF


Plataforma AMD ROCm™

Aceleração da inferência de IA e treinamento com software aberto

Os aceleradores AMD Instinct™ MI325X aproveitam o poder do software AMD ROCm™, a base da computação acelerada da AMD, oferecendo recursos incríveis aos usuários, estejam eles trabalhando em aplicativos de IA de última geração, modelos de IA de ponta ou otimizando simulações complexas.

Os clientes que optarem por aceleradores AMD podem aproveitar o suporte do dia zero para frameworks padrão do setor, incluindo PyTorch e TensorFlow, simplificando a migração e as implantações dos modelos de IA e exigindo alterações mínimas de código. Além disso, a mais recente versão do AMD ROCm melhora ainda mais o treinamento em 1,8 vez e o desempenho de inferência da GPU em 2,4 vezes nos aceleradores AMD Instinct, com compiladores, bibliotecas e suporte de tempo de execução otimizados, ajudando a garantir uma convergência rápida de modelos, previsões precisas de modelos e utilização incrivelmente eficiente da GPU.9,10

Quer saber mais sobre os aceleradores AMD Instinct™ MI325X? Acesse AMD.com ou fale com seu representante da AMD para obter mais informações e disponibilidade.

AMD Arena


Melhore seu conhecimento sobre os produtos AMD com treinamentos do AMD Ryzen™ PRO, AMD EPYC™, AMD Instinct™ e muito mais.

Artigos relacionados

Notas de rodapé
  1. Cálculos realizados pelo AMD Performance Labs em 26 de setembro de 2024, com base nas especificações e/ou estimativas atuais. O acelerador AMD Instinct™ MI325X OAM terá capacidade de memória HBM3e de 256 GB e desempenho de largura de banda de memória teórica de pico de GPU de 6 TB/s. Os resultados reais baseados na produção de silício podem variar. Os resultados publicados mais elevados para o acelerador de GPU NVidia Hopper H200 (141GB) SXM resultaram em capacidade de memória HBM3e de 141GB e desempenho de largura de banda de memória de GPU de 4,8 TB/s.  https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446. Os melhores resultados publicados sobre o acelerador de GPU NVidia Blackwell HGX B100 (192 GB) 700 W resultaram em capacidade de memória HBM3e de 192 GB e desempenho de largura de banda de memória de GPU de 8 TB/s. Os melhores resultados publicados sobre o acelerador de GPU Nvidia Blackwell HGX B200 (192 GB) resultaram em capacidade de memória HBM3e de 192 GB e desempenho de largura de banda de memória de GPU de 8 TB/s. Especificações da NVIDIA Blackwell em https://resources.nvidia.com/en-us-blackwell-architecture. MI325-001A

  2. MI325-004: Com base em testes concluídos em 28/09/2024 pelo AMD Performance Labs medindo a produtividade gerada por texto para o modelo Mixtral-8x7B usando o tipo de dados FP16. O teste foi realizado usando um comprimento de entrada de 128 tokens e um comprimento de saída de 4096 tokens para o acelerador de GPU AMD Instinct™ MI325X e oacelerador de GPU NVIDIA H200 SXM. 1x MI325X a 1000 W com desempenho vLLM em comparação com 1x H200 a 700 W com TensorRT-LLM v0.13. Os fabricantes de servidores podem ter outras configurações, gerando resultados diferentes. O desempenho pode variar baseado no uso dos drivers e otimizações mais recentes. MI325-004

  3. MI325-005: Com base em testes concluídos em 28/09/2024 pelo AMD Performance Labs medindo a latência geral do modelo Mistral-7B usando o tipo de dados FP16. O teste foi realizado usando um comprimento de entrada de 128 tokens e um comprimento de saída de 128 tokens para o acelerador de GPU AMD Instinct™ MI325X e oacelerador de GPU NVIDIA H200 SXM. Os fabricantes de servidores podem ter outras configurações, gerando resultados diferentes. O desempenho pode variar baseado no uso dos drivers e otimizações mais recentes. MI325-005

  4. MI325-006: Com base em testes concluídos em 28/09/2024 pelo AMD Performance Labs medindo a latência geral para o modelo LLaMA 3.1-70B usando o tipo de dados FP8. O teste foi realizado usando um comprimento de entrada de 2048 tokens e um comprimento de saída de 2048 tokens para as seguintes configurações do acelerador de GPU AMD Instinct™ MI325X e do acelerador de GPU NVIDIA H200 SXM. Os fabricantes de servidores podem ter outras configurações, gerando resultados diferentes. O desempenho pode variar baseado no uso dos drivers e otimizações mais recentes. MI325-006

  5. MI325-003A: Estimativas calculadas com base no tamanho da memória somente da GPU versus a memória exigida pelo modelo em parâmetros definidos mais 10% de sobrecarga. Os cálculos se baseiam em tamanhos de memória de modelos publicados e, às vezes, preliminares. Resultados de PaLM 1, Llama 3.1 405B, Mixtral 8x22B e Samba-1 estimados em MI325X e H200 devido à disponibilidade do sistema/peça.

    Resultados (calculados):
    GPUs necessárias: MI325X em comparação com H200
    PaLM-1 (540B) 5 9
    Llama 3.1 (405B) 4 7
    Mixtral 8x22B (141B) 2 3
    Samba-1 (1T) 9 16

    Os fabricantes de servidores podem ter outras configurações, gerando resultados diferentes. O desempenho pode variar baseado no uso dos drivers e otimizações mais recentes.

  6. MI325-001A: Cálculos realizados pelo AMD Performance Labs em 26 de setembro de 2024, com base nas especificações e/ou estimativas atuais. O acelerador AMD Instinct™ MI325X OAM terá capacidade de memória HBM3e de 256 GB e desempenho de largura de banda de memória teórica de pico de GPU de 6 TB/s. Os resultados reais baseados na produção de silício podem variar. Os melhores resultados publicados sobre o acelerador de GPU NVidia Hopper H200 (141 GB) SXM resultaram em capacidade de memória HBM3e de 141 GB e desempenho de largura de banda de memória de GPU de 4,8 TB/s: https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446. Os melhores resultados publicados sobre o acelerador de GPU NVidia Blackwell HGX B100 (192 GB) 700 W resultaram em capacidade de memória HBM3e de 192 GB e desempenho de largura de banda de memória de GPU de 8 TB/s. Os melhores resultados publicados sobre o acelerador de GPU Nvidia Blackwell HGX B200 (192 GB) resultaram em capacidade de memória HBM3e de 192 GB e desempenho de largura de banda de memória de GPU de 8 TB/s. Especificações da NVIDIA Blackwell em https://resources.nvidia.com/en-us-blackwell-architecture .

  7. MI325-002: Os cálculos realizados pelo AMD Performance Labs em 28 de maio de 2024 para a GPU AMD Instinct™ MI325X resultaram em 1.307,4 TFLOPS de meia precisão teórica de pico (FP16), 1.307,4 TFLOPS de precisão teórica de formato Bfloat16 de pico (BF16), 2.614,9 TFLOPS de precisão teórica de pico de 8 bits (FP8), 2.614,9 TOPs de desempenho do ponto de flutuação INT8. O desempenho real varia de acordo com as especificações finais e a configuração do sistema.
    Resultados publicados sobre a GPU Nvidia H200 SXM (141 GB): 989,4 TFLOPS de tensor de meia precisão teórica de pico (Tensor FP16), 989,4 TFLOPS de precisão teórica de formato de tensor Bfloat16 (Tensor BF16), 1.978,9 TFLOPS de pico teórico da precisão de 8 bits (FP8), 1.978,9 TOPs de pico de desempenho teórico do ponto de flutuação INT8. O desempenho do núcleo do tensor BFLOAT16, do núcleo do tensor FP16, do núcleo do tensor FP8 e do núcleo do tensor INT8 foi publicado pela Nvidia usando dispersão. Para fins de comparação, a AMD converteu esses números para não dispersão/densa dividindo-os por 2, e esses números aparecem acima.
    Fonte do Nvidia H200: https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446 e https://www.anandtech.com/show/21136/nvidia-at-sc23-h200-accelerator-with-hbm3e-and-jupiter-supercomputer-for-2024

    Nota: As GPUs Nvidia H200 têm o mesmo desempenho em FLOPs publicados que os produtos H100 https://resources.nvidia.com/en-us-tensor-core. MI325-002

  8. MI325-014: Com base em testes realizados em 08/10/2024 pelo AMD Performance Labs medindo a taxa de produtividade gerada por texto para o modelo LLaMA 3.1-405B usando o tipo de dados FP8. O teste foi realizado usando um comprimento de entrada de 128 tokens e um comprimento de saída de 2.048 tokens para as seguintes configurações da plataforma AMD Instinct™ MI325X 8xGPU e da plataforma NVIDIA H200 HGX GPU. Plataforma 8xGPU MI325X com desempenho de vLLM vs. resultados publicados pela NVIDIA. Configurações: Configuração da plataforma MI325X 8xGPU Dell PowerEdge XE9680 com 2 processadores Intel Xeon Platinum 8480+, 8 GPUs AMD Instinct MI325X (256 GiB, 1.000 W), Ubuntu 22.04 e uma versão de pré-lançamento do ROCm 6.3 vs. os resultados publicados pela Nvidia para o TensorRT-LLM v0.13 capturados em: https://github.com/NVIDIA/TensorRT-LLM/blob/v0.13.0/docs/source/performance/perf-overview.md - 3.039,7 tokens de saída/segundo. Os fabricantes de servidores podem ter outras configurações, gerando resultados diferentes. O desempenho pode variar baseado no uso dos drivers e otimizações mais recentes. MI325-014

  9. MI300-61: Medições conduzidas pela equipe de gerenciamento de produtos de IA da AMD na GPU AMD Instinct™ MI300X para comparar o desempenho do modelo de linguagem grande (LLM) com metodologias de otimização ativadas e desativadas a partir de 28/09/2024 em Llama 3.1-70B e Llama 3.1-405B e vLLM 0.5.5.

    Configurações do sistema:
    Processador AMD EPYC 9654 de 96 núcleos, 8 AMD MI300X, ROCm™ 6.1, Linux® 7ee7e017abe3 5.15.0-116-generic #126-Ubuntu® SMP Segunda-feira, 1º de julho, 10:14:24 UTC 2024 x86_64 x86_64 x86_64 GNU/Linux, Aumento de frequência: ativado. O desempenho pode variar de acordo com fatores que incluem, entre outros, diferentes versões de configurações, vLLM e drivers.

  10. MI300-62: Testes realizados pelo AMD Performance Labs interno a partir de 29 de setembro de 2024, comparação de desempenho de inferência entre o software ROCm 6.2 e o software ROCm 6.0 nos sistemas com 8 GPUs AMD Instinct™ MI300X acoplados aos modelos Llama 3.1-8B, Llama .,1-70B, Mixtral-8x7B, Mixtral-8x22B e Qwen 72B. O ROCm 6.2 com desempenho vLLM 0.5.5 foi medido em comparação ao desempenho com ROCm 6.0 com vLLM 0,3.3, e os testes foram realizados em tamanhos de lote de 1 a 256 e comprimentos de sequência de 128 a 2048.

    Configurações:
    Servidor de CPU AMD EPYC™ 9534 1P com 8 GPUs AMD Instinct™ MI300X (192 GB, 750 W), Supermicro AS-8125GS-TNMR2, NPS1 (1 NUMA por soquete), 1,5 TiB (24 DIMMs, 4800 mts de memória, 64 GiB/DIMM), 4x 3,49 TB de armazenamento micron 7450, versão de BIOS: 1.8, ROCm 6.2.0-00, vLLM 0.5.5, PyTorch 2.4.0, Ubuntu® 22.04 LTS com kernel Linux 5.15.0-119-generic.
    em comparação com
    Servidor de CPU AMD EPYC 9534 1P com GPUs AMD Instinct™ MI300X (192 GB, 750 W), Supermicro AS-8125GS-TNMR2, NPS1 (1 NUMA por soquete), 1,5 TiB (24 DIMMs, 4800 mts de memória, 64 GiB/DIMM), 4x 3,49 TB de armazenamento micron 7450, versão de BIOS: 1.8, ROCm 6.0.0-00, vLLM 0.3.3, PyTorch 2.1.1, Ubuntu 22.04 LTS com kernel Linux 5.15.0-119-generic.

    Os fabricantes de servidores podem ter outras configurações, gerando resultados diferentes. O desempenho pode variar de acordo com fatores que incluem, entre outros, diferentes versões de configurações, vLLM e drivers.

    ISENÇÃO DE RESPONSABILIDADE: As informações aqui contidas são apenas para fins informativos e estão sujeitas a alterações sem aviso prévio. Embora todas as precauções tenham sido tomadas na preparação deste documento, ele pode conter imprecisões técnicas, omissões e erros tipográficos. A AMD não tem obrigação de atualizar nem de corrigir essas informações. A Advanced Micro Devices, Inc. não faz representações nem garantias quanto à exatidão ou integridade do conteúdo deste documento e não assume responsabilidade, incluindo quaisquer garantias implícitas de não violação, comercialização ou adequação a uma finalidade específica, para operar ou usar hardware, software ou outros produtos da AMD aqui descritos. Nenhuma licença, implícita ou decorrente de preclusão, de quaisquer direitos de propriedade intelectual, é concedida por este documento. Os termos e as limitações aplicáveis à compra ou ao uso dos produtos da AMD são os estabelecidos em um contrato assinado entre as partes ou nos Termos e condições de venda padrão da AMD. GD-18u.

    © 2024 Advanced Micro Devices, Inc. Todos os direitos reservados. AMD, o logotipo de seta AMD, EPYC, Instinct, ROCm e suas combinações são marcas comerciais da Advanced Micro Devices, Inc. Outros nomes de produtos usados nesta publicação são apenas para fins de identificação e podem ser marcas comerciais de seus respectivos proprietários. Certas tecnologias AMD podem exigir ativação ou habilitação por terceiros. Os recursos compatíveis podem variar de acordo com o sistema operacional. Confirme com o fabricante do sistema a existência de recursos específicos. Nenhum produto ou tecnologia pode ser completamente seguro.