Os processadores AMD EPYC™ maximizam o valor dos grandes investimentos em GPU

Os aceleradores de GPU tornaram-se a pedra angular da IA moderna, destacando-se no treinamento de modelos grandes e complexos e suportando inferência em tempo real eficiente e em grande escala. Mas, para maximizar o potencial do seu investimento em GPU, você precisa de um parceiro robusto de CPU.

Por que usar GPUs para cargas de trabalho de IA?

As GPUs são a ferramenta ideal para muitas cargas de trabalho de IA.

  • Treinamento de IA: com suas capacidades de processamento paralelo, as GPUs aceleram o treinamento dos modelos de tamanho grande e médio.
  • Implantações de IA dedicadas: as GPUs oferecem a velocidade e a escalabilidade necessárias para inferência em tempo real em implantações em grande escala

A vantagem da CPU:

Combinar o poder das GPUs com a CPU certa pode aumentar significativamente a eficiência da IA para determinadas cargas de trabalho. Procure por esses principais recursos da CPU:

  • Processadores EPYC de alta frequência: lidam com tarefas extensivas de preparação e pós-processamento de dados de forma rápida e eficiente.
  • Tamanho de cache grande: facilita o acesso rápido de dados a conjuntos de dados maciços.
  • Alta largura de banda de memória e E/S de alto desempenho: permite a troca de dados rápida e contínua entre CPU e GPU.
  • Núcleos com uso eficiente de energia: libera energia para o uso da GPU e ajuda a reduzir o consumo geral de energia.
  • Compatibilidade com GPU e ecossistema de software: possibilita desempenho otimizado, eficiência e operação suave.
GPU System with AMD EPYC and Instinct

Processadores AMD EPYC 9005

Os processadores de alta frequência AMD EPYC Série 9005 são a sua escolha ideal para desbloquear o verdadeiro potencial das GPUs para grandes cargas de trabalho de IA. Como CPU de host, eles ajudam a garantir que as GPUs tenham os dados certos no momento certo para continuar o processamento, o que é essencial para alcançar a melhor produtividade da carga de trabalho de IA e a eficiência do sistema.  Sua alta frequência de núcleo e grande capacidade de memória são fatores-chave que fazem com que os processadores AMD EPYC de alta frequência se destaquem. Para entender como esses fatores-chave garantem uma maior produtividade da GPU, leia o artigo.

Aplicações e setores

As soluções baseadas em aceleradores de GPU com tecnologia das CPUs AMD EPYC alimentam muitos dos supercomputadores e instâncias de nuvem mais rápidos do mundo, oferecendo às empresas uma plataforma de sucesso comprovado para otimizar cargas de trabalho orientadas por dados e alcançar resultados inovadores em IA.

Processadores AMD EPYC Série 9005: A escolha certa para maximizar o valor dos grandes investimentos em GPU

As CPUs desempenham um papel crucial na orquestração e sincronização de transferências de dados entre GPUs, no tratamento de sobrecargas de lançamento de kernel e gerenciamento da preparação de dados. Esta função de "condutor" ajuda as GPUs a operar com eficiência máxima.

Otimize o valor dos investimentos em GPU com CPUs de alto desempenho

Muitas cargas de trabalho de IA se beneficiam de altas velocidades do clock da CPU para melhorar o desempenho da GPU, simplificando o processamento de dados, a transferência e a execução simultânea, e aumentando a eficiência das GPUs. O EPYC 9575F foi projetado especificamente para ser um processador de nó de host de IA de alto desempenho que opera em velocidades de até 5 GHz.

Comparando servidores 2P com 8 aceleradores de GPU

CPU AMD vs Intel Host Node com GPUs AMD Instinct
MLPerf® v4.1 Inference Llama 2-70B Benchmark¹
8x AMD Instinct™ MI300X + 2P EPYC 9575F de 5ª geração (64 núcleos – 5 GHz)
1,11x
8x AMD Instinct™ MI300X + 2P Xeon 8460Y+ (40 núcleos – 3,7 GHz)
1,0x

Inferência - Llama3.1-70B Inference Benchmark (BF16)²
8x Nvidia H100 + 2P EPYC 9575F de 5ª geração (64 núcleos)
~1,20x
8x Nvidia H100 + 2P Xeon 8592+ (64 núcleos)
1,0x
Treinamento - Llama3.1-8B Inference Benchmark (FP8)³
8x Nvidia H100 + 2P EPYC 9575F de 5ª geração (64 núcleos)
~1,15x
8x Nvidia H100 + 2P Xeon 8592+ (64 núcleos)
1,0x

Implemente a IA corporativa de forma eficiente

Processadores como o AMD EPYC de 5a geração que combinam alto desempenho, baixo consumo de energia, manuseio eficiente de dados e recursos eficazes de gerenciamento de energia permitem que sua infraestrutura de IA opere com desempenho máximo, otimizando o consumo de energia e os custos.

Os processadores AMD EPYC potencializam servidores eficientes em termos de energia, oferecendo desempenho excepcional e auxiliando na redução dos custos de energia. Implemente-os com confiança para criar soluções energeticamente eficientes e ajudar a otimizar sua jornada de IA.

Nos processadores AMD EPYC Série 9005, o AMD Infinity Power Management oferece excelente desempenho padrão e permite ajuste fino para comportamento específico das cargas de trabalho.

Abstract illustration with glowing blue lines

Paz de espírito: adote soluções de IA confiáveis

Escolha entre várias soluções aceleradas por GPU certificadas ou validadas e hospedadas por CPUs AMD EPYC para potencializar suas cargas de trabalho de IA.

Usando outras GPUs? Peça pelas soluções com tecnologia de CPU AMD EPYC disponíveis nos principais fornecedores de soluções de plataforma, como Asus, Dell, Gigabyte, HPE, Lenovo e Supermicro, entre outros.

Ecossistema crescente de opções de instâncias de IA/ML em nuvem de CPU AMD EPYC + GPU

Peça por instâncias que combinam CPU AMD EPYC com GPUs para cargas de trabalho de IA/ML de grandes provedores de nuvem, incluindo AWS, Azure, Google, IBM Cloud e OCI.

server room photo

Recursos

Aceleradores AMD Instinct

Excepcionalmente adequados para melhorar suas cargas de trabalho de IA mais exigentes.

Resumos da IA empresarial do AMD EPYC

Encontre a documentação da AMD e de parceiros descrevendo IA e inovação de aprendizado de máquina usando CPUs e GPUs

Podcasts

Ouça os principais especialistas da AMD e do setor analisam os tópicos mais recentes sobre servidores, computação na nuvem, IA, HPC e muito mais.

Notas de rodapé
  1. 9xx5-013: resultados da pontuação oficial do MLPerf™ Inference v4.1 Llama2-70B - 99,9 tokens de servidor/s e tokens offline/s obtidos em https://mlcommons.org/benchmarks/inference-datacenter/ em 01/09/2024, nas seguintes entradas: 4.1-0070 (visualização) e 4.1.0022. O nome e o logotipo MLPerf™ são marcas comerciais da MLCommons Association nos Estados Unidos e em outros países. Todos os direitos reservados. O uso não autorizado é estritamente proibido. Consulte www.mlcommons.org para mais informações.
  2. 9xx5-014: resultados da produtividade da inferência do Llama3.1-70B com base em testes internos da AMD em 01/09/2024. Configurações do Llama3.1-70B: TensorRT-LLM 0.9.0, nvidia/cuda 12.5.0-devel-ubuntu22.04, FP8, configurações do token de entrada/saída (casos de uso): [BS=1024 E/S=128/128, BS=1024 E/S=128/2048, BS=96 E/S=2048/128, BS=64 E/S=2048/2048]. Resultados em tokens/segundo. 2P AMD EPYC 9575F (128 núcleos totais) com 8x NVIDIA H100 80 GB HBM3, DDR5-6000 de 1,5 TB 24x64 GB, Micron_9300_MTFDHAL3T8TDP NVMe® de 1,0 Gbps 3 TB, BIOS T20240805173113 (Determinismo = potência, SR-IOV = ativado), Ubuntu 22.04.3 LTS, kernel=5.15.0-117-generic (mitigations=off, cpupower frequency-set -g performance, cpupower idle-set -d 2, echo 3> /proc/syss/vm/drop_caches), 2P Intel Xeon Platinum 8592+ (128 núcleos totais) com 8x NVIDIA H100 80 GB HBM3, DDR5-5600 de 1 TB 16x64 GB, Dell Ent NVMe® PM1735a MU de 3,2 TB, Ubuntu 22.04.3 LTS, kernel-5.15.0-118-generic, (processor.max_cstate=1, intel_idle.max_cstate=0 mitigations=off, cpupower frequency-set -g performance), BIOS 2.1, (Desempenho máximo, SR-IOV = ativado), Tokens de E/S Tamanho do Lote EMR Turin Relativo 128/128 1024 814.678 1101.966 1.353 128/2048 1024 2120.664 2331.776 1.1 2048/128 96 114.954 146.187 1.272 2048/2048 64 333.325 354.208 1.063. Para um aumento médio de 1,197x na produtividade. Os resultados podem variar devido a fatores como configuração do sistema, versões de software e configurações do BIOS.
  3. 9xx5-015: resultados do teste de treinamento Llama3.1-8B (BF16, comprimento máximo da sequência 1024) com base em testes internos da AMD em 05/09/2024. Configurações do Llama3.1-8B: comprimento máximo da sequência: 1024, BF16, Docker: huggingface/transformers-pytorch-gpu:latest 2P AMD EPYC 9575F (128 núcleos totais) com 8x NVIDIA H100 80 GB HBM3, DDR5-6000 de 1,5 TB 24x64 GB, Micron_9300_MTFDHAL3T8TDP NVMe® de 1,0 Gbps 3 TB, BIOS T20240805173113 (Determinismo = potência, SR-IOV = ativado), Ubuntu 22.04.3 LTS, kernel=5.15.0-117-generic (mitigations=off, cpupower frequency-set -g performance, cpupower idle-set -d 2, echo 3> /proc/syss/vm/drop_caches). Para 31,79 amostras de treino/segundo 2P Intel Xeon Platinum 8592+ (128 núcleos totais) com 8x NVIDIA H100 80 GB HBM3, DDR5-5600 de 1 TB 16x64 GB, Dell Ent NVMe® PM1735a MU de 3,2 TB, Ubuntu 22.04.3 LTS, kernel-5.15.0-118-generic, (processor.max_cstate=1, intel_idle.max_cstate=0 mitigations=off, cpupower frequency-set -g performance), BIOS 2.1, (Desempenho máximo, SR-IOV = ativado). Para 27,74 amostras de treino/segundo. Para aumento médio de 1,146 na produtividade.  Os resultados podem variar devido a fatores como configuração do sistema, versões de software e configurações do BIOS.