Construir grandes modelos de linguagem com o poder da AMD
A TurkuNLP aumentou o supercomputador LUMI para 192 nós, equipado com CPUs AMD EPYC™ e GPUs AMD Instinct™, para construir um grande modelo de linguagem para o idioma finlandês.
Os servidores de alto desempenho são fundamentais para a IA corporativa. As CPUs de servidor AMD EPYC™ e as principais GPUs oferecem desempenho impressionante para seu treinamento em IA e cargas de trabalho de modelos grandes.
Webinar ao vivo
Saiba como a combinação vencedora entre processadores AMD EPYC™ e os principais aceleradores de GPU entrega a força necessária para enfrentar os mais exigentes desafios da IA empresarial.
Os aceleradores de GPU tornaram-se a pedra angular da IA moderna, destacando-se no treinamento de modelos grandes e complexos e suportando inferência em tempo real eficiente e em grande escala. Mas, para maximizar o potencial do seu investimento em GPU, você precisa de um parceiro robusto de CPU.
As GPUs são a ferramenta ideal para muitas cargas de trabalho de IA.
Combinar o poder das GPUs com a CPU certa pode aumentar significativamente a eficiência da IA para determinadas cargas de trabalho. Procure por esses principais recursos da CPU:
Sua escolha ideal para desbloquear o verdadeiro potencial de suas grandes cargas de trabalho de IA. Eles ajudam a maximizar o desempenho do acelerador de GPUs e a eficiência geral da carga de trabalho de IA. Além disso, com recursos de segurança avançados e um compromisso longo e consistente com padrões abertos, os processadores AMD EPYC permitem que as empresas implantem com confiança a próxima fase da sua jornada de IA.
As soluções baseadas em aceleradores de GPU com tecnologia das CPUs AMD EPYC alimentam muitos dos supercomputadores e instâncias de nuvem mais rápidos do mundo, oferecendo às empresas uma plataforma de sucesso comprovado para otimizar cargas de trabalho orientadas por dados e alcançar resultados inovadores em IA.
As CPUs desempenham um papel crucial na orquestração e sincronização de transferências de dados entre GPUs, no tratamento de sobrecargas de lançamento de kernel e gerenciamento da preparação de dados. Esta função de “condutor” garante que as GPUs operem com eficiência máxima.
Algumas cargas de trabalho se beneficiam de altas velocidades do clock da CPU para melhorar o desempenho da GPU, simplificando o processamento de dados, transferência e execução simultânea e aumentando a eficiência das GPUs.
Para provar o conceito de que frequências mais altas de uma CPU aumentam a produtividade da carga de trabalho Llama2-7B, usamos CPUs AMD EPYC 9554 personalizadas em um servidor 2P equipadas com 8x GPUs NVIDIA H1001
Processadores que combinam alto desempenho, baixo consumo de energia, manuseio eficiente de dados e recursos eficazes de gerenciamento de energia permitem que sua infraestrutura de IA opere com desempenho máximo, otimizando o consumo de energia e os custos.
Os processadores AMD EPYC estão atuando nos servidores mais eficientes em termos de energia do mundo, oferecendo desempenho excepcional e ajudando a reduzir os custos de energia.2 Implante-os com confiança para criar soluções energeticamente eficientes e ajudar a otimizar sua jornada de IA.
Nos processadores AMD EPYC Série 9004, o AMD Infinity Power Management oferece excelente desempenho padrão e permite ajuste fino para comportamento específico das cargas de trabalho.
Escolha entre várias soluções aceleradas por GPU certificadas ou validadas e hospedadas por CPUs AMD EPYC para potencializar suas cargas de trabalho de IA.
Prefere soluções equipadas com o acelerador AMD Instinct?
Usando outras GPUs? Peça pelas soluções equipadas com CPU AMD EPYC disponíveis nos principais fornecedores de soluções de plataforma, incluindo Asus, Dell, Gigabyte, HPE, Lenovo e Supermicro.
Peça por instâncias que combinam CPU AMD EPYC com GPUs para cargas de trabalho de IA/ML de grandes provedores de nuvem, incluindo AWS, Azure, Google, IBM Cloud e OCI.
Configurações do servidor: 2P EPYC 9554 (CPU com frequências customizadas, 64C/128T, 16 núcleos ativos), memória de 1,5 TB (24 x 64 GB DDR5-5600 rodando a 4800 MT/s), SSD de 3,2 TB, Ubuntu® 22.04.4 LTS, com 8x NVIDIA H100 80 GB HBM3, Transformadores HuggingFace v 4.31.0, NVIDIA PyTorch 23.12, PEFT 0.4.0, Python 3.10.12, CUDA 12.3.2.001, TensorRT-LLM v 0.9.0.dev2024, CUDNN 8.9.7.29+cuda12.2, Driver NVIDIA-SMI versão 550.54.15, TRT v8.6.1.6+cuda12.0.1.011, Transformer Engine v1.1
Ajuste fino da Llama2-7B: BS por dispositivo = 4, seqln = 128, média em quatro execuções, 10 epochs por execução, FP16
Treinamento em Llama2-7B (1K): BS = 56 (7 x 8 GPUs), seqln = 1k, gradientes na GPU
Treinamento em Llama2-7B (2K): BS = 24 (3 x 8 GPUs), seqln = 2k, gradientes na GPU
Resultados:
CPU Freq 2000 MHz 2500 MHz 3000 MHz
Ajuste fino do tempo médio de execução do treinamento em segundos: 649,38 584,24 507,1
Aumento de % na produtividade: 0,00% 11,15% 28,06%
Produtividade do treinamento, comprimento da sequência 1K: 276,08 238,81 230,82
Aumento de % na produtividade: 0,00% 15,61% 19,61%
Produtividade do treinamento, comprimento da sequência 2K: 883,85 807,94 778,72
Aumento de % na produtividade: 0,00% 9,40% 13,50%
Os resultados podem variar devido a fatores como configuração do sistema, versões de software e configurações do BIOS. OBSERVAÇÃO: Este desempenho é a prova de conceito. Dados coletados em 2P personalizado com AMD EPYC™ 9554 como processador host com várias frequências, utilizando aceleradores 8x Nvidia H100 80 GB. Os processadores EPYC de 4a geração não permitem que os usuários finais ajustem as frequências