Inferência econômica para IA empresarial
À medida que o setor transita do treinamento de modelos para a execução deles, as CPUs podem desempenhar duas funções: executar cargas de trabalho de IA e de uso geral simultaneamente.
Implemente modelos de pequeno e médio porte em CPUs de servidor AMD EPYC™ 9005 — no local ou na nuvem — e maximize o valor de seus investimentos em computação.
Para evitar o provisionamento excessivo e obter o melhor retorno sobre os investimentos em IA, é importante combinar o tamanho do modelo e os requisitos de latência com o hardware apropriado. As últimas gerações de CPUs para servidores AMD EPYC podem lidar com uma variedade de tarefas de IA, além de cargas de trabalho de uso geral. Conforme os modelos aumentam de tamanho, os volumes crescem e as latências mais baixas se tornam críticas, as GPUs ficam mais eficientes e econômicas.
| Carga de trabalho de inferência de IA | Ideal para... |
||
CPUs |
CPUs + GPU baseada em PCIe |
Clusters de GPU |
|
Processamento e classificação de documentos |
✓ |
|
|
Mineração e análise de dados |
✓ |
|
✓ |
Simulações científicas |
✓ |
|
|
Tradução |
✓ |
|
|
Indexação |
✓ |
|
|
Moderação de conteúdo |
✓ |
|
|
Manutenção preditiva |
✓ |
|
✓ |
Assistentes virtuais |
✓ |
✓ |
|
Chatbots |
✓ |
✓ |
|
Agentes especialistas |
✓ |
✓ |
|
Legenda de vídeo |
✓ |
✓ |
|
Detecção de fraude |
|
✓ |
✓ |
Tomada de decisões |
|
✓ |
✓ |
Preços dinâmicos |
|
✓ |
✓ |
Filtragem de áudio e vídeo |
|
✓ |
✓ |
Negociação financeira |
|
|
✓ |
Telecomunicações e redes |
|
|
✓ |
Sistemas autônomos |
|
|
✓ |
Dependendo dos seus requisitos de carga de trabalho, as CPUs com alta contagem de núcleos ou a combinação de CPUs e GPUs funcionam melhor para inferência. Saiba mais sobre qual infraestrutura se adapta ao tamanho do seu modelo e às suas necessidades de latência.
As mais recentes CPUs de servidor AMD EPYC atendem aos requisitos de desempenho de uma variedade de cargas de trabalho de IA, incluindo aprendizado de máquina clássico, visão computacional e agentes de IA. Leia sobre cinco cargas de trabalho populares que funcionam muito bem em CPUs.
As CPUs de servidor AMD EPYC são projetadas com as mais modernas tecnologias de padrões abertos para acelerar cargas de trabalho de inferência de IA empresarial, estejam elas implementadas em servidores apenas de CPU ou sendo usadas como host para GPUs que executam modelos maiores.
Análise comparativa das CPUs de servidor AMD EPYC 9965 de 5ª geração com as Intel Xeon 6980P.
AMD EPYC 9965 de 5ª geração
Intel Xeon 6980P
AMD EPYC 9965 de 5ª geração
Intel Xeon 6980P
AMD EPYC 9965 de 5ª geração
Intel Xeon 6980P
AMD EPYC 9965 de 5ª geração
Intel Xeon 6980P
AMD EPYC 9965 de 5ª geração
Intel Xeon 6980P
Primeiro, determine suas necessidades de desempenho. Com que rapidez você precisa das respostas, em termos de minutos, segundos ou milissegundos? Qual é o tamanho dos modelos que você está executando em termos de parâmetros? Você pode atender aos requisitos de desempenho simplesmente atualizando para uma CPU AMD EPYC de 5ª geração, evitando o custo do hardware da GPU.
Se você não precisa de respostas em tempo real, a inferência em lote é econômica para análises em larga escala e de longo prazo, como avaliar o desempenho de campanhas ou realizar manutenção preditiva. A inferência em tempo real, que suporta casos de uso interativos, como negociações financeiras e sistemas autônomos, pode exigir aceleradores de GPU. Embora as CPUs sejam excelentes para inferência em lote, as GPUs são melhores para inferência em tempo real.
As CPUs, por si só, oferecem desempenho suficiente para a inferência em modelos com até 20 bilhões de parâmetros e para tempos de resposta de latência média (de segundos a minutos). Isso é suficiente para muitos assistentes de IA, chatbots e agentes. Considere adicionar aceleradores de GPU quando os modelos forem maiores ou os tempos de resposta precisarem ser mais rápidos do que isso.
A resposta curta é: depende. Obter o máximo desempenho de uma carga de trabalho depende muito da carga em si e da experiência do usuário. Dito isso, determinadas CPUs de servidor AMD EPYC de 5ª geração superam o desempenho do Intel Xeon 6 comparável em inferência para várias cargas de trabalho de IA populares, incluindo modelos de linguagem grandes (DeepSeek-R1 671B),3 modelos de linguagem médios (Llama 3.1 8B4 e GPT-J 6B6) e modelos de linguagem pequenos (Llama 3.2 1B).5
As CPUs de servidor AMD EPYC incluem o AMD Infinity Guard, que oferece um conjunto de recursos de segurança baseados em chip.7 O AMD Infinity Guard inclui a SEV (Secure Encrypted Virtualization, Virtualização criptografada segura) da AMD, uma solução de computação confidencial amplamente adotada que usa MVs (Máquinas Virtuais) confidenciais para ajudar a proteger dados, modelos de IA e cargas de trabalho em tempo de execução.
Corresponda suas necessidades de infraestrutura às suas ambições de IA. A AMD oferece o mais amplo portfólio de IA, plataformas baseadas em padrões abertos e um poderoso ecossistema, tudo apoiado pela liderança em desempenho.
Com os softwares AMD ZenDNN e AMD ROCm™, os desenvolvedores podem otimizar o desempenho de seus aplicativos, escolhendo as suas estruturas de desenvolvimento preferidas.