Inferencia rentable para la IA empresarial
A medida que la industria pasa de entrenar modelos a ejecutarlos, las CPU pueden realizar un doble trabajo: ejecutar al mismo tiempo cargas de trabajo de propósito general e IA.
Implementa modelos pequeños y medianos en las CPU para servidores AMD EPYC™ 9005, ya sea en las instalaciones o en la nube, y maximiza el valor de tus inversiones informáticas.
Para evitar el sobreaprovisionamiento y obtener el mejor retorno de tus inversiones en IA, es importante que combines los requisitos de tamaño y latencia de tu modelo con el hardware adecuado. Las generaciones más recientes de CPU para servidores AMD EPYC pueden manejar una variedad de tareas de IA junto con cargas de trabajo de propósito general. A medida que crecen los tamaños de los modelos, los volúmenes aumentan y las latencias más bajas se vuelven cruciales, las GPU se vuelven más eficientes y rentables.
| Carga de trabajo de inferencia de IA | Buena opción para… |
||
CPU |
CPU + GPU basada en PCIe |
Clústeres de GPU |
|
Procesamiento y clasificación de documentos |
✓ |
|
|
Minería de datos y análisis |
✓ |
|
✓ |
Simulaciones científicas |
✓ |
|
|
Traducción |
✓ |
|
|
Indexación |
✓ |
|
|
Moderación de contenido |
✓ |
|
|
Mantenimiento predictivo |
✓ |
|
✓ |
Asistentes virtuales |
✓ |
✓ |
|
Chatbots |
✓ |
✓ |
|
Agentes expertos |
✓ |
✓ |
|
Subtítulos de video |
✓ |
✓ |
|
Detección de fraude |
|
✓ |
✓ |
Toma de decisiones |
|
✓ |
✓ |
Precios dinámicos |
|
✓ |
✓ |
Filtrado de audio y video |
|
✓ |
✓ |
Operaciones bursátiles financieras |
|
|
✓ |
Telecomunicaciones y redes |
|
|
✓ |
Sistemas autónomos |
|
|
✓ |
Según los requisitos de tus cargas de trabajo, lo más adecuado para la inferencia es utilizar solo CPU con un alto recuento de núcleos o una combinación de CPU y GPU. Obtén más información sobre qué infraestructura se adapta a tus necesidades de tamaño y latencia de modelo.
Las CPU para servidores AMD EPYC más recientes pueden cumplir con los requisitos de rendimiento de una variedad de cargas de trabajo de IA, como el aprendizaje automático clásico, la visión artificial y los agentes de IA. Obtén más información acerca de cinco cargas de trabajo populares que funcionan muy bien en las CPU.
Ya sea que se implementen en un servidor de solo CPU o se utilicen como host para las GPU que ejecutan modelos más grandes, las CPU para servidores AMD EPYC están diseñadas con las tecnologías de estándares abiertos más recientes para acelerar las cargas de trabajo de inferencia de IA empresarial.
En las afirmaciones, se comparan las CPU para servidores AMD EPYC 9965 de 5.ª generación frente a Intel Xeon 6980P.
AMD EPYC 9965 de 5.ª generación
Intel Xeon 6980P
AMD EPYC 9965 de 5.ª generación
Intel Xeon 6980P
AMD EPYC 9965 de 5.ª generación
Intel Xeon 6980P
AMD EPYC 9965 de 5.ª generación
Intel Xeon 6980P
AMD EPYC 9965 de 5.ª generación
Intel Xeon 6980P
Primero, determina tus necesidades de rendimiento. ¿Qué tan rápido necesitas respuestas en cuanto a minutos, segundos o milisegundos? ¿Qué tan grandes son los modelos que ejecutas en cuanto a parámetros? Es posible que cumplas con los requisitos de rendimiento simplemente si actualizas a una CPU AMD EPYC de 5.ª generación, lo que evita el costo del hardware de la GPU.
Si no necesitas respuestas en tiempo real, la inferencia por lotes es rentable para el análisis a gran escala y a largo plazo, por ejemplo, el análisis del rendimiento de campañas o el mantenimiento predictivo. La inferencia en tiempo real que admite casos de uso interactivos como el comercio financiero y los sistemas autónomos puede necesitar aceleradores de GPU. Mientras que las CPU por sí solas son excelentes para la inferencia por lotes, las GPU son las mejores para la inferencia en tiempo real.
Las CPU por sí solas ofrecen suficiente rendimiento para inferencia en modelos de hasta aproximadamente 20 000 millones de parámetros y para tiempos de respuesta de latencia media (segundos a minutos). Esto es suficiente para muchos asistentes de IA, chatbots y agentes. Considera agregar aceleradores de GPU cuando los modelos son más grandes o los tiempos de respuesta deben ser más rápidos que esto.
La respuesta corta es que depende. Extraer el máximo rendimiento para una carga de trabajo depende mucho de la experiencia y la carga de trabajo. Con eso en mente, algunas CPU para servidores AMD EPYC de 5.ª generación superan a Intel Xeon 6 comparable en inferencia para muchas cargas de trabajo populares de IA, incluidos los grandes modelos de lenguaje (DeepSeek-R1 671B)3, modelos de lenguaje medianos (Llama 3.1 8B4 y GPT-J 6B6) y modelos de lenguaje pequeños (Llama 3.2 1B)5.
Las CPU para servidores AMD EPYC incluyen AMD Infinity Guard, que proporciona un conjunto de funciones de seguridad basadas en chip7. AMD Infinity Guard incluye AMD Secure Encrypted Virtualization (AMD SEV), una solución informática confidencial ampliamente adoptada que utiliza VM (virtual machines, máquinas virtuales) confidenciales para ayudar a proteger los datos, los modelos de IA y las cargas de trabajo en tiempo de ejecución.
Adapta tus necesidades de infraestructura a tus ambiciones de IA. AMD ofrece la cartera más amplia de IA, plataformas basadas en estándares abiertos y un potente ecosistema, todo respaldado por el liderazgo en rendimiento.
Con AMD ZenDNN y el software AMD ROCm™, los desarrolladores pueden optimizar el rendimiento de sus aplicaciones mientras utilizan los marcos de trabajo de su elección.