Inférence économique pour l'IA d'entreprise
Alors que le secteur passe de l'entraînement des modèles à leur exécution, les CPU peuvent assurer un double rôle : exécuter l'IA et les charges de travail généralistes en parallèle.
Déployez des modèles de petite et moyenne taille sur les CPU pour serveurs AMD EPYC™ 9005 (sur site ou dans le cloud) et maximisez la valeur de vos investissements en calcul.
Pour éviter le surprovisionnement et obtenir le meilleur retour sur vos investissements en IA, il est important d'adapter la taille de votre modèle et les exigences de latence selon le hardware approprié. Les dernières générations de CPU pour serveurs AMD EPYC peuvent gérer différentes tâches d'IA en plus des charges de travail généralistes. À mesure que la taille des modèles, les volumes développent et l'importance de la réduction des temps de latence augmentent, les GPU deviennent plus efficaces et plus économiques.
| Charge de travail d'inférence IA | Convient parfaitement pour... |
||
CPU |
CPU + GPU basé sur PCIe |
Clusters de GPU |
|
Traitement et classification de documents |
✓ |
|
|
Exploration et analyse de données |
✓ |
|
✓ |
Simulations scientifiques |
✓ |
|
|
Traduction |
✓ |
|
|
Indexation |
✓ |
|
|
Modération de contenu |
✓ |
|
|
Maintenance prédictive |
✓ |
|
✓ |
Assistants virtuels |
✓ |
✓ |
|
Chatbots |
✓ |
✓ |
|
Agents experts |
✓ |
✓ |
|
Sous-titres vidéo |
✓ |
✓ |
|
Détection des fraudes |
|
✓ |
✓ |
Prise de décision |
|
✓ |
✓ |
Tarification dynamique |
|
✓ |
✓ |
Filtrage audio et vidéo |
|
✓ |
✓ |
Opérations financières |
|
|
✓ |
Télécommunications et mise en réseau |
|
|
✓ |
Systèmes autonomes |
|
|
✓ |
Selon les besoins de votre charge de travail, choisissez entre des CPU avec un nombre élevé de cœurs et une combinaison de CPU et de GPU pour profiter de performances optimales pour l'inférence. Découvrez quelle infrastructure correspond à la taille de votre modèle et à vos besoins en matière de latence.
Les derniers CPU pour serveurs AMD EPYC sont capables de répondre aux exigences de performance d'une large gamme de charges de travail d'IA, notamment l'apprentissage machine classique, la vision par ordinateur et les agents d'IA. Découvrez cinq charges de travail courantes qui s'exécutent parfaitement sur les CPU.
Qu'ils soient déployés uniquement en tant que CPU ou utilisés en tant qu'hôte pour les GPU exécutant de plus grands modèles, les CPU pour serveurs AMD EPYC sont conçus avec les dernières technologies à normes ouvertes afin d'accélérer les charges de travail d'inférence d'IA d'entreprise.
Les déclarations comparent les CPU pour serveur AMD EPYC 9965 de 5e génération aux Intel Xeon 6980P.
AMD EPYC 9965 de 5e génération
Intel Xeon 6980P
AMD EPYC 9965 de 5e génération
Intel Xeon 6980P
AMD EPYC 9965 de 5e génération
Intel Xeon 6980P
AMD EPYC 9965 de 5e génération
Intel Xeon 6980P
AMD EPYC 9965 de 5e génération
Intel Xeon 6980P
Tout d'abord, déterminez vos besoins en matière de performances. À quelle vitesse avez-vous besoin de réponses, en minutes, secondes ou millisecondes ? Quelle est la taille des modèles que vous utilisez en matière de paramètres ? Vous pouvez parfois répondre à vos exigences de performance simplement en optant pour un CPU AMD EPYC de 5e génération, évitant ainsi les coûts liés à l'ajout de hardware GPU.
Si vous n'avez pas besoin de réponses en temps réel, l'inférence par lots est une solution économique pour l'analyse à grande échelle ou à long terme (analyse des performances des campagnes ou maintenance prédictive, par exemple). L'inférence en temps réel, qui prend en charge des cas d'utilisation interactifs tels que le trading financier et les systèmes autonomes, peut nécessiter des accélérateurs de GPU. Bien que les CPU seuls soient excellents pour l'inférence par lots, les GPU sont mieux adaptés à l'inférence en temps réel.
Les CPU offrent à eux seuls des performances suffisantes pour exécuter l'inférence sur des modèles jusqu'à ~20 milliards de paramètres, avec des temps de réponse à latence intermédiaire (de quelques secondes à quelques minutes). Cela suffit pour de nombreux assistants IA, chatbots et agents. Envisagez d'ajouter des accélérateurs de GPU lorsque les modèles sont plus grands ou que les temps de réponse doivent être plus rapides.
La réponse est simple : cela dépend. La performance maximale pour une charge de travail dépend fortement de cette dernière et de l'expertise. Cela dit, certains CPU pour serveurs AMD EPYC de 5e génération surpassent les Intel Xeon 6 comparables pour de nombreuses charges de travail d'IA courantes, notamment les grands modèles de langage (DeepSeek‑R1 671B)3, les modèles de langage moyens (Llama 3.1 8B4 et GPT‑J 6B6) et les petits modèles de langage (Llama 3.2 1B).5
Les CPU pour serveur AMD EPYC intègrent AMD Infinity Guard, un ensemble de fonctionnalités de sécurité basées dans la puce.7 AMD Infinity Guard inclut AMD Secure Encrypted Virtualization (AMD SEV), une solution mature et largement adoptée de calcul confidentiel qui s'appuie sur des machines virtuelles confidentielles (VM) pour protéger les données, les modèles IA et les charges de travail en cours d'exécution.
Adaptez vos besoins en infrastructure à vos ambitions en matière d'IA. AMD offre le portefeuille d'IA le plus vaste, des plateformes basées sur des normes ouvertes et un écosystème puissant, le tout soutenu par un leadership en matière de performances.
Avec les softwares AMD ZenDNN et AMD ROCm™, les développeurs peuvent optimiser les performances de leurs applications tout en utilisant les structures de leur choix.