AI 추론을 위한 EPYC 9005

개요

온프레미스 또는 클라우드의 AMD EPYC™ 9005 서버 CPU에 소규모 및 중규모 모델을 배포하고 컴퓨팅 투자의 가치를 극대화할 수 있도록 지원하세요.

엔터프라이즈 AI를 위한 비용 효율적인 추론

업계가 학습 모델에서 운영 모델로 전환하면서 CPU는 AI와 범용 워크로드를 나란히 실행하는 두 가지 역할을 수행할 수 있는 위력을 갖추게 되었습니다.

블로그 확인하기

최대 10배 향상된 호스트 CPU 성능¹

호스트 CPU는 GPU 기반 시스템에서 AI 시스템 성능 전반에 영향을 줄 수 있습니다. 호스트 CPU로 사용할 경우 고주파수 AMD EPYC 9575F CPU는 지연율이 제한된 추론 서비스를 크게 개선합니다.

블로그 확인하기

Llama 성능을 최대 16배 향상²하는 방법 알아보기

추측 디코딩은 여러 미래 토큰을 예측하고 이를 병렬로 확인합니다. 이 경우 AMD 엔지니어들은 5세대 AMD EPYC™ 서버 CPU에서 대규모 언어 모델(LLM)의 성능을 향상시키기 위해 이 프로세스를 개선했습니다.

기술 문서 읽기

서로 다른 추론 워크로드에 가장 적합한 하드웨어는 무엇입니까?

과도한 프로비저닝을 피하고 AI 투자 수익을 극대화하려면 모델 크기 및 지연율 요구 사항에 맞는 적합한 하드웨어를 선택해야 합니다. 최신 세대의 AMD EPYC 서버 CPU는 범용 워크로드 외에도 다양한 AI 작업을 처리할 수 있습니다. 모델 크기가 증가하고 볼륨이 늘어나며 낮은 지연 시간이 중요해짐에 따라, GPU의 효율성과 비용 효율성은 더욱 높아집니다.

CPU로 시작하는 비용 효율적인 추론

최신 AMD EPYC 서버 CPU는 초 미만의 지연율로 중소 규모의 AI 추론 워크로드를 실행할 수 있어 소규모 및 중규모 모델 크기에 적합합니다. 지연율이 중요하지 않은 배치 또는 오프라인 처리, 중지연율(초~분)이나 저지연율(500밀리초~수 초) 응답 시간에는 CPU를 사용합니다.

5세대 AMD EPYC™ CPU

더 큰 모델과 더 높은 반응성을 위해 GPU 추가

모델 크기가 커지거나 응답 시간이 단축되면 맞춤형 데이터 센터 AI GPU를 추가해야 할 수 있습니다. AMD EPYC CPU와 AMD Instinct™ GPU를 결합하면 최대 200억~4,500억 개의 매개변수를 지원하는 모델 크기를 완벽하게 처리할 수 있습니다. CPU와 GPU를 결합하면 낮은 지연율과 실시간에 가까운(100밀리초~500밀리초) 응답률을 제공할 수 있습니다.

GPU용 AMD EPYC 서버 CPU

대규모 배포에 GPU 클러스터 사용

GPU 클러스터는 대형 모델, 실시간 워크로드, 복잡한 멀티 에이전트 파이프라인의 경우 높은 달러당 성능을 제공할 수 있습니다. AMD Instinct 플랫폼은 여러 개의 GPU를 사용하므로 약 450억 개 이상의 매개변수를 가진 모델에 적합합니다. 이러한 GPU 클러스터로 실시간에 가까운 납품과 실시간 응답률을 달성할 수 있습니다.

AMD Instinct GPU

AI 추론 워크로드	적합한 하드웨어
AI 추론 워크로드	CPU	CPU + PCIe 기반 GPU	GPU 클러스터
문서 처리 및 분류	✓
데이터 마이닝 및 분석	✓		✓
과학 시뮬레이션	✓
번역	✓
색인 생성	✓
콘텐츠 조정	✓
예측형 유지관리	✓		✓
가상 어시스턴트	✓	✓
챗봇	✓	✓
전문 에이전트	✓	✓
동영상 자막 제작	✓	✓
사기 탐지		✓	✓
의사 결정		✓	✓
동적 가격 설정		✓	✓
오디오 및 동영상 필터링		✓	✓
금융 거래			✓
통신 및 네트워킹			✓
자율 시스템			✓

The AI continuum: what infrastructure works best for inference? infographic cover

최상의 추론 하드웨어 찾기

워크로드 요구 사항에 따라 코어 수 CPU만 사용하거나 CPU와 GPU를 함께 사용하면 추론을 더욱 효과적으로 수행할 수 있습니다. 모델 크기 및 지연율 요구에 맞는 인프라에 대해 자세히 알아보세요.

인포그래픽 보기

CPU에서 실행되는 5개의 AI 추론 워크로드

최신 AMD EPYC 서버 CPU는 기존 머신 러닝, 컴퓨터 비전, AI 에이전트 등 다양한 AI 워크로드의 성능 요구 사항을 충족할 수 있습니다. CPU에서 원활하게 처리할 수 있는 다섯 가지 인기 있는 워크로드에 대해 알아보세요.

리스티클 읽기

5 AI Inference Workloads that Run on a CPU listicle cover

curved transparent to black top gradient divider

AMD EPYC 서버 CPU를 통한 빠르고 효율적인 전환

AMD EPYC 서버 CPU는 CPU 전용 서버로만 배포하든 대형 모델을 실행하는 GPU의 호스트로 사용하든 엔터프라이즈 AI 추론 워크로드를 가속화하는 최신 개방형 표준 기술로 설계되었습니다.

인텔 제온 6세대보다 추론, 엔드투엔드 AI, 머신러닝에서 성능이 우수한 5세대 AMD EPYC 서버 CPU

5세대 AMD EPYC 9965 서버 CPU와 인텔 제온 6980P를 비교합니다.

최대

89%

DeepSeek의 챗봇 성능 향상³

최대

33%

Llama 3.1 8B의 번역 사용 사례에서 추론 성능 향상⁴

최대

36%

Llama 3.2 1B의 번역 사용 사례에서 추론 성능 향상⁴

소규모 언어 모델
중규모 언어 모델
거대 언어 모델
포괄적인 AI 성능
기존의 머신 러닝

Llama 3.2 1B의 번역⁵

~1.36x

Llama 3.2 1B의 에세이⁵

~1.27x

5세대 AMD EPYC 9965

인텔 제온 6980P

Llama 3.1 8B의 번역⁴

~1.33x

GPT-J 6B⁶의 요약

최대 1.28배

5세대 AMD EPYC 9965

인텔 제온 6980P

DeepSeek-R1 671B의 챗봇³

최대 1.89배

DeppSeek-R1 671B의 에세이³

~1.71x

DeepSeek-R1 671B의 요약³

~1.41x

DeepSeek-R1 671B의 재작성³

약 1.20배

5세대 AMD EPYC 9965

인텔 제온 6980P

5세대 AMD EPYC 9965

인텔 제온 6980P

TPCx-AI@SF30 파생물¹⁰

~1.70x

XGBoost(Higgs)¹¹

~1.93x

Facebook AI 유사성 검색(FAISS)¹²

~1.60x

5세대 AMD EPYC 9965

인텔 제온 6980P

자주 묻는 질문

먼저 성능 요구 사항을 확인하세요. 분, 초, 밀리초 단위 중 어느 정도의 응답 속도가 필요한가요? 실행 중인 모델의 크기는 매개변수 기준으로 어느 정도인가요? 5세대 AMD EPYC CPU로 업그레이드하면 성능 요구 사항을 충족하고 GPU 하드웨어 비용을 절감할 수 있습니다.

실시간으로 응답이 필요하지 않은 경우 일괄 추론은 캠페인 성과 분석 또는 예측 유지 관리와 같은 대규모 및 장기 분석에 비용 효율적입니다. 금융 거래 및 자율 시스템과 같은 대화형 사용 사례를 지원하는 실시간 추론에는 GPU 가속기가 필요할 수 있습니다. CPU만 사용하면 배치 추론에서만 높은 성능을 발휘하지만 GPU는 실시간 추론에 최적화되어 있습니다.

CPU만으로도 최대 20억 개의 매개변수 모델과 중간 지연율 응답 시간(초~분)으로 추론할 수 있는 충분한 성능이 제공됩니다. 이는 많은 AI 어시스턴트, 챗봇, 에이전트에 충분합니다. 모델이 크거나 응답 시간이 이보다 빨라야 하는 경우 GPU 가속기를 추가하는 것이 좋습니다.

간단하게 말하자면 상황에 따라 다릅니다. 워크로드의 최대 성능을 이끌어낼 수 있는지 여부는 워크로드와 전문 지식에 따라 다릅니다. 이러한 점을 고려하면 일부 5세대 AMD EPYC 서버 CPU는 대규모 언어 모델(DeepSeek-R1 671B)³, 중규모 언어 모델(Lama 3.1 8B⁴, GPT-J 6B⁶), 소규모 언어 모델(Llama 3.2 1B⁵)을 비롯한 여러 인기 AI 워크로드에서 인텔 제온 6를 능가합니다.

AMD EPYC 서버 CPU에는 실리콘에 기반한 보안 기능을 제공하는 AMD Infinity Guard가 포함되어 있습니다.⁷ AMD Infinity Guard에는 널리 도입된 컨피덴셜 컴퓨팅 솔루션인 AMD 보안 암호 가상화(SEV)가 포함되어 있으며, 여기에는 데이터, AI 모델과 런타임 시 워크로드를 보호하는 데 도움이 되는 컨피덴셜 가상 머신(VM)이 사용됩니다.

AI의 전체 스펙트럼을 지원하는 AMD

AI 목표와 부합하도록 인프라 요구 사항을 설정하세요. AMD는 가장 광범위한 AI 포트폴리오, 개방형 표준 기반 플랫폼, 강력한 생태계를 갖추고 있으며, 이 모든 것이 성능 리더십에 기초하고 있습니다.

AMD EPYC™ 서버 CPU

AI를 위한 선도적인 CPU인¹³ AMD EPYC 서버 CPU는 GPU 플랫폼용 추론 프로세서 및 호스트로 탁월한 성능을 제공합니다.

AMD EPYC 서버 CPU 살펴보기

AMD Instinct™ GPU

PCIe 폼 팩터 또는 통합 클러스터로 제공되는 AMD Instinct™ GPU는 생성형 AI에 탁월한 효율성과 성능을 제공하므로 대규모 모델 학습과 고속 추론에 이상적입니다.

AMD Instinct GPU 살펴보기

AMD Pensando™ 네트워킹

AI에 적합하도록 특별히 설계된 AMD Pensando™ 개방형 네트워킹 솔루션은 진화하는 요구에 맞춰 확장할 수 있으며 상호 운용 가능한 고속 이더넷을 지원합니다.

AMD Pensando 네트워크 솔루션 살펴보기

AMD Versal™ Adaptive SoC

고도로 통합된 이 임베디드 응용 분야용 컴퓨팅 플랫폼에는 실시간 CPU 코어, 프로그래밍 가능한 로직 및 NoC(네트워크 온 칩), 머신 러닝용 AI 엔진이 포함되어 있으며, 맞춤형 하드웨어가 필요한 활용 사례에서 탁월한 시스템 수준의 성능을 제공합니다.

AMD Versal ACAP(Adaptive SoC) 살펴보기

AI 워크로드를 위한 데이터 보안

AI가 데이터 증가를 촉진하면서 고급 보안이 더욱 중요해지고 있습니다. 이러한 필요성은 개인 정보 보호 규정, 데이터 주권, 위반에 대한 엄격한 처벌에 대한 중요성이 높아지면서 더욱 커지고 있습니다. 실리콘 수준에 내장된 AMD Infinity Guard는 업계에서 가장 성숙한 컨피덴셜 컴퓨팅 솔루션인 AMD 보안 암호 가상화(SEV)⁷를 비롯해 AI에 필요한 보안 기능을 제공합니다.

AMD Infinity Guard 살펴보기

AMD EPYC 배포 옵션

AI 온프레미스에 대한 광범위한 생태계

AMD의 OEM 파트너에서 높은 코어 수와 고주파수 CPU를 갖춘 서버, 최고급 GPU 라인, 상호 운용 가능한 네트워크 솔루션 등 엔터프라이즈 AI 하드웨어를 찾아보세요.

모든 하드웨어 파트너 보기

클라우드에서 AI 확장

AI 워크로드용 AMD 기술 기반 가상 머신(VM)을 선택하여 클라우드를 최대한 활용할 수 있습니다.

모든 클라우드 파트너 보기

개방형 소프트웨어 개발을 위한 추론 프레임워크

개발자는 AMD ZenDNN 및 AMD ROCm™ 소프트웨어를 통해 원하는 프레임워크를 사용하여 애플리케이션 성능을 최적화할 수 있습니다.

리소스

AI 웨비나

온디맨드 웨비나를 통해 AMD EPYC 서버 CPU의 추론상 이점에 대해 자세히 알아보세요.

웨비나 시청하기

AI 문서

AMD EPYC 서버 CPU에 AI 추론을 배포하는 방법에 대한 솔루션 개요, 백서 등을 읽어 보세요.

모든 문서 보기

기술 문서 및 블로그

AMD EPYC 서버 CPU 기능, 도구, 튜닝을 추론 워크로드에 활용하는 방법에 대한 기술적인 세부 정보와 지침을 확인하세요.

기술 문서 및 블로그 방문

AMD TechTalk 팟캐스트

주요 기술 전문가가 설명하는 최신 AI 트렌드를 청취해 보세요.

지금 들어보기

AMD 데이터 센터 동향 구독하기

지금 구독

AMD EPYC 영업 전문가 연락 요청하기

AMD에 문의

각주

9xx5-169: Llama-3.3-70B 지연율 제한 처리율(goodput) 결과는 2025년 5월 14일 기준 AMD 내부 테스트에 기초합니다. 구성: Llama-3.3-70B, vLLM API 서버 v1.0, 데이터 세트: Sonnet3.5-SlimOrcaDedupCleaned, TP8, 최대 요청 512개(동적 배치), 첫 번째 토큰에 지연율 제한 시간(300ms, 400ms, 500ms, 600ms), OpenMP 128, 결과 단위 토큰/초. 2P AMD EPYC 9575F(총 코어 128개, 400W TDP, 프로덕션 시스템, 6000 MT/s에서 1.5TB 24x64GB DDR5-6400 실행, 2 x 25 GbE ConnectX-6 Lx MT2894, 4x 3.84TB Samsung MZWLO3T8HCLS-00A07 NVMe, Micron_7450_MTFDKCC800TFS 800GB NVMe for OS, Ubuntu 22.04.3 LTS, kernel=5.15.0-117-generic , BIOS 3.2, SMT=OFF, Determinism=power, mitigations=off) , NVIDIA H100 8대 사용. 2P 인텔 제온 8592+(총 코어 128개, 350W TDP, 프로덕션 시스템, 1TB 16x64GB DDR5-5600, 2 x 25GbE ConnectX-6 Lx(MT2894), 4x 3.84TB Samsung MZWLO3T8HCLS-00A07 NVMe, Micron_7450_MTFDKBA480TFR 480GB NVMe, Ubuntu 22.04.3 LTS, kernel-5.15.0-118-generic, SMT=OFF, Performance Bias, Mitigations=off), NVIDIA H100 8대 사용. 결과: CPU 300 400 500 600, 8592+ 0 126.43 1565.65 1987.19; 9575F 346.11 2326.21, 2531.38 2572.42, 상대 NA 18.40 1.62 1.29. 결과는 시스템 구성, 소프트웨어 버전, BIOS 설정 등의 요인에 따라 달라질 수 있습니다. ark.intel.com에 게시된 TDP 정보
Llama-3.2-1B-Instruct에서 사용된 병행 드래프트 모델(PARD) 기술. 구성: https://www.amd.com/en/developer/resources/technical-articles/2025/speculative-llm-inference-on-the-5th-gen-amd-epyc-processors-wit.html
9xx5-152A: Deepseek-R1-671B 처리율 결과는 2025년 1월 28일 기준 AMD 내부 테스트에 기초합니다. 구성: llama.cpp 프레임워크, 1.58비트 양자화(UD_IQ1_S, 1.56비트의 MOE), 배치 크기 1 및 4, 16C 인스턴스, 사용 사례 입/출력 토큰 구성: [챗봇 = 128/128, 에세이 = 128/1024, 요약 = 1024/128, 다시 쓰기 = 1024/1024]. 2P AMD EPYC 9965(총 384코어, 500W TDP, 참조 시스템, 3TB 24x128GB DDR5-6400, 2 x 40GbE Mellanox CX-7(MT2910) 3.84TB Samsung MZWLO3T8HCLS-00A07 NVMe, Ubuntu® 22.04.3 LTS | 5.15.0-105-generic), SMT=ON, Determinism=power, Mitigations=on) 2P AMD EPYC 9755(총 256코어, 500W TDP, 참조 시스템, 3TB 24x128GB DDR5-6400, 2 x 40 GbE Mellanox CX-7(MT2910) 3.84TB Samsung MZWLO3T8HCLS-00A07 NVMe, Ubuntu® 22.04.3 LTS | 5.15.0-105-generic), SMT=ON, Determinism=power, Mitigations=on) 2P 인텔 제온 6980P(총 256코어, 500W TDP, 프로덕션 시스템, 3TB 24x64GB DDR5-6400, 4 x 1GbE Broadcom NetXtreme BCM5719기가비트 이더넷 PCIe 3.84TB SAMSUNG MZWLO3T8HCLS-00A07 NVMe, Ubuntu 24.04.2 LTS | 6.13.2-061302-generic, SMT=ON, Performance Bias, Mitigations=on) 결과: BS=1 6980P 9755 9965 Rel9755 Rel9965 챗봇 47.31 61.88 70.344 1.308 1.487 에세이 42.97 56.04 61.608 1.304 1.434 요약 44.99 59.39 62.304 1.32 1.385 다시 쓰기 41.8 68.44 55.08 1.637 1.318 BS=4 6980P 9755 Rel9755 Rel9965 챗봇 76.01 104.46 143.496 1.374 1.888 에세이 67.89 93.68 116.064 1.38 1.71 요약 70.88 103.39 99.96 1.459 1.41 다시 쓰기65 87.9 78.12 1.352 1.202 결과는 시스템 구성, 소프트웨어 버전 및 BIOS 설정 등의 요인에 따라 달라질 수 있습니다.
9xx5-156: Llama3.1-8B 처리율 결과는 2025년 4월 8일 기준 AMD 내부 테스트에 기초합니다. Llama3.1-8B 구성: BF16, 배치 크기 32, 32C 인스턴스, 사용 사례 입력/출력 토큰 구성: [요약 = 1024/128, 챗봇 = 128/128, 번역 = 1024/1024, 에세이 = 128/1024]. 2P AMD EPYC 9965(총 코어 384개), 1.5TB 24x64GB DDR5-6400, 1.0Gbps NIC, 3.84TB Samsung MZWLO3T8HCLS-00A07, Ubuntu® 22.04.5 LTS, Linux 6.9.0-060900-generic, BIOS RVOT1004A(SMT=off, mitigations=on, Determinism=Power), NPS=1, ZenDNN 5.0.1 2P AMD EPYC 9755(총 코어 256개), 1.5TB 24x64GB DDR5-6400, 1.0Gbps NIC, 3.84TB Samsung MZWLO3T8HCLS-00A07, Ubuntu® 22.04.4 LTS, Linux 6.8.0-52-generic, BIOS RVOT1004A(SMT=off, mitigations=on, Determinism=Power), NPS=1, ZenDNN 5.0.1 2P Xeon 6980P(총 코어 256개), AMX On, 1.5TB 24x64GB DDR5-8800 MRDIMM, 10GBASE-T용 1.0Gbps 이더넷 컨트롤러 X710, Micron_7450_MTFDKBG1T9TFR 2TB, Ubuntu 22.04.1 LTS Linux 6.8.0-52-generic, BIOS 1.0(SMT=off, mitigations=on Performance Bias), IPEX 2.6.0 결과: CPU 6980P 9755 9965 요약 1 n/a1.093 번역 1 1.062 1.334 에세이 1 n/A 1.14 결과는 시스템 구성, 소프트웨어 버전 및 BIOS 설정 등의 요인에 따라 달라질 수 있습니다.
9xx5-166: Llama3.2-1B 처리율 결과는 2025년 4월 8일 기준 AMD 내부 테스트에 기초합니다. Llama3.3-1B 구성: BF16, 배치 크기 32, 32C 인스턴스, 사용 사례 입력/출력 토큰 구성: [요약 = 1024/128, 챗봇 = 128/128, 번역 = 1024/1024, 에세이 = 128/1024]. 2P AMD EPYC 9965(총 코어 384개), 1.5TB 24x64GB DDR5-6400, 1.0Gbps NIC, 3.84 TB Samsung MZWLO3T8HCLS-00A07, Ubuntu® 22.04.5 LTS, Linux 6.9.0-060900-generic, BIOS RVOT1004A(SMT=off, mitigations=on, Determinism=Power), NPS=1, ZenDNN 5.0.1, Python 3.10.2 2P 제온 6980P(총 코어 256개), AMX On, 1.5TB 24x64GB DDR5-8800 MRDIMM, 10GBASE-T용 1.0Gbps 이더넷 컨트롤러 X710, Micron_7450_MTFDKBG1T9TFR 2TB, Ubuntu 22.04.1 LTS Linux 6.8.0-52-generic, BIOS 1.0(SMT=off, mitigations=on, Performance Bias), IPEX 2.6.0, Python 3.12.3 결과: CPU 6980P 9965 요약 1 1.213 번역 1 1.364 에세이 1 1.271 결과는 시스템 구성, 소프트웨어 버전, BIOS 설정 등의 요인에 따라 달라질 수 있습니다.
9xx5-158: GPT-J-6B 처리율 결과는 2025년 4월 8일 기준 AMD 내부 테스트에 기초합니다. GPT-J-6B 구성: BF16, 배치 크기 32, 32C 인스턴스, 사용 사례 입력/출력 토큰 구성: [요약 = 1024/128, 챗봇 = 128/128, 번역 = 1024/1024, 에세이 = 128/1024]. 2P AMD EPYC 9965(총 코어 384개), 1.5TB 24x64GB DDR5-6400, 1.0Gbps NIC, 3.84TB Samsung MZWLO3T8HCLS-00A07, Ubuntu® 22.04.5 LTS, Linux 6.9.0-060900-generic, BIOS RVOT1004A, (SMT=off, mitigations=on, Determinism=Power), NPS=1, ZenDNN 5.0.1, Python 3.10.12 2P AMD EPYC 9755(총 코어 256개), 1.5TB 24x64GB DDR5-6400, 1.0Gbps NIC, 3.84 TB Samsung MZWLO3T8HCLS-00A07, Ubuntu® 22.04.4 LTS, Linux 6.8.0-52-generic, BIOS RVOT1004A(SMT=off, mitigations=on, Determinism=Power), NPS=1, ZenDNN 5.0.1, Python 3.10.12 2P 제온 6980P(총 코어 256개), AMX On, 1.5TB 24x64GB DDR5-8800 MRDIMM, 10GBASE-T용 1.0Gbps 이더넷 컨트롤러 X710, Micron_7450_MTFDKBG1T9TFR 2TB, Ubuntu 22.04.1 LTS Linux 6.8.0-52-generic, BIOS 1.0(SMT=off, mitigations=on, Performance Bias), IPEX 2.6.0, Python 3.12.3 결과: CPU 6980P 9755 9965 요약 1 1.034 1.279 챗봇 1 0.975 1.163 번역 1 1.021 0.93 에세이 1 0.978 1.108 캡션 1 0.913 1.12 전체 1 0.983 1.114 결과는 시스템 구성, 소프트웨어 버전, BIOS 설정 등의 요인에 따라 달라질 수 있습니다.
GD-183A AMD Infinity Guard 기능은 EPYC™ 프로세서 세대 및/또는 시리즈별로 차이가 있습니다. Infinity Guard 보안 기능은 운용을 위해 반드시 서버 OEM 및/또는 클라우드 서비스 제공업체에 의해 활성화되어야 합니다. 귀하의 OEM 또는 제공업체로 이러한 기능을 지원하는지 문의하세요. Infinity Guard에 대한 자세한 내용은 https://www.amd.com/en/products/processors/server/epyc/infinity-guard.html 페이지를 참조하세요.
9xx5-002F: SPECrate®2017_int_base 비교 수치는 2025년 12월 4일 기준 www.spec.org의 게시 점수에 기반한 것입니다. 아래 결과 및 구성의 형식은 다음과 같습니다. [프로세서], [코어], [TDP], [1Ku 가격(USD)], [SPECrate®2017)_int_base 점수], [SPECrate® 2017)_int_base 점수/CPU W], [SPECrate® 2017)_int_base 점수/1Ku 가격(USD)], [점수 링크]
2P AMD EPYC 9654, 96C, 360W, $8452 USD, 1830, 5.083, 0.217, https://www.spec.org/cpu2017/results/res2025q3/cpu2017-20250727-49206.html
2P AMD EPYC 9754, 128C, 360W, $10631 USD, 1950, 5.417, 0.183, https://www.spec.org/cpu2017/results/res2023q2/cpu2017-20230522-36617.html
2P AMD EPYC 9755, 128C, 500W, $10931 USD, 2840, 5.680, 0.260, https://www.spec.org/cpu2017/results/res2025q2/cpu2017-20250324-47223.html
2P AMD EPYC 9965, 192C, 500W, $11988 USD, 3230, 6.460, 0.269, https://www.spec.org/cpu2017/results/res2025q2/cpu2017-20250324-47086.html
2P 인텔 제온 6780E, 144C, 330W, $8513 USD, 1410, 4.273, 0.166, https://www.spec.org/cpu2017/results/res2024q3/cpu2017-20240811-44406.html
2P 인텔 제온 6980P, 128C, 500W, $12460 USD, 2510, 5.020, 0.201, https://www.spec.org/cpu2017/results/res2025q2/cpu2017-20250324-47099.html
2P 인텔 제온 Platinum 8592+, 64C, 350W, $11600 USD, 1130, 3.229, 0.097, https://www.spec.org/cpu2017/results/res2023q4/cpu2017-20231127-40064.html
SPEC®, SPEC CPU® 및 SPECrate®는 Standard Performance Evaluation Corporation의 등록 상표입니다. 자세한 사항은 www.spec.org를 참조하세요. 2025년 12월 9일 기준 AMD CPU 가격. 2025년 12월 9일 기준 인텔 CPU W 및 가격(https://ark.intel.com/).
9xx5-001: 2024년 9월 10일 실시한 AMD 내부 테스트를 기준으로, 고정된 주파수에서 나타난 기하 평균 성능 개선(IPC)입니다. - 선택된 24개 워크로드 세트를 사용하여 5세대 EPYC 세대 간 ML/HPC 서버 워크로드 IPC가 1.369배(기하 평균) 향상되었으며, 이는 대표적인 ML 서버 워크로드(기하 평균)와 대표적인 HPC 서버 워크로드(기하 평균)의 기하 평균입니다. "Genoa" 구성(모두 NPS1) "Genoa" 구성: EPYC 9654 BIOS TQZ1005D 12c12t(1c1t/CCD in 12+1), FF 3GHz, 12x DDR5-4800(2Rx4 64GB), 32Gbps xGMI; “Turin” config(모두 NPS1): EPYC 9V45 BIOS RVOT1000F 12c12t(1c1t/CCD in 12+1), FF 3GHz, 12x DDR5-6000(2Rx4 64GB), 32Gbps xGMI 6.8.0-40-generic kernel OS를 사용하는 Ubuntu 22.04에서 성능 결정성과 성능 Governor를 활용하여 24.04 및 6.8.0-40-generic kernel을 사용하는 LAMMPS, HPCG, NAMD, OpenFOAM, Gromacs를 제외한 모든 워크로드에 적용합니다. SPEC® 및 SPECrate®는 Standard Performance Evaluation Corporation의 등록 상표입니다. 자세한 사항은 spec.org에서 확인할 수 있습니다.
9xx5-151: 2025년 4월 1일 기준 여러 VM 인스턴스를 실행하는 AMD 내부 테스트에 기초한 TPCxAI @SF30 다중 인스턴스 32C 인스턴스 크기 처리율 결과. 종합적인 엔드 투 엔드 AI 처리율 테스트는 TPCx-AI 벤치마크에서 파생되었으며, 엔드 투 엔드 AI 처리율 테스트 결과가 TPCx-AI 스펙을 준수하지 않기 때문에 게시된 TPCx-AI 결과와 비교할 수 없습니다. 2P AMD EPYC 9965(6067.53 총 AIUCpm, 총 코어 384개, 500W TDP, AMD 참조 시스템, 1.5TB 24x64GB DDR5-6400, 2 x 40GbE Mellanox CX-7(MT2910), 3.84TB Samsung MZWLO3T8HCLS-00A07 NVMe, Ubuntu® 24.04 LTS kernel 6.13, SMT=ON, Determinism=power, Mitigations=on) 2P AMD EPYC 9755(4073.42 총 AIUCpm, 총 코어 256개, 500W TDP, AMD 참조 시스템, 1.5TB 24x64GB DDR5-6400, 2 x 40GbE Mellanox CX-7(MT2910) 3.84TB Samsung MZWLO3T8HCLS-00A07 NVMe, Ubuntu 24.04 LTS kernel 6.13, SMT=ON, Determinism=power, Mitigations=on) 2P Intel Xeon 6980P (3550.50 총 AIUCpm, 총 코어 256개, 500W TDP, 프로덕션 시스템, 1.5TB 24x64GB DDR5-6400, 4 x 1GbE Broadcom NetXtreme BCM5719 기가비트 이더넷 PCIe 3.84TB SAMSUNG MZWLO3T8HCLS-00A07 NVMe, Ubuntu 24.04 LTS kernel 6.13, SMT=ON, Performance Bias, Mitigations=on) 결과는 시스템 구성, 소프트웨어 버전, BIOS 설정 등을 포함하되 이에 국한되지 않는 요인에 따라 달라질 수 있습니다. TPC, TPC Benchmark 및 TPC-H는 Transaction Processing Performance Council의 상표입니다.
9xx5-162: XGBoost(시간당 실행) 처리율 결과는 2025년 4월 8일 기준 AMD 내부 테스트에 기초합니다. XGBoost 구성: v1.7.2, Higgs 데이터 세트, 32코어 인스턴스, FP32 2P AMD EPYC 9965(총 코어 384개), 1.5TB 24x64GB DDR5-6400(6000MT/s), 1.0Gbps NIC, 3.84TB Samsung MZWLO3T8HCLS-00A07, Ubuntu® 22.04.5 LTS, Linux 5.15 kernel, BIOS RVOT1004A(SMT=off, mitigations=on, Determinism=Power), NPS=1 2P AMD EPYC 9755(총 코어 256개), 1.5TB 24x64GB DDR5-6400(6000MT/s), 1.0Gbps NIC, 3.84TB Samsung MZWLO3T8HCLS-00A07, Ubuntu® 22.04.4 LTS, Linux 5.15 kernel, BIOS RVOT1004A(SMT=off, mitigations=on, Determinism=Power), NPS=1 2P 제온 6980P(총 코어 256개), 1.5TB 24x64GB DDR5-8800 MRDIMM, 10GBASE-T용 1.0Gbps 이더넷 컨트롤러 X710, Micron_7450_MTFDKBG1T9TFR 2TB, Ubuntu 22.04.1 LTS Linux 6.8.0-52-generic, BIOS 1.0(SMT=off, mitigations=on, Performance Bias) 결과: CPU 처리율 상대 2P 6980P 400 1 2P 9755 436 1.090 2P 9965 771 1.928 결과는 시스템 구성, 소프트웨어 버전, BIOS 설정 등의 요인에 따라 달라질 수 있습니다.
9xx5-164: FAISS(시간당 실행) 처리율 결과는 2025년 4월 8일 기준 AMD 내부 테스트에 기초합니다. FAISS 구성: v1.7.2, sift1m 데이터 세트, 32코어 인스턴스, FP32 2P AMD EPYC 9965(총 코어 384개), 1.5TB 24x64GB DDR5-6400(6000MT/s), 1.0Gbps NIC, 3.84TB Samsung MZWLO3T8HCLS-00A07, Ubuntu® 22.04.5 LTS, Linux 5.15 kernel, BIOS RVOT1004A(SMT=off, mitigations=on, Determinism=Power), NPS=1 2P AMD EPYC 9755(총 코어 256개), 1.5TB 24x64GB DDR5-6400(6000MT/s), 1.0Gbps NIC, 3.84TB Samsung MZWLO3T8HCLS-00A07, Ubuntu® 22.04.4 LTS, Linux 5.15 kernel, BIOS RVOT1004A(SMT=off, mitigations=on, Determinism=Power), NPS=1 2P 제온 6980P(총 코어 256개), 1.5TB 24x64GB DDR5-8800 MRDIMM, 10GBASE-T용 1.0Gbps 이더넷 컨트롤러 X710, Micron_7450_MTFDKBG1T9TFR 2TB, Ubuntu 22.04.1 LTS Linux 6.8.0-52-generic, BIOS 1.0(SMT=off, mitigations=on, Performance Bias) 결과: 처리율 상대 2P 6980P 36.63 1 2P 9755 46.86 1.279 2P 9965 58.6 1.600 결과는 시스템 구성, 소프트웨어 버전, BIOS 설정 등의 요인에 따라 달라질 수 있습니다.
9xx5-012: 2024년 9월 5일 기준 여러 VM 인스턴스를 실행하는 AMD 내부 테스트에 기초한 TPCxAI @SF30 다중 인스턴스 32C 인스턴스 크기 처리율 결과. 종합적인 엔드 투 엔드 AI 처리율 테스트는 TPCx-AI 벤치마크에서 파생되었으며, 엔드 투 엔드 AI 처리율 테스트 결과가 TPCx-AI 스펙을 준수하지 않기 때문에 게시된 TPCx-AI 결과와 비교할 수 없습니다.
2P AMD EPYC 9965(총 384코어), 12개 32C 인스턴스, NPS1, 1.5TB 24x64GB DDR5-6400(6000 MT/s), 1DPC, 1.0Gbps NetXtreme BCM5720 기가비트 이더넷 PCIe, 3.5TB Samsung MZWLO3T8HCLS-00A07 NVMe®, Ubuntu® 22.04.4 LTS, 6.8.0-40-generic(tuned-adm profile throughput-performance, ulimit -l 198096812, ulimit -n 1024, ulimit -s 8192), BIOS RVOT1000C(SMT=off, Determinism=Power, Turbo Boost=Enabled)
2P AMD EPYC 9755(총 256코어), 8개 32C 인스턴스, NPS1, 1.5TB 24x64GB DDR5-6400(6000 MT/s), 1DPC, 1.0Gbps NetXtreme BCM5720 기가비트 이더넷 PCIe, 3.5TB Samsung MZWLO3T8HCLS-00A07 NVMe®, Ubuntu 22.04.4 LTS, 6.8.0-40-generic(tuned-adm profile throughput-performance, ulimit -l 198096812, ulimit -n 1024, ulimit -s 8192), BIOS RVOT0090F(SMT=off, Determinism=Power, Turbo Boost=Enabled)
2P AMD EPYC 9654(총 192코어) 6개 32C 인스턴스, NPS1, 1.5TB 24x64GB DDR5-4800, 1DPC, 2 x 1.92TB Samsung MZQL21T9HCJR-00A07 NVMe, Ubuntu 22.04.3 LTS, BIOS 1006C(SMT=off, Determinism=Power)
vs. 2P 제온 Platinum 8592+(총 128코어), 4개 32C 인스턴스, AMX 켜짐, 1TB 16x64GB DDR5-5600, 1DPC, 1.0Gbps NetXtreme BCM5719 기가비트 이더넷 PCIe, 3.84TB KIOXIA KCMYXRUG3T84 NVMe, Ubuntu 22.04.4 LTS, 6.5.0-35 generic(tuned-adm profile throughput-performance, ulimit -l 132065548, ulimit -n 1024, ulimit -s 8192), BIOS ESE122V(SMT=off, Determinism=Power, Turbo Boost = Enabled)
결과:
CPU 중간값 상대 세대 간
Turin 192C, 12 Inst 6067.531 3.775 2.278
Turin 128C, 8 Inst 4091.85 2.546 1.536
Genoa 96C, 6 Inst 2663.14 1.657 1
EMR 64C, 4 Inst 1607.417 1 NA
결과는 시스템 구성, 소프트웨어 버전 및 BIOS 설정에 따라 달라질 수 있습니다. TPC, TPC 벤치마크 및 TPC-C는 Transaction Processing Performance Council의 상표입니다.

데이터 센터

비즈니스 시스템

개인 및 게이밍

Embedded

리소스

GPU 가속기

적응형 가속기

DPU 가속기

이더넷 어댑터

워크스테이션

데스크탑

랩탑

리소스

FPGA 및 적응형 SoC

시스템 온 모듈(SOM)

기술

개발자 리소스

평가 보드 및 킷

프로세서 툴

그래픽 툴 및 앱

FPGA 및 적응형 SoC 툴

지적 재산 및 앱

GPU 가속기 툴 및 앱

이더넷 어댑터 도구

개관

데이터 센터 및 클라우드용

에지 및 엔드포인트용

개발자용

업계

업계

업계

업계

Industrias

워크로드

게이밍

시스템

기술

리소스

EPYC 프로세서

Radeon 그래픽 및 AMD 칩셋

FPGA 및 적응형 SoC

Alveo 가속기 및 Kria SOM

Ryzen 프로세서

이더넷 어댑터

개관

프로세서

가속기

임베디드 제품

그래픽

개관

제품별 리소스

유형별 리소스

파트너 정보

AMD 글로벌 지원

프로세서 및 그래픽

가속기

FPGA 및 적응형 SoC

게이밍 및 개인 컴퓨팅

적응형 및 임베디드 컴퓨팅

Get AMD Fan Gear

Buy Direct From AMD

Buy Direct From AMD

Buy Direct From AMD

Buy Direct From AMD

Buy Direct From AMD

AI 추론 워크로드를 AMD EPYC™ 서버 CPU로 이동

개요

서로 다른 추론 워크로드에 가장 적합한 하드웨어는 무엇입니까?

최상의 추론 하드웨어 찾기

CPU에서 실행되는 5개의 AI 추론 워크로드

AMD EPYC 서버 CPU를 통한 빠르고 효율적인 전환

인텔 제온 6세대보다 추론, 엔드투엔드 AI, 머신러닝에서 성능이 우수한 5세대 AMD EPYC 서버 CPU

자주 묻는 질문

컴퓨팅 비용을 크게 높이지 않고 추론 성능을 개선하려면 어떻게 해야 하나요?

실시간 추론과 배치 추론 중 어떤 워크로드가 가장 적합한가요? 이것이 인프라 선택에 어떤 영향을 미치나요?

추론 워크로드에 CPU만 사용해도 충분한가요? 언제 가속기를 추가해야 하나요?

AMD EPYC과 인텔 제온 중 어느 제품의 추론 성능이 더 높은가요?

추론 워크로드의 보안을 어떻게 보장할 수 있나요?

AI의 전체 스펙트럼을 지원하는 AMD

AMD EPYC 배포 옵션