다음에는 무엇이 기다리고 있을까요?

400개 이상의 세계 기록을 수립한 AMD가 AMD EPYC™ 프로세서를 어떻게 개선할 수 있을지 궁금하실 것입니다.1 지금까지 제작된 서버 프로세서 중 가장 강력한 성능을 자랑하는 프로세서를 어떻게 더욱 발전시킬 수 있을까요?1 'Zen 5' 아키텍처와 이것이 고객에게 제공하는 모든 이점을 활용하면 가능합니다.

5세대 AMD EPYC™ 프로세서를 소개합니다

AI와 중요 비즈니스 워크로드를 위해 설계된 5세대 AMD EPYC™ 프로세서가 성능과 효율성으로 이미 수백 가지 세계 기록을 세운 제품군을 통해 차세대 서버 CPU를 선보입니다.1 풍부한 이력에 기반한 AMD EPYC™ 9005 시리즈 프로세서는 'Zen 5' 아키텍처에 힘입어 혁신적인 성능을 발휘합니다.

최대 192개 코어, 384개 스레드, 5GHz 최대 부스트 주파수를 제공하므로 고객은 이 새로운 프로세서가 상상할 수 있는 사실상 모든 비즈니스 요구 사항을 지원할 것으로 기대할 수 있습니다.2 이전 세대 EPYC 제품보다 더 많은 코어와 훨씬 더 높은 주파수를 제공할 뿐만 아니라 더 빠른 DRAM도 지원하므로 메모리에 민감한 워크로드에 강화된 기능을 제공합니다.

5세대 AMD EPYC 프로세서를 사용하여 손쉽게 액세스하고 배포할 수 있는 서버는 업계 최고의 성능과 밀도, 효율성을 제공하므로, 기업 AI 활성화 이니셔티브와 비즈니스 필수 애플리케이션부터 대규모 클라우드 기반 인프라 지원 기능 제공에 이르기까지 어떤 경우의 배포도 지원할 수 있습니다.

익숙한 x86 소프트웨어 호환성으로 통합된 라인업 덕분에 고객은 대대적인 x86 소프트웨어 수정 없이도 일상적인 비즈니스를 지원하는 공통의 ISA를 통해 필요한 것을 필요한 위치에 배포할 수 있습니다.

AMD EPYC 9005 프로세서 기반 시스템은 데이터 센터 통합 및 현대화부터 점점 까다로워지는 엔터프라이즈 애플리케이션 요구 사항까지 다양한 이니셔티브를 지원할 전망입니다. 이 모든 것은 효율성이 뛰어난 'Zen 5' 아키텍처 덕분입니다. 이 강력한 플랫폼은 기업 분야에서 증가하는 AI 요구 사항을 수용할 뿐만 아니라 에너지 효율성을 개선하고 데이터 센터 확장을 관리한다는 비즈니스 목표도 지원합니다.

성능, 효율성, 결과 등 모든 면에서 손색이 없는 서버 CPU입니다. 

모델 번호

코어

최대 스레드

L3 캐시(MB)

기본 TDP(W)

DDR 채널/최대 메모리 용량 시스템(2DPC)

최대 DDR5 주파수(MHz)(1DPC)

PCIe® Gen 5(레인)

소켓 밀도

9965

192

384

384

500

12/9TB

6000

160

2

9845

160

320

320

400

12/9TB

6000

160

2

9825

144

288

384

400

12/9TB

6000

160

2

9755

128

256

512

500

12/9TB

6000

160

2

9745

128

256

256

400

12/9TB

6000

160

2

9655

96

192

384

400

12/9TB

6000

160

2

9645

96

192

256

320

12/9TB

6000

160

2

9655P

96

192

384

320

12/9TB

6000

128

1

9565

72

144

384

400

12/9TB

6000

160

2

9575F

64

128

256

400

12/9TB

6000

160

2

9555

64

128

256

360

12/9TB

6000

160

2

9555P

64

128

256

320

12/9TB

6000

128

1

9535

64

128

256

300

12/9TB

6000

160

2

9475F

48

96

256

360

12/9TB

6000

160

2

9455

48

96

256

300

12/9TB

6000

160

2

9455P

48

96

192

300

12/9TB

6000

128

1

9365

36

72

192

300

12/9TB

6000

160

2

9375F

32

64

256

320

12/9TB

6000

160

2

9355

32

64

256

280

12/9TB

6000

160

2

9355P

32

64

256

280

12/9TB

6000

128

1

9335

32

64

192

210

12/9TB

6000

160

2

9275F

24

48

256

320

12/9TB

6000

160

2

9255

24

48

128

200

12/9TB

6000

160

2

9175F

16

32

256

320

12/9TB

6000

160

2

9135

16

32

128

200

12/9TB

6000

160

2

9125

8

16

256

165

12/9TB

6000

160

2

9015

8

16

64

155

12/9TB

6000

160

2

 

성능: 고객을 위해 그리는 명확한 그림

AI가 비즈니스에서 차지하는 역할이 점점 더 중요해지는 상황에서 고객은 서버 인프라를 사용해 기존 워크로드 외에 AI도 활용할 수 있는지 파악할 필요가 있습니다.

AMD EPYC™ 9575F 프로세서와 같은 새로운 AMD EPYC 프로세서는 클럭 주기당 명령(IPC) 성능에 있어 이전 세대 대비 두 자릿수의 이득을 제공하며, 5세대 AMD EPYC 프로세서의 최신 'Zen 5' 코어는 ML, HPC, 엔터프라이즈 워크로드에서 성능을 크게 향상하도록 설계되었습니다.3

경쟁 제품과 비교했을 때 이와 같이 새로운 프로세서는 다양한 사용 사례에서 혁신적인 AI 처리율 성능을 발휘하는 등 기업이 놀라운 결과를 달성하는 데 도움이 됩니다. 일례로, AMD 테스트를 통해 진행한 TPCx-AI 벤치마크에서 192C AMD EPYC™ 9965 프로세서가 탑재된 2P 서버는 64C 인텔 제온 Platinum 8592+ 탑재 2P 서버 대비 분당 최대 3.8배 더 많은 AI 테스트 케이스를 제공합니다.4

GPU 가속기를 호스팅할 경우 2개의 AMD EPYC 9575F CPU가 Llama3.1를 실행하는 2개의 인텔® 제온 ® 8592+ CPU 대비 최대 20% 더 많은 추론 요청을 처리하고 학습 시간은 15% 더 빨라집니다.5,6

성능이 돋보인다고 해서 효율성을 소홀히 하는 것은 아닙니다. AMD EPYC 9005 시리즈 프로세서는 에너지 효율적인 서버 솔루션을 제공합니다. 실제로 AMD EPYC 9965 CPU를 사용하는 2P 서버는 인텔® 제온® 8592+ CPU 탑재 서버 대비 CPU 와트당 추정 정수 성능이 1.8배 높습니다.7

새로운 세대의 최첨단 AMD EPYC 프로세서가 업무 수행 방식을 혁신합니다. AI의 시대에 고객은 뒤처질 여유가 없습니다. 자세히 알아보려면 AMD 담당자에게 문의하거나 AMD.com을 방문하시기 바랍니다.

AMD Arena


AMD Ryzen™ PRO, AMD EPYC™, AMD Instinct™ 등에 대한 교육을 통해 AMD 제품 지식을 향상하세요.

각주
  1. AMD EPYC 프로세서가 보유한 성능 세계 기록의 전체 목록은 amd.com/worldrecords에서 확인할 수 있습니다.

  2. AMD EPYC 프로세서의 최대 부스트는 일반적인 작동 조건 하의 서버 시스템 환경에서 임의의 단일 코어가 달성할 수 있는 최대 주파수입니다. EPYC-018

  3. 9xx5-001: 2024년 9월 10일 실시한 AMD 내부 테스트를 기준으로, 고정된 주파수에서 나타난 기하 평균 성능 개선(IPC)입니다.

  4. - 5세대 EPYC CPU 엔터프라이즈 및 클라우드 서버 워크로드는 선택된 36개 워크로드 세트를 사용하여 세대별 IPC가 1.170배 향상되었습니다(기하 평균). 이는 SPECrate®2017_int_base(기하 평균)의 전체 및 모든 하위 집합에 대한 추정 점수, SPECrate®2017_fp_base(기하 평균)의 전체 및 모든 하위 집합에 대한 추정 점수, 서버 측 Java 다중 인스턴스 최대 ops/초, 대표적 클라우드 서버 워크로드(기하 평균), 대표적 엔터프라이즈 서버 워크로드(기하 평균)에 대한 점수의 기하 평균입니다. 

    "Genoa" 구성(모두 NPS1): EPYC 9654 BIOS TQZ1005D 12c12t(12+1에서 1c1t/CCD), FF 3GHz, 12x DDR5-4800(2Rx4 64GB), 32Gbps xGMI,

    "Turin" 구성(모두 NPS1): EPYC 9V45    BIOS RVOT1000F 12c12t(12+1에서 1c1t/CCD), FF 3GHz, 12x DDR5-6000(2Rx4 64GB), 32Gbps xGMI 

    Ubuntu® 22.04와 6.8.0-40-generic kernel OS에서 모든 워크로드에 대해 성능 결정성 및 성능 Governor 활용.

    - 선택된 24개 워크로드 세트를 사용하여 5세대 EPYC 세대별 ML/HPC 서버 워크로드 IPC가 1.369배(기하 평균) 향상되었으며, 이는 대표적인 ML 서버 워크로드(기하 평균)와 대표적인 HPC 서버 워크로드(기하 평균)의 기하 평균입니다.

    "Genoa" 구성(모두 NPS1) "Genoa" 구성: EPYC 9654 BIOS TQZ1005D 12c12t(12+1에서 1c1t/CCD), FF 3GHz, 12x DDR5-4800(2Rx4 64GB), 32Gbps xGMI,

    "Turin" 구성(모두 NPS1):   EPYC 9V45 BIOS RVOT1000F 12c12t(12+1에서 1c1t/CCD), FF 3GHz, 12x DDR5-6000(2Rx4 64GB), 32Gbps xGMI 

    24.04와 6.8.0-40-generic kernel을 사용하는 LAMMPS, HPCG, NAMD, OpenFOAM, Gromacs를 제외한 모든 워크로드에 대해 Ubuntu 22.04와 6.8.0-40-generic kernel OS에서 성능 결정성 및 성능 Governor 활용.

    SPEC® 및 SPECrate®는 Standard Performance Evaluation Corporation의 등록 상표입니다. 자세한 사항은 spec.org에서 확인할 수 있습니다.

  5. 9xx5-012: 2024년 9월 5일 기준 여러 VM 인스턴스를 실행하는 AMD 내부 테스트에 기초한 TPCxAI @SF30 다중 인스턴스 32C 인스턴스 크기 처리율 결과. 종합적인 엔드 투 엔드 AI 처리율 테스트는 TPCx-AI 벤치마크에서 파생되었으며, 엔드 투 엔드 AI 처리율 테스트 결과가 TPCx-AI 스펙을 준수하지 않기 때문에 게시된 TPCx-AI 결과와 비교할 수 없습니다.
  6. 2P AMD EPYC 9965(총 384개 코어), 12개 32C 인스턴스, NPS1, 1.5TB 24x64GB DDR5-6400(6000 MT/s), 1DPC, 1.0Gbps NetXtreme BCM5720 기가비트 이더넷 PCIe, 3.5TB Samsung MZWLO3T8HCLS-00A07 NVMe®, Ubuntu® 22.04.4 LTS, 6.8.0-40-generic(tuned-adm profile throughput-performance, ulimit -l 198096812, ulimit -n 1024, ulimit -s 8192), BIOS RVOT1000C(SMT=꺼짐, 결정성=Power, 터보 부스트=사용)

    2P AMD EPYC 9755(총 256개 코어), 8개 32C 인스턴스, NPS1, 1.5TB 24x64GB DDR5-6400(6000 MT/s), 1DPC, 1.0Gbps NetXtreme BCM5720 기가비트 이더넷 PCIe, 3.5TB Samsung MZWLO3T8HCLS-00A07 NVMe®, Ubuntu 22.04.4 LTS, 6.8.0-40-generic(tuned-adm profile throughput-performance, ulimit -l 198096812, ulimit -n 1024, ulimit -s 8192), BIOS RVOT0090F(SMT=꺼짐, 결정성=Power, 터보 부스트=사용)

    2P AMD EPYC 9654(총 192개 코어) 6개 32C 인스턴스, NPS1, 1.5TB 24x64GB DDR5-4800, 1DPC, 2 x 1.92TB Samsung MZQL21T9HCJR-00A07 NVMe, Ubuntu 22.04.3 LTS, BIOS 1006C(SMT=꺼짐, 결정성=Power)

    2P Xeon Platinum 8592+(총 128개 코어), 4개 32C 인스턴스, AMX 켜짐, 1TB 16x64GB DDR5-5600, 1DPC, 1.0Gbps NetXtreme BCM5719 기가비트 이더넷 PCIe, 3.84TB KIOXIA KCMYXRUG3T84 NVMe, Ubuntu 22.04.4 LTS, 6.5.0-35 generic(tuned-adm profile throughput-performance, ulimit -l 132065548, ulimit -n 1024, ulimit -s 8192), BIOS ESE122V (SMT=꺼짐, 결정성=Power, 터보 부스트 = 사용)

    결과:

    CPU 중간값 상대 세대별

    Turin 192C, 12 Inst 6067.531 3.775 2.278

    Turin 128C, 8 Inst 4091.85 2.546 1.536

    Genoa 96C, 6 Inst 2663.14 1.657 1

    EMR 64C, 4 Inst 1607.417 1 NA

    결과는 시스템 구성, 소프트웨어 버전 및 BIOS 설정 등의 요인에 따라 달라질 수 있습니다. TPC, TPC 벤치마크 및 TPC-C는 Transaction Processing Performance Council의 상표입니다.

  7. 9xx5-014: Llama3.1-70B 추론 처리율 결과는 2024년 9월 1일 기준 AMD 내부 테스트에 기초합니다.
  8. Llama3.1-70B 구성: TensorRT-LLM 0.9.0, nvidia/cuda 12.5.0-devel-ubuntu22.04, FP8, 입력/출력 토큰 구성(사용 사례): [BS=1024 I/O=128/128, BS=1024 I/O=128/2048, BS=96 I/O=2048/128, BS=64 I/O=2048/2048]. 결과는 초당 토큰 수입니다.

    2P AMD EPYC 9575F    (총 128개 코어), 8x NVIDIA H100 80GB HBM3, 1.5TB 24x64GB DDR5-6000, 1.0Gbps 3TB Micron_9300_MTFDHAL3T8TDP NVMe®, BIOS T20240805173113(결정성=Power,SR-IOV=켜짐), Ubuntu 22.04.3 LTS, kernel=5.15.0-117-generic(mitigations=off, cpupower frequency-set -g performance, cpupower idle-set -d 2, echo 3> /proc/syss/vm/drop_caches),

    2P 인텔 제온 Platinum 8592+(총 128개 코어), 8x NVIDIA H100 80GB HBM3, 1TB 16x64GB DDR5-5600, 3.2TB Dell Ent NVMe® PM1735a MU, Ubuntu 22.04.3 LTS, kernel-5.15.0-118-generic(processor.max_cstate=1, intel_idle.max_cstate=0 mitigations=off, cpupower frequency-set -g performance), BIOS 2.1(최대 성능, SR-IOV=켜짐),

    I/O 토큰 배치 크기 EMR Turin Relative

    128/128 1024 814.678 1101.966 1.353

    128/2048 1024 2120.664 2331.776 1.1

    2048/128 96 114.954 146.187 1.272

    2048/2048 64 333.325 354.208 1.063

    평균 처리율은 1.197배 증가했습니다.

    결과는 시스템 구성, 소프트웨어 버전 및 BIOS 설정 등의 요인에 따라 달라질 수 있습니다.

  9. 9xx5-015: Llama3.1-8B(BF16, 최대 시퀀스 길이 1024) 교육 테스트 결과는 2024년 9월 5일 기준 AMD 내부 테스트에 기초합니다.
  10. Llama3.1-8B 구성: 최대 시퀀스 길이 1024, BF16, Docker: huggingface/transformers-pytorch-gpu:latest

    2P AMD EPYC 9575F    (총 128개 코어), 8x NVIDIA H100 80GB HBM3, 1.5TB 24x64GB DDR5-6000, 1.0Gbps 3TB Micron_9300_MTFDHAL3T8TDP NVMe®, BIOS T20240805173113(결정성=Power,SR-IOV=켜짐), Ubuntu 22.04.3 LTS, kernel=5.15.0-117-generic(mitigations=off, cpupower frequency-set -g performance, cpupower idle-set -d 2, echo 3> /proc/syss/vm/drop_caches),

    31.79 교육 샘플/초

    2P 인텔 제온 Platinum 8592+(총 128개 코어), 8x NVIDIA H100 80GB HBM3, 1TB 16x64GB DDR5-5600, 3.2TB Dell Ent NVMe® PM1735a MU, Ubuntu 22.04.3 LTS, kernel-5.15.0-118-generic(processor.max_cstate=1, intel_idle.max_cstate=0 mitigations=off, cpupower frequency-set -g performance), BIOS 2.1(최대 성능, SR-IOV=켜짐),

    27.74 교육 샘플/초

    평균 처리율은 1.146배 증가했습니다. 

    결과는 시스템 구성, 소프트웨어 버전 및 BIOS 설정 등의 요인에 따라 달라질 수 있습니다.

  11. 9xx5-002a: SPECrate®2017_int_base 비교는 내부 추정 AMD 레퍼런스 플랫폼 측정치와 2024년 9월 5일 기준www.spec.org에 게시된 점수에 기초합니다.

2P AMD EPYC 9965(2870 추정 SPECrate®2017_int_base, 384개 전체 코어, 500W TDP) 1.5TB 24x64GB 2Rx4 PC5-6400B-R(6000MT/s로 실행, 3.84TB NVMe, Ubuntu® 24.04 LTS 커널 6.8.30-41-generic, AOCC v5.0.0, 5.740 추정 SPECrate®2017_int_base/CPU W) 비교

2P 인텔 제온 Platinum 8592+(1130 SPECrate®2017_int_base, 총 128개 코어, 350W TDP) 3.229 SPECrate®2017_int_base/CPU W, http://spec.org/cpu2017/results/res2023q4/cpu2017-20231127-40064.html)

EPYC 9965 vs 8592+

- 2.540배의 추정 성능

- CPU W당 1.778배의 추정 성능

게시된 2P AMD EPYC 9754(1950 SPECrate®2017_int_base, 총 256개 코어, 360W TDP) 5.417 SPECrate®2017_int_base/CPU W, http://spec.org/cpu2017/results/res2023q2/cpu2017-20230522-36617.html)

EPYC 9754 vs 8592+

- 1.725배의 성능

- CPU W당 1.678배의 성능

세대별(EPYC 9965 vs EPYC 9754)

- 1.472배의 성능

- CPU W당 1.060배의 성능

SPEC®, SPEC CPU® 및 SPECrate®는 Standard Performance Evaluation Corporation의 등록 상표입니다. 자세한 사항은 www.spec.org를 참조하세요. 인텔 CPU TDP는 https://ark.intel.com/을 참조하세요.