가장 진보된 AMD AI 소프트웨어 스택

최신 알고리즘 및 모델

추론 향상, 주의 알고리즘, 희소 MOE를 통한 효율성 개선

AMD Instinct™ MI350 시리즈 지원

AMD CDNA 4 아키텍처, 고급 HBM으로 새로운 데이터 유형 지원

AI 확장을 위한 고급 기능

원활한 분산 추론, MoE 학습, 대규모 강화 학습

AI 수명 주기

다양한 산업 전반에 걸쳐 확장성을 제공하는 간소화된 엔터프라이즈 AI 및 클러스터 관리

AMD Ryzen™ AI 및 AMD Radeon™ 그래픽 지원

다양한 애플리케이션 요구를 위한 종합 엔드포인트 AI 솔루션

세대 간 성능 도약

ROCm 7 및 ROCm 6 비교

3.5배 평균 성능 향상
3.2
3.4배
3.8배
Llama 3.1 70B
Qwen2-72B
DeepSeek R1
추론¹
3배 평균 성능 향상
3배
3배
3.1배
Llama 2 70B
Llama 3.1 8B
Qwen1.5 7B
학습²

AMD Instinct™ MI350 시리즈 지원

AMD Instinct™ MI350 시리즈 GPU 강화

AMD Instinct MI350X 플랫폼과 오픈 랙 인프라의 원활한 통합을 강화하여 신속한 배포와 대규모 AI 성능 최적화를 지원합니다.

AMD Instinct™ MI350X Accelerators

엔터프라이즈 AI 확장

data center

개방형 생태계를 통한 분산 추론

ROCm 소프트웨어 플랫폼은 vLLM-d, DeepEP, SGLang, GPU 직접 액세스를 통해 배치, 노드, 모델 전반에 걸쳐 랙 스케일에서 최고의 처리량을 제공합니다.

woman in data center

AI 수명 주기를 위한 ROCm

ROCm 소프트웨어는 엔터프라이즈 AI 프레임워크와 통합되어 운영 플랫폼 및 클러스터 관리를 비롯하여 ROCm 엔터프라이즈 AI를 포함하는 프로덕션 AI를 위한 완전 오픈 소스 엔드 투 엔드 워크플로를 제공합니다.

vertical-gradient-1.png

엔드포인트의 AI

AMD Ryzen™ AI 및 AMD Radeon™ 그래픽 전반에 걸친 ROCm 생태계 확장

ROCm 엔드포인트 AI 생태계는 최신 Radeon RX 9000 시리즈를 포함한 AMD Radeon 제품에서 Linux, Windows를 비롯해 동급 최고의 Ryzen AI MAX 제품을 지원합니다.

AMD Radeon AI PRO R9700 and Ryzen AI Max
curved gradient divider

지금 시작하기

AMD 개발자 클라우드를 통해 AI/ML, 고성능 컴퓨팅, 데이터 분석 작업을 가속화하세요.

새로운 정보를 놓치지 마세요

최신 ROCm 소식으로 새로운 정보를 놓치지 마세요.

각주
  1. MI300-080 -테스트는 2025년 5월 15일 AMD 퍼포먼스 랩이 시스템(Llama 3.1-70B(TP2)를 실행하는 AMD Instinct MI300X GPU 8대, Qwen 72B(TP2), Deepseek-R1(FP16) 모델)에서 배치 크기 1~256, 시퀀스 길이 128~204에 걸쳐 AMD ROCm 6.x 소프트웨어, vLLM 0.3.3 및 AMD ROCm 7.0 프리뷰 버전 SW, vLLM 0.8.5의 초당 토큰(TPS) 추론 성능을 비교 측정하여 수행되었습니다. 명시된 성능 향상은 테스트된 3개의 LLM에 대한 평균 TPS로 표시됩니다.

    하드웨어 구성

    8x AMD Instinct™ MI300X(192GB, 750W) GPU가 탑재된 1P AMD EPYC™ 9534 CPU 서버, Supermicro AS-8125GS-TNMR2, NPS1(소켓당 1 NUMA), 1.5 TiB(24 DIMMs, 4800mts 메모리, 64GiB/DIMM), 4x 3.49TB Micron 7450 스토리지, BIOS 버전: 1.8 

    소프트웨어 구성

    Ubuntu 22.04 LTS, Linux 커널 5.15.0-119-generic

    Qwen 72B 및 Llama 3.1-70B -

    ROCm 7.0 프리뷰 버전 SW 

    PyTorch 2.7.0. Deepseek R-1 - ROCm 7.0 프리뷰 버전, SGLang 0.4.6, PyTorch 2.6.0 

    vs.

    Qwen 72 및 Llama 3.1-70B - ROCm 6.x GA SW

    PyTorch 2.7.0 및 2.1.1(각각),  

    Deepseek R-1: ROCm 6.x GA SW

    SGLang 0.4.1, PyTorch 2.5.0

    서버 제조업체별 구성에 따라 다른 결과가 나올 수 있습니다. 성능은 구성, 소프트웨어, vLLM 버전, 최신 드라이버 및 최적화 사용 여부에 따라 달라질 수 있습니다.

  2. MI300-081 - 테스트는 2025년 5월 15일 AMD 퍼포먼스 랩에서 ROCm 7.0 프리뷰 버전 소프트웨어, Megatron-LM의 학습 성능(TFLOPS)을 측정하기 위해 Llama 2-70B (4K), Qwen1.5-14B, Llama3.1-8B 모델을 실행하는 8대의 AMD Instinct MI300X GPU와 맞춤형 도커 컨테이너를 사용하여 유사하게 구성된 AMD ROCm 6.0 소프트웨어 탑재 시스템과 비교했습니다.

    하드웨어 구성

    1P AMD EPYC™ 9454 CPU, 8대의 AMD Instinct MI300X(192GB, 750W) GPU, American Megatrends International LLC BIOS 버전: 1.8, BIOS 1.8.

    소프트웨어 구성

    Ubuntu 22.04 LTS, Linux 커널 5.15.0-70-generic

    ROCm 7.0., Megatron-LM, PyTorch 2.7.0

    vs.

    ROCm 6.0 공개 릴리스 SW, Megatron-LM code branches hanl/disable_te_llama2 for Llama 2-7B, guihong_dev for LLama 2-70B, renwuli/disable_te_qwen1.5 for Qwen1.5-14B, PyTorch 2.2.

    서버 제조업체별 구성에 따라 다른 결과가 나올 수 있습니다. 성능은 구성, 소프트웨어, vLLM 버전, 최신 드라이버 및 최적화 사용 여부에 따라 달라질 수 있습니다.