AI: 엔드포인트에서 에지, 클라우드에 이르는 AMD의 기여

생성형 AI는 기업 고객의 운영 방식을 혁신하고 있습니다. 실제로 AI는 고객 서비스부터 데이터 분석에 이르기까지 지원하는 거의 모든 비즈니스 프로세스에 빠르게 자리 잡고 있으며, 이러한 통합은 더욱 심화할 것입니다. 그러나 AI는 기존 인프라에 추가된 비교적 새로운 워크로드로, 현재의 하드웨어 구성에 부담을 주고 있습니다.

고객이 원활한 AI 경험과 생산성 향상을 즉각적으로 그리고 장기적으로 누리고자 한다면 IT 인프라를 발전시키는 데 도움이 필요합니다. 바로 여기서 AMD 기술이 등장하여 AI가 기여하는 새로운 가능성과 함께 기존 워크플로를 운영하기 위한 성능과 효율성을 기업에 제공합니다. 

AMD EPYC™ 프로세서를 통해 열리는 AI의 세상

AMD EPYC™ 프로세서는 전 세계 서버 중 1/3을 구동할 만큼 신뢰받고 있으며, 그럴 만한 이유가 있습니다.1 세계 최고의 데이터 센터 CPU를 기업 고객에게 제공하는 범용 AMD EPYC 프로세서는 경쟁사 제품에 비해 CPU 와트당 최대 1.75배, SPECrate® 2017_int_base에서 1.8배의 성능을 제공하는 최대 96개 코어 옵션을 제공합니다.2

AMD 고성능 CPU는 추천 시스템, 머신 러닝 솔루션, 기타 생성형 AI 사용과 같은 AI 워크로드를 배포하는 기업에 강력한 옵션을 제공합니다. 

강력한 AMD EPYC 프로세서로의 업그레이드와 결합된 검증된 표준 인프라를 활용하면 고객은 서버 설치 공간, 전력 및 초기 지출 전반에 걸친 비용을 낮게 유지하고 서버 성능과 밀도를 높일 수 있으므로 더 많은 사용 사례를 활용하고 ROI를 높일 수 있습니다.

AMD EPYC™ 프로세서에 대해 자세히 알아보세요.

AMD Instinct™ 가속기를 통한 AI 가속화

수많은 AI 워크로드 및 사용 사례가 AMD EPYC CPU 단독으로 처리할 수 있는 것 이상의 역량을 요구합니다. 대규모 언어 모델은 계속해서 수천억, 심지어 수조 개의 파라미터로 확대되고 있습니다.

하지만 다행히도 AMD는 가장 까다로운 AI 작업도 처리할 수 있는 다양한 워크로드 엔진을 제공합니다. AMD EPYC 프로세서를 통해 효과적으로 관리되는 AI 워크로드 세트를 확장하면 AMD Instinct™ 가속기 덕분에 GPU 가속의 효과를 누릴 수 있습니다. AMD 서버 CPU는 중소 규모 모델 및 혼합 워크로드 추론 배포를 관리하는 한편, AMD 가속기는 대량의 실시간 AI 훈련, 전용 AI 배포, 중대형 모델 및 대규모 실시간 추론을 용이하게 하여 새로운 기술을 최대한 활용하고자 하는 기업을 위해 AI 결과를 가속화합니다.

AMD는 다양한 성능 수준과 폼 팩터에 맞는 여러 가지 GPU 솔루션을 제공합니다. AMD ROCm™ 소프트웨어 스택으로 구동되는 플래그십 AMD Instinct™ MI300X 가속기는 Llama2-70b 채팅을 실행하는 Nvidia H100 제품에 비해 지연율이 약 2.1배 개선되었으며 Llama2-70b의 전체 지연율에서는 이전 세대 제품에 비해 약 8배 개선되었습니다.3,4

AMD 가속화를 뒷받침하는 엔터프라이즈 지원 오픈 소스 소프트웨어인 AMD ROCm™을 통해 기업은 약 400,000개의 Hugging Face 모델을 지원하고 PyTorch, OpenAI 등 다른 AI 리더들과 긴밀하게 협력하며 AI 워크로드를 신속하게 가동할 수 있습니다.

AMD Instinct™ 가속기에 대해 자세히 알아보세요.

다양한 기능을 제공하는 AMD Alveo™ 가속기

설계에 따라 조정이 가능한 AMD Alveo™ 가속기는 다양한 사용 사례에 맞춰 데이터 센터에 실시간 성능을 제공합니다. 고객은 요구되는 워크로드에 맞춰 플랫폼을 최적화하고, 필요에 따라 변화하는 알고리즘 및 애플리케이션 요구 사항에 적응할 수 있습니다.

실시간 애플리케이션에 맞게 지연율이 낮고 처리율과 효율성이 높은 AMD Alveo 가속기는 데이터 분석, HPC, 미디어 및 인프라 가속화 등에 필요한 기능을 확보하고자 하는 고객에게 적합합니다.

AMD Alveo™ 가속기에 대해 자세히 알아보세요.

AMD Ryzen™ 프로세서로 로컬 시스템에 AI 도입

이제 AI는 서버에서만 작동하는 것이 아니라 최종 사용자 기기에도 적용되어 사용자의 업무 방식을 개선하고 기존 프로세스를 향상하며 작업을 더 빠르고 쉽게 만들어 팀이 더 큰 그림에 집중할 수 있도록 합니다.

AMD Ryzen™ PRO 프로세서는 세계에서 가장 발전되고 전력 효율이 뛰어난 비즈니스 데스크탑용 프로세서로,5 x86 프로세서에서 최초로 통합된 AI 엔진을 제공합니다.6 서버에서 클라이언트 기기에 이르는 이러한 수준의 AI 지원은 이전에는 불가능했던 놀라운 기능을 실현합니다.

AMD Ryzen™ PRO 프로세서에 대해 자세히 알아보세요.

에지 AI를 위한 AMD Versal™ Adaptive SoC로 그림 완성

그러나 AI는 PC와 서버에만 국한되지 않습니다. 에지 기기에서의 로컬 AI 프로세싱이 성능과 안전에 막대한 영향을 미칠 수 있는 응용 분야가 많습니다.

자동차 분야에서 에지 AI는 센서 데이터를 로컬에서 처리하여 실시간으로 의사 결정을 내릴 수 있게 함으로써 안전성을 강화할 수 있습니다. 자율 주행 차량이 사고를 피하기 위해 브레이크 작동 여부를 판단해야 하는데 클라우드에서 데이터가 처리될 때까지 기다리는 것은 바람직하지 않습니다.

의료 분야에서 에지 AI는 영상 장비를 개선하여 진단을 가속화하거나 실시간 시각화를 제공하여 수술을 도울 수 있습니다. 또한 클라우드를 통해 데이터를 전송할 필요가 없으므로 환자의 개인 정보를 보호하는 데에도 도움이 됩니다.

산업 분야에서 에지 AI는 공장 장비가 더 안전하고 효율적으로 작동하는 데 도움이 될 수 있습니다. AMD FPGA 및 적응형 SoC는 AI 기반 및 기존 내장형 시스템의 데이터 전처리, 추론, 후처리를 효율적으로 관리하며, 최신 제품인 AMD Versal™ AI Edge 시리즈 Gen 2 Adaptive SoC는 이러한 모든 기능을 단일 칩에서 처리합니다.

AMD Versal 제품을 통해 고객은 비즈니스의 모든 측면에 AI를 적용하여 기존 소비자 및 산업 환경을 더욱 스마트하게 만들고 AI로 활성화할 수 있습니다.

AMD Versal™ Adaptive SoC에 대해 자세히 알아보세요.

AI의 이점은 광범위하며 최신 컴퓨팅을 이루는 일부가 되어 가고 있습니다. 기업이 이러한 이점을 활용하려면 AMD의 기술과 같은 혁신적인 기술을 채택하고 적용해야 합니다.

AMD 제품과 성장하는 AI 생태계에 대한 AMD의 지원에 대해 자세히 알아보려면 현지 담당자에게 문의하거나 AMD AI 솔루션을 방문하세요.

AMD Arena


AMD Ryzen™ PRO, AMD EPYC™, AMD Instinct™ 등에 대한 교육을 통해 AMD 제품 지식을 향상하세요.

각주
  1. 출처: Mercury Research Sell-in Revenue Shipment Estimates, 2023 Q4
  2. SP5-013D: SPECrate®2017_int_base 비교 수치는 2023년 6월 2일 기준, www.spec.org의 게시 점수에 기반한 것입니다. 게시된 비교 2P AMD EPYC 9654(1800 SPECrate®2017_int_base, 720 총 TDP W, $23,610 총 1Ku, 총 192개 코어, 2.500 성능/와트, 0.076 성능/CPU$, http://spec.org/cpu2017/results/res2023q2/cpu2017-20230424-36017.html)는 게시된 2P 인텔 제온 Platinum 8490H(1000 SPECrate 2017_int_base, 700 총 TDP W, $34,000 총 1Ku, 총 120개 코어, 1.429 성능/와트, 0.029 성능/CPU$, http://spec.org/cpu2017/results/res2023q1/cpu2017-20230310-34562.html)[1.75배 성능/W][2.59배 성능/CPU$]의 1.80배입니다. 게시된 2P AMD EPYC 7763(861 SPECrate®2017_int_base, 560 총 TDP W, $15,780 총 1Ku, 총 128개 코어, 1.538 성능/와트, 0.055 성능/CPU$, http://spec.org/cpu2017/results/res2021q4/cpu2017-20211121-30148.html)은 0.86배 성능[1.08배 성능/와트][1.86배 성능/CPU$]으로 참조 표시되었습니다. 2023년 6월 1일 기준, AMD 1Ku 가격 및 인텔 ARK.intel.com 사양 및 가격. SPEC®, SPEC CPU® 및 SPECrate®는 Standard Performance Evaluation Corporation의 등록 상표입니다. 자세한 사항은 www.spec.org를 참조하세요.
  3. MI300-38A: 2023년 12월 14일 기준 AMD 내부 테스트에 기초하여 각 시스템에 대해 커스텀 도커 컨테이너를 사용한 vLLM 비교와 Llama2-70b 채팅 모델을 사용한 텍스트 생성의 전체 지연율. 2,048개 입력 토큰과 128개 출력 토큰의 시퀀스 길이. vLLM 테스트에서는 https://github.com/vllm-project/vllm의 벤치마크 디렉토리에 있는 benchmark_latency.py 스크립트의 향상된 버전 사용.  특정 길이의 입력 프롬프트를 사용할 수 있는 기능 향상이 추가되었습니다. MI300X에 사용되는 vLLM 버전에는 아직 AMD 외부에서 일반적으로 사용할 수 없는 수정 사항이 포함되어 있습니다. 구성: AMD Instinct™ MI300X(192GB, 750W) GPU 8개, ROCm® 6.1.0 사전 공개, PyTorch 2.2.0, ROCm용 vLLM, Ubuntu® 22.04.2가 탑재된 2P 인텔 제온 Platinum 8480C CPU 서버 대비 인텔 제온 Platinum 8480CL 프로세서 2개, Nvidia H100(80GB, 700W) GPU 8개, CUDA 12.1, PyTorch 2.1.0, vLLM v.02.2.2(최신), Ubuntu 22.04가 탑재된 Nvidia DGX H100. 서버 제조업체별 구성에 따라 다른 결과가 나올 수 있습니다. 최신 드라이버의 사용 여부 및 최적화에 따라 성능이 달라질 수 있습니다.
  4. MI300-33: 2023년 11월 17일 기준 AMD 내부 테스트를 기반으로 각 시스템에 대해 커스텀 도커 컨테이너를 사용하여 4096의 입력 시퀀스 길이와 32개의 출력 토큰 비교를 사용하여 Llama2-70b 채팅으로 생성된 텍스트입니다. 구성: AMD Instinct™ MI300X(192GB, 750W) GPU 4개, ROCm® 6.0 사전 공개, PyTorch 2.2.0, ROCm용 vLLM, Ubuntu® 22.04.2를 사용하는 2P 인텔 제온 Platinum CPU 서버. Vs. AMD Instinct™ MI250(128GB HBM2e, 560W) GPU 4개, ROCm® 5.4.3, PyTorch 2.0.0, HuggingFace Transformers 4.35.0, Ubuntu 22.04.6을 사용하는 2P AMD EPYC 7763 CPU 서버. 이 테스트에서는 각 시스템에 4개의 GPU가 사용되었습니다. 서버 제조업체별 구성에 따라 다른 결과가 나올 수 있습니다. 최신 드라이버의 사용 여부 및 최적화에 따라 성능이 달라질 수 있습니다.
  5. 2023년 9월 기준, x86 플랫폼을 위한 AMD 프로세서의 작은 노드 크기에 기초함. GD-203.
  6. 2024년 1월 기준, AMD는 데스크탑 PC 프로세서에 사용 가능한 최초의 전용 AI 엔진을 탑재하였으며, 여기서 '전용 AI 엔진'은 AI 추론 모델 처리 이외의 기능을 수행하지 않고 x86 프로세서 다이의 일부인 AI 엔진으로 정의됩니다. 자세한 내용은 https://www.amd.com/ko/products/processors/consumer/ryzen-ai.html을 참조하세요. PXD-03