스케일 아웃 AI 인프라 지원
AMD PensandoTM Pollara 400 AI NIC는 메가스케일 및 기가스케일 데이터 센터의 AI 노드에서 실행되는 애플리케이션을 가속화하여 최대 400Gbps(초당 기가비트) 이더넷 속도를 달성하도록 설계되었습니다.
검증을 거치고 완전 하드웨어 프로그래밍 가능한 3세대 Pensando P4 엔진을 기반으로 제작된 AMD Pensando Pollara 400 AI NIC는 미래의 요구 사항을 충족하도록 프로그래밍할 수 있는 유연성과 함께 리더십 성능을 제공하여 하이퍼스케일러, 엔터프라이즈, 클라우드 서비스 제공업체, 연구원을 위한 인프라 투자 극대화를 지원합니다.
울트라 이더넷 컨소시엄(UEC) 기능을 지원하는 업계 최초의 AI NIC
AMD Pensando™ Pollara 400 AI NIC는 업계 최초의 울트라 이더넷 컨소시엄(UEC) 지원 AI NIC입니다. 프로그래밍 용이성을 통해 NIC는 고객이 UEC 기능을 선택하여 네트워크 모니터링 및 성능 튜닝에 인텔리전스를 적용할 수 있도록 지원합니다. NIC의 완전 프로그래밍 가능한 P4 엔진을 통해 고객은 모든 폼 팩터의 AMD Pensando Pollara 400 AI NIC를 업그레이드하여 진화하는 새로운 산업 표준에 대응할 수 있습니다.
AI를 위해 설계된 이더넷을 오픈 컴퓨팅 데이터 센터에 적용
AMD Pensando™ Pollara 400 AI NIC는 OCP®(Open Compute Project®) 표준 OCP-3.0 폼 팩터로 제공되므로 OCP 기반 서버 및 네트워크에 원활하게 통합할 수 있습니다. NIC는 OCP 표준과 연계되어 데이터 센터가 업계 표준 OCP 시스템에 완벽하게 프로그래밍 가능한 400Gbps 이더넷 인터페이스를 배포하여 탁월한 상호 운용성, 신속한 확장성 및 비용 효율성을 실현할 수 있도록 지원합니다. OCP 호환 AMD Pensando Pollara 400 AI NIC는 프로그래밍 가능 P4 엔진과 고급 RDMA 기능을 활용하여 고객이 향후 구축을 위한 인프라를 준비하고 AI 워크로드를 가속화할 뿐 아니라 하드웨어 설계 및 서비스 가능성에 대한 개방형 업계 표준을 충족할 수 있도록 지원합니다.
AMD Pensando™ Pollara 400 AI NIC 스포트라이트
AI를 위한 데이터센터 네트워크 스케일 아웃에서 NIC 프로그래밍 용이성의 중요한 역할
AI 워크로드를 호스팅하기 위한 인프라 증축이 진행되고 있습니다. 효과적인 확장을 위해서는 네트워크가 중요한 역할을 하며, 이러한 네트워크는 이더넷 쪽으로 기울고 있습니다. 그러나 효과적인 네트워킹은 스위치에만 국한되지 않으며, 네트워크 인터페이스 카드에 고급 기능을 구축하는 것이 필수적인 설계 전략입니다. TechTarget의 Enterprise Strategy Group의 엔터프라이즈 네트워킹 수석 분석가인 Jim Frey가 AMD 프로그래밍 가능 NIC가 성공을 향한 최적화된 경로라고 생각하는 이유에 대해 설명합니다.
대규모 AI 성능 가속화
AI 워크로드 성능
최대 400Gbps의 GPU 간 통신 속도를 지원하는 AMD Pensando™ Pollara 400 AI NIC는 최대 AI 모델을 학습시키거나 차세대 AI 모델을 배포하거나 AI 워크로드를 가속화하도록 설계된 네트워킹을 통해 첨단 기술을 연구하는 동안 작업 완료 시간을 앞당길 수 있습니다.
비용 효율성
현재와 미래의 AI 워크로드의 요구를 충족하도록 설계된 AMD Pensando™ Pollara 400 AI NIC는 개방형 생태계와 호환되므로 고객은 자본 지출을 줄이면서 미래의 인프라 확장에 대한 유연성을 유지할 수 있습니다.
지능형 네트워크 모니터링
기존 네트워크 모니터링 및 성능 튜닝 작업에 소요되는 시간을 절약할 수 있습니다. AMD Pensando™ Pollara 400 AI NIC는 네트워크 메트릭을 모니터링하면서 네트워크의 로드 밸런싱을 수행하므로 잠재적인 네트워크 문제가 심각한 중단으로 확대되기 전에 팀이 이를 사전에 식별하고 해결할 수 있습니다.
AI 성능 및 네트워크 신뢰성 향상
RCCL 성능을 최대 25% 향상하여 멀티 GPU 및 스케일 아웃 네트워크 효율성을 크게 높입니다. 고급 통합 커뮤니케이션 최적화, 지능형 로드 밸런싱 및 탄력적인 장애 조치 메커니즘을 통해 인프라 활용도를 극대화하고 기능을 확장하면서 AI 워크로드를 가속화합니다.
특정 애플리케이션의 경우 런타임 성능이 약 15% 향상됩니다. 지능형 네트워크 로드 밸런싱, 빠른 페일오버 및 손실 복구 등의 기능을 지원하는 AMD Pensando Pollara 400 AI NIC는 AI 투자를 극대화하면서 워크로드를 가속화할 수 있도록 지원합니다.
네트워크 업타임이 최대 10% 향상됩니다. AMD Pensando Pollara 400 AI NIC를 사용하면 최첨단 RAS 및 신속한 장애 복구를 통해 네트워크 복원력과 가용성을 강화하면서 클러스터 다운타임을 최소화할 수 있습니다.
지능형 네트워크 모니터링 및 로드 밸런싱
- 지능형 패킷 스프레이
- 비순차적 패킷 처리 및 순차적 메시지 전달
- 선택적 재전송
- 경로 인식 혼잡 제어
- 신속한 오류 탐지
지능형 패킷 스프레이
지능형 패킷 스프레이를 통해 팀은 로드 밸런싱을 강화하고 전반적인 효율성 및 확장성을 높임으로써 네트워크 성능을 원활하게 최적화할 수 있습니다. 네트워크 성능이 향상되면 GPU 간 통신 시간이 크게 단축되어 작업 완료 속도가 빨라지고 운영 효율성이 더욱 향상됩니다.
비순차적 패킷 처리 및 순차적 메시지 전달
다중 경로 및 패킷 스프레이 기술을 사용하는 경우에도 메시지가 올바른 순서로 전달되도록 보장합니다. 고급 비순차적 메시지 전달 기능은 순서를 벗어나 도착할 수 있는 데이터 패킷을 효율적으로 처리하여 버퍼링 없이 GPU 메모리에 직접 원활하게 배치합니다.
선택적 재전송
제외되거나 손상된 패킷만 다시 전송되도록 하는 SACK(Selective Acknowledgment) 재전송으로 네트워크 성능을 향상합니다. SACK은 손실되거나 손상된 패킷을 효율적으로 탐지하고 재전송하여 대역폭 사용률을 최적화하고, 패킷 손실 복구 시 지연율을 줄이며, 중복 데이터 전송을 최소화하여 탁월한 효율성을 달성합니다.
경로 인식 혼잡 제어
실시간 원격 측정 및 네트워크 인식 알고리즘을 통해 네트워크 모니터링이 아닌 워크로드에 집중할 수 있습니다. 경로 인식 혼잡 제어 기능은 네트워크 성능 관리를 간소화하므로 팀은 심각한 문제를 신속하게 탐지하고 해결하면서 인캐스트 시나리오의 영향을 완화하도록 지원할 수 있습니다.
신속한 오류 탐지
신속한 오류 탐지를 통해 팀은 몇 밀리초 이내에 문제를 정확히 찾아낼 수 있으므로 거의 즉각적인 페일오버 복구를 지원하고 GPU 다운타임을 크게 줄일 수 있습니다. 실시간에 가까운 지연율 지표, 혼잡 및 제외 통계를 통해 향상된 네트워크 관측성을 활용할 수 있습니다.
AMD Pensando™ Pollara 400 AI NIC 사양
| 최대 대역폭 | 폼 팩터 | 이더넷 인터페이스 | 이더넷 속도 | 이더넷 구성 | 관리 |
| 최대 400Gbps | 절반 높이, 절반 길이 | PCIe® Gen5.0x16, OCP® 3.0 | 25/50/100/200/400Gbps | 최대 4개 포트 지원 |
SMBus를 통한 MCTP |
고성능 첨단 데이터 센터를 위해 설계된 AMD 네트워킹 솔루션의 전체 제품군을 살펴보세요.
리소스
AI 네트워킹의 미래를 열다
AMD Pensando Pollara 400 AI NIC가 스케일 아웃 AI 인프라를 어떻게 혁신할 수 있는지 알아보세요.
각주
- PEN-016 - [2025년 4월 28일] 현재 AMD 퍼포먼스 랩에서 [AMD Pensando™ Pollara 400 AI NIC]로 다음으로 구성된 프로덕션 시스템에서 테스트를 실시했습니다. 8xMI300X AMD GPU 노드 2개(GPU 16개): MICAS 네트워크의 Broadcom Tomahawk-4 기반 리프 스위치(64x400G), CLOS 토폴로지, AMD Pensando Pollara AI NIC - NIC 16개, 노드 2개 각각에 CPU 모델 - 듀얼 소켓 5세대 인텔® 제온® 8568 - 48코어 CPU(PCIe® Gen-5 BIOS 버전 1.3.6 포함), 완화 - 꺼짐(기본값)
시스템 프로필 설정 - 성능(기본값) SMT 활성화(기본값), 운영 체제 Ubuntu 22.04.5 LTS, 커널 5.15.0-139-generic.
다음 작업을 측정했습니다. Allreduce
다양한 메시지 크기 샘플(512MB, 1GB, 2GB, 4GB, 8GB, 16GB)에 대한 4QP All-Reduce 작업에서 UEC Ready RDMA를 사용하는 경우와 RoCEv2를 사용하는 경우를 비교한 결과의 평균 25%입니다. 결과는 평균 8회 이상의 테스트 실행을 기준으로 합니다.
- C4를 통한 대규모 병렬 학습 효율성 향상: 통신 중심 접근 방식. 해당 주장은 AMD Pensando Pollara 400 NIC에 사용되는 기술을 반영하지만, 테스트 및 데이터는 Pollara 400에만 국한되지 않습니다. 결과는 다를 수 있습니다.
Dong, Jianbo & Luo, Bin & Zhang, Jun & Zhang, Pengcheng & Feng, Fei & Zhu, Yikai & Liu, Ang & Chen, Zian & Shi, Yi & Jiao, Hairong & Lu, Gang & Guan, Yu & Zhai, Ennan & Xiao, Wencong & Zhao, Hanyu & Yuan, Man & Yang, Siran & Li, Xiang & Wang, Jiamang & Fu, Binzhang. (2024). C4를 통한 대규모 병렬 학습 효율성 향상: 통신 중심 접근 방식. 10.48550/arXiv.2406.04594.메타 연구 논문, “The Llama 3 Herd of Models, 표 5.
- 해당 주장은 AMD Pensando Pollara 400 NIC에 사용되는 기술을 반영하지만, 테스트 및 데이터는 Pollara 400에만 국한되지 않습니다. 결과는 다를 수 있습니다.
Dubey, Abhimanyu & Jauhri, Abhinav & Pandey, Abhinav & Kadian, Abhishek & Al-Dahle, Ahmad & Letman, Aiesha & Mathur, Akhil & Schelten, Alan & Yang, Amy & Fan, Angela & Goyal, Anirudh & Hartshorn, Anthony & Yang, Aobo & Mitra, Archi & Sravankumar, Archie & Korenev, Artem & Hinsvark, Arthur & Rao, Arun & Zhang, Aston & Zhao, Zhiwei. (2024). Llama 3 모델군. 10.48550/arXiv.2407.21783.
- Open Compute Project® 및 OCP®는 Open Compute Project Foundation의 등록 상표입니다.
- PEN-016 - [2025년 4월 28일] 현재 AMD 퍼포먼스 랩에서 [AMD Pensando™ Pollara 400 AI NIC]로 다음으로 구성된 프로덕션 시스템에서 테스트를 실시했습니다. 8xMI300X AMD GPU 노드 2개(GPU 16개): MICAS 네트워크의 Broadcom Tomahawk-4 기반 리프 스위치(64x400G), CLOS 토폴로지, AMD Pensando Pollara AI NIC - NIC 16개, 노드 2개 각각에 CPU 모델 - 듀얼 소켓 5세대 인텔® 제온® 8568 - 48코어 CPU(PCIe® Gen-5 BIOS 버전 1.3.6 포함), 완화 - 꺼짐(기본값)
시스템 프로필 설정 - 성능(기본값) SMT 활성화(기본값), 운영 체제 Ubuntu 22.04.5 LTS, 커널 5.15.0-139-generic.
다음 작업을 측정했습니다. Allreduce
다양한 메시지 크기 샘플(512MB, 1GB, 2GB, 4GB, 8GB, 16GB)에 대한 4QP All-Reduce 작업에서 UEC Ready RDMA를 사용하는 경우와 RoCEv2를 사용하는 경우를 비교한 결과의 평균 25%입니다. 결과는 평균 8회 이상의 테스트 실행을 기준으로 합니다. - C4를 통한 대규모 병렬 학습 효율성 향상: 통신 중심 접근 방식. 해당 주장은 AMD Pensando Pollara 400 NIC에 사용되는 기술을 반영하지만, 테스트 및 데이터는 Pollara 400에만 국한되지 않습니다. 결과는 다를 수 있습니다.
Dong, Jianbo & Luo, Bin & Zhang, Jun & Zhang, Pengcheng & Feng, Fei & Zhu, Yikai & Liu, Ang & Chen, Zian & Shi, Yi & Jiao, Hairong & Lu, Gang & Guan, Yu & Zhai, Ennan & Xiao, Wencong & Zhao, Hanyu & Yuan, Man & Yang, Siran & Li, Xiang & Wang, Jiamang & Fu, Binzhang. (2024). C4를 통한 대규모 병렬 학습 효율성 향상: 통신 중심 접근 방식. 10.48550/arXiv.2406.04594.메타 연구 논문, “The Llama 3 Herd of Models, 표 5. - 해당 주장은 AMD Pensando Pollara 400 NIC에 사용되는 기술을 반영하지만, 테스트 및 데이터는 Pollara 400에만 국한되지 않습니다. 결과는 다를 수 있습니다.
Dubey, Abhimanyu & Jauhri, Abhinav & Pandey, Abhinav & Kadian, Abhishek & Al-Dahle, Ahmad & Letman, Aiesha & Mathur, Akhil & Schelten, Alan & Yang, Amy & Fan, Angela & Goyal, Anirudh & Hartshorn, Anthony & Yang, Aobo & Mitra, Archi & Sravankumar, Archie & Korenev, Artem & Hinsvark, Arthur & Rao, Arun & Zhang, Aston & Zhao, Zhiwei. (2024). Llama 3 모델군. 10.48550/arXiv.2407.21783. - Open Compute Project® 및 OCP®는 Open Compute Project Foundation의 등록 상표입니다.