AMD를 통해 연구 성능을 크게 개선한 칠레의 NLHPC

AMD EPYC™ CPU와 AMD Instinct™ GPU를 사용하여 와트당 과학 연구 성능을 두 배로 향상한 칠레의 NLHPC(National Laboratory for HPC)

고성능 컴퓨팅은 전 세계의 학술 연구를 대폭 강화하고 있습니다. 칠레는 칠레대학교 CMM(Mathematical Modeling Center) 소속의 NLHPC(National Laboratory for HPC)를 통해 남미 지역에서 중요한 역할을 담당하고 있습니다. 공공 자금에 의존하는 모든 기관과 마찬가지로 NLHPC는 지속 가능성에 대한 국가 목표를 유지하면서 얻을 수 있는 최상의 성능이 필요합니다. AMD EPYC™ CPU 및 AMD Instinct™ GPU는 최신 HPC 배포에서 NLHPC에 필요한 모든 것을 제공했습니다.

NLHPC 총괄 책임자 Gines Guerrero는 "저희는 15년 동안 칠레의 과학계에 컴퓨팅 리소스를 제공해 왔습니다."라고 전합니다. "주요 파트너는 칠레대학교이지만, 이 밖에도 44개의 대학이 현재 저희와 협력하여 칠레의 거의 모든 과학 연구원을 수용하고 있습니다. 저희는 국립 연구 개발 기관(ANID)으로부터 자금 지원을 받고 있습니다." NLHPC는 워크로드가 광범위하기 때문에 컴퓨팅 요구 사항이 특히 복잡할 수밖에 없습니다. "문제는 사용자 수와 다양성입니다. 500명에 달하는 사용자의 연구 분야는 양자 화학, 생물 정보학, 천문학, 나노 과학, 물리학 등 40개에 이르죠."

Universidad de Chile Case Study
AMD 프로세서를 통해 NLHPC의 데이터 센터는 와트당 성능을 두 배로 향상할 수 있었습니다.

와트당 두 배의 성능

"가장 집중적인 워크로드는 기후 변화 대응과 신물질 발견과 관련이 있습니다."라고 Guerrero는 말합니다. "예를 들어 연구자들은 태양 에너지를 더 효율적으로 포집하는 태양광 물질을 조사하고 있습니다. 천문학은 칠레에서도 인기 있는 주제죠. 칠레의 하늘은 천문 관측에 가장 적합한 하늘로 손꼽힙니다. 국제적인 지원을 통해 매우 중요한 망원경 다수를 확보했습니다. 천체 컴퓨팅에서는 은하의 형성을 살펴봅니다. 지금까지 초거대 블랙홀과 망원경으로 얻은 이미지에 관한 많은 논문이 발표되었습니다. 여기에는 망원경을 통해 입수한 모든 이미지를 처리하는 천문 중개 플랫폼인 ALeRCE(Automatic Learning for the Rapid Classification of Events)가 포함됩니다. 이러한 이미지는 ALerce에서 초신성 등의 변화에 대한 경고를 전송할 수 있도록 실시간으로 분석해야 합니다."

"칠레의 국립 컴퓨팅 연구소로서 저희는 HPC 하드웨어에 대한 최신 정보를 알고 있어야 합니다."라고 Guerrero는 전합니다. "AMD 팀은 자체 기술의 최신 발전 현황을 적극적으로 전달해 주었습니다. 4세대 AMD EPYC CPU를 살펴보기 시작하면서 AMD 팀을 통해 CPU의 AVX-512 기능을 빠르게 익힐 수 있었습니다. 아울러 저희는 이전 벤더 제품을 오랫동안 사용해왔기 때문에 GPU 변경에 대해서도 우려했습니다. 그래서 AMD 팀은 저희가 AMD GPU를 시스템에 통합하기 시작하자 미국 엔지니어들과 연락을 취하게 하여 원활한 전환을 도와주었습니다."

NLHPC는 4세대 AMD EPYC 프로세서와 AMD Instinct MI210 GPU를 테스트했습니다. "서버를 설치하고 테스트를 실행할 때 그 결과에 놀랐습니다."라고 Guerrero는 전합니다. 입찰 과정에서 핵심 요소는 성능이었지만 에너지 효율성이 중요한 역할을 했습니다. "저희가 수행한 테스트는 매우 다양했습니다. 적어도 100개의 워크로드를 컴파일했죠. 모든 사용자들은 AMD EPYC CPU의 성능이 훨씬 더 좋다고 했습니다. 저희는 LINPACK 벤치마크도 사용했습니다. 이전 아키텍처에서 실행했을 때 성능은 최대 이론적 성능보다 최대 60% 낮았습니다. 4세대 AMD EPYC CPU가 탑재된 현재의 클러스터를 통해 이론상 최대치의 100% 이상을 확보했습니다. 이전 클러스터는 동일한 결과를 얻기 위해 새로운 클러스터 대비 두 배의 에너지가 필요했습니다. AMD EPYC CPU를 사용하면서 LINPACK을 통해 2배의 에너지 사용량으로 4배 더 우수한 성능을 확보할 수 있었습니다."

Universidad de Chile Case Study
AMD EPYC CPU는 NLHPC의 우주 작동 원리 연구를 가속화합니다.

칠레의 과학 발전 지원

"AMD EPYC CPU를 사용하면 워크로드의 상당 부분을 즉시 실행할 수 있습니다."라고 Guerrero는 말합니다. "일단 GNU 컴플라이어 컬렉션이나 AMD 최적화 C/C++ 컴파일러로 애플리케이션을 다시 컴파일한 후 이전 컴파일러의 코드보다 훨씬 더 나은 성능을 얻을 수 있었습니다. AMD Instinct GPU를 도입한 후에는 새로운 소프트웨어를 사용해야 했습니다. 그래서 AMD Infinity Hub에서 제공한 컨테이너를 배포했습니다. AMD ROCm™ 소프트웨어와 함께 사용할 수 있는 플랫폼은 이러한 전환을 위한 최상의 선택이었습니다.”

NLHPC의 새로운 클러스터는 각각 듀얼 128코어 4세대 AMD EPYC 9754 CPU와 768GB 메모리를 장착한 27대의 Lenovo ThinkSystem SR645 V3 서버를 실행하며 컴퓨팅 및 액세스 노드를 위한 총 6,912개의 코어를 지원합니다. 두 대의 Lenovo ThinkSystem SR675 V3 GPU 서버는 각각 6개의 AMD Instinct MI210 GPU를 갖춘 듀얼 24코어 4세대 AMD EPYC 9224 CPU를 구동하며 12개의 가속기로 구성되어 있습니다. Lenovo의 Neptune 수랭식 시스템은 집약적인 AI 워크로드 중에 CPU 및 GPU 작동 온도를 유지하는 데 사용되었습니다.

"저희에게 가장 중요한 것은 칠레가 과학적 발전을 이루는 데 기여하는 것입니다."라고 Guerrero는 말합니다. "더 많은 리소스를 제공할수록 과학계 전체에 더 큰 영향을 미칩니다." 칠레 과학자들의 반응은 지극히 긍정적이었습니다. "기상 조사 및 예측(WRF) 모델을 실행하는 한 사용자는 워크로드가 이전보다 훨씬 빠르게 실행되고 있다고 말했습니다. 나노스케일 분자 동역학(NAMD) 모델은 탁월한 성능을 보여준 또 다른 소프트웨어 애플리케이션이었습니다."

Universidad de Chile Case Study
NLHPC는 컴퓨팅 집약적인 기후 과학에 AMD EPYC CPU의 성능을 활용합니다.

AMD와 함께 열어 가는 밝은 연구 미래

새로운 클러스터는 연구자들이 워크로드를 배포하는 방식을 개선하고 있습니다. "서버 한 대에 코어가 여러 개이면 공유 메모리 작업을 실행할 수 있습니다."라고 Guerrero는 말합니다. "AMD EPYC CPU를 사용하면 이제 단일 작업에서 256개의 코어를 사용할 수 있습니다. 대부분의 사용자는 MPI를 사용하지 않습니다. 공유 메모리 작업을 실행하죠. 서버 한 대에 200개 이상의 코어가 있으면 200개의 컴퓨팅 유닛을 사용할 수 있습니다. 이전 CPU처럼 코어가 40개뿐인 서버라면 불가능한 일입니다. 굉장한 이점이죠." NLHPC의 AMD Instinct 가속기도 와트당 성능을 향상하고 있습니다. "AMD Instinct MI210 GPU를 통해 더 높은 에너지 효율로 초당 더 많은 부동 소수점 연산을 실행할 수 있습니다. 사용자 대부분은 분자 역학에 이 기술을 사용합니다."

Guerrero는 "저는 종종 스페인어로 '컴퓨팅하지 않으면 경쟁할 수 없다'는 뜻의 문구를 사용합니다."라고 말합니다. "컴퓨팅에 투자하지 않고 미래로 나아간다면 세계 무대에서 경쟁력이 떨어질 것입니다." 칠레에서는 AI 등 새로운 워크로드를 위해 더 많은 GPU를 사용하는 인프라를 구매하는 데 700만 달러를 지원하는 경쟁이 진행 중이며, 저희도 물론 이 경쟁에 참여할 것입니다. "AI의 시대에 각국은 컴퓨팅 용량을 늘리기 위해 엄청난 돈을 투자하고 있습니다. 이러한 투자는 산업, 국가, 연구, 그리고 모든 시민에게 영향을 미칩니다. 미국, 유럽, 중국이 이를 주도하고 있지만 라틴 아메리카에서는 여전히 해야 할 일이 많으며, 저희는 진전을 이루기 위해 끊임없이 노력하고 있습니다.

Guerrero는 NLHPC와 AMD의 관계가 다음 단계로 나아갈 수 있는 밝은 미래를 기대합니다. Guerrero는 "전 세계 모든 슈퍼컴퓨터의 상위 500위 목록에서 AMD 프로세서가 점유율을 높이고 있다는 사실은 분명합니다.”라고 전합니다. "AMD 프로세서는 점점 더 많이 사용되고 있습니다. 전 세계적 동향을 살펴보면 AMD 기술의 통합을 고려해야 합니다. 저희가 얻은 결과가 매우 긍정적이기 때문이죠. AMD는 놀라운 일을 해냈습니다. 아키텍처는 흠잡을 데 없습니다. 이는 사회가 더 나은 컴퓨팅을 누릴 수 있는 전체적인 발전을 의미합니다. NLHPC와 AMD 엔지니어링 팀 간의 협업은 더 우수한 성능과 최고의 에너지 효율을 제공하는 최상의 솔루션을 제공하는 데 필수였습니다. 정말 놀라웠습니다."

Universidad de Chile Case Study
분자 역학 워크로드를 위해 NLHPC에 필요한 가속화를 제공한 AMD Instinct GPU

고객 소개


NLHPC(National Laboratory High Performance Computing)는 칠레 최고의 슈퍼컴퓨팅 센터입니다. 이 센터는 과학 연구, 혁신, 기술 개발을 지원하는 첨단 컴퓨팅 리소스를 제공합니다. NLHPC는 칠레 과학계, 정부 기관, 산업에 서비스를 제공하여 협업을 촉진하고 기후 모델링, 천체 물리학, 유전체학 등의 분야에서 발전을 지원합니다. NLHPC는 HPC에 대한 접근을 민주화하여 최첨단 연구를 가능하게 하고 칠레의 과학 및 경제 발전에 기여하는 것을 사명으로 합니다. 자세한 내용은 nlhpc.cl에서 확인할 수 있습니다.

사례 연구 프로파일


  • 산업:
    과학 연구
  • 과제:
    칠레의 과학 연구를 위한 성능 및 에너지 소비 개선
  • 솔루션:
    4세대 AMD EPYC CPU 및 AMD Instinct GPU로 구동되는 Lenovo ThinkSystem SR675 V3 및 SR645 V3 서버 배포
  • 결과:
    이전 데이터 센터 인프라와 동일한 전력 소비로 성능 두 배 향상
  • AMD 기술 요약:
    4세대 AMD EPYC 9754 CPU(컴퓨팅 및 액세스 노드) 및 AMD EPYC 9224(GPU 호스트)
    AMD Instinct MI210 GPU
  • 기술 파트너:
Lenovo

AMD가 데이터 센터를 위해 무엇을 할 수 있는지 자세히 알고 싶으신가요?