AMD 助力智利 NLHPC 高效开展科研工作

智利高性能计算国家实验室 (NLHPC) 利用 AMD EPYC(霄龙)CPU 和 AMD Instinct GPU,将性能功耗比提升一倍,高效开展科研工作

高性能计算正大力推动全球各地的学术科研工作。智利作为南美洲的重要国家,在高性能计算领域扮演着重要角色,特别是设在智利大学数学建模中心 (CMM) 的智利高性能计算国家实验室 (NLHPC) 更是如此。与所有依赖公共资金的机构一样,NLHPC 需要在满足国家可持续发展目标的前提下,尽可能实现计算性能优化。AMD EPYC(霄龙)CPU 和 AMD Instinct GPU 能够充分满足 NLHPC 的所有需求,助力 NLHPC 高效完成最新的 HPC 部署。

NLHPC 执行主管 Ginés Guerrero 表示:“15 年来,我们致力于为智利的科学界提供计算资源。智利大学是我们的主要合作伙伴,除此之外,我们目前还与另外 44 所高校建立了合作关系,几乎覆盖了智利的所有科研机构。我们的资金来源于智利国家研究与发展署 (ANID)。”由于工作负载类型繁多,NLHPC 的计算需求显得尤为复杂。“用户数量与多样性是我们面临的一大挑战。我们拥有 500 家用户,分别来自 40 个不同的研究领域,包括量子化学、生物信息学、天文学、纳米技术和物理学等领域。”

Universidad de Chile Case Study
AMD 处理器助力 NLHPC 将数据中心性能功耗比提升一倍

性能功耗比翻倍

Guerrero 指出:“我们需要处理多项繁重的工作负载,包括应对气候变化以及发现新材料。例如,智利有研究人员正在探索如何才能更高效利用太阳能的光伏材料。在智利,天文学也有着举足轻重的地位。智利拥有得天独厚的天空,是研究恒星的理想地点。智利还在国际资金的支持下运行着多台至关重要的望远镜。在天文计算领域,我们研究星系形成,而且已根据望远镜拍摄的图像发表了大量关于超大质量黑洞的论文。在天文领域,我们利用 ALeRCE (Automatic Learning for the Rapid Classification of Events) 系统作为数据代理,负责处理望远镜捕获的所有图像。ALeRCE 需要对这些图像进行实时分析,以便识别包括超新星在内的任何变化并发出警报。”

Guerrero 表示:“作为智利的国家级计算实验室,我们必须及时了解高性能计算硬件的发展动态。AMD 团队非常主动与我们分享最新的技术发展成果。当我们开始评估第四代 AMD EPYC(霄龙)CPU 时,AMD 团队向我们详细介绍了该 CPU 的 AVX-512 指令集功能。我们当时还对更换 GPU 一事心存顾虑,因为我们与原来的供应商合作了很长时间。为此,AMD 团队安排美国工程师与我们对接,从开始直到结束全程协助我们将 AMD GPU 集成到系统,确保我们顺利完成过渡。”

NLHPC 对第四代 AMD EPYC(霄龙)处理器和 AMD Instinct MI210 GPU 进行了测试。Guerrero 表示:“我们安装服务器并进行了测试,结果让我们感到惊喜。在投标过程中,我们将性能视为关键因素,但能效也非常重要。我们的测试范围非常广泛。我们至少编译了 100 种工作负载。所有用户都表示,AMD EPYC(霄龙)CPU 展现出显著的性能优势。此外,我们还运行了 LINPACK 基准测试。在原有架构上运行该基准测试时,我们观测到实际性能较理论峰值降低高达 60%。但是,在基于第四代 AMD EPYC(霄龙)CPU 的新群集中,性能达到了理论峰值的两倍。要实现相同的结果,原有群集的能耗也是新群集的两倍。借助 AMD EPYC(霄龙)CPU,我们在运行 LINPACK 时实现了四倍性能提升,而能耗仅增加一倍。”

Universidad de Chile Case Study
AMD EPYC(霄龙)CPU 助力 NLHPC 加速推动宇宙演化奥秘研究。

助力智利推动科学发展

Guerrero 坦言:“借助 AMD EPYC(霄龙)CPU,我们可以快速运行许多工作负载。在使用 GNU Complier Collection 或 AMD Optimizing C/C++ 编译器重新编译应用后,性能得到了显著提升,远超原来的编译器所生成的代码。改用 AMD Instinct GPU 后,就必须使用新软件。为此,我们部署了 AMD Infinity Hub 提供的容器。基于 AMD ROCm 软件的平台正是我们完成此次转换的正确选择。”

NLHPC 的新群集部署了 27 台 Lenovo ThinkSystem SR645 V3 服务器,每台配备双路 128 核第四代 AMD EPYC(霄龙)9754 CPU 及 768 GB 内存,计算节点与访问节点总计拥有 6912 个核心。此外,还部署了两台 Lenovo ThinkSystem SR675 V3 服务器,每台配备双路 24 核第四代 AMD EPYC(霄龙)9224 CPU 和六个 AMD Instinct MI210 GPU,共计 12 个加速器。Lenovo 服务器采用 Neptune 水冷系统,即使在运行高强度 AI 工作负载期间也能维持 CPU 和 GPU 的运行温度。

Guerrero 表示:“我们的核心使命是,推动智利的科学发展。我们能提供的资源越多,对整个科学界的影响就越大。”关于我们的此次升级,智利科学家们给予了非常积极的反馈。“一家用户表示,在运行天气研究与预报 (Weather Research & Forecasting, WRF) 模型时,其工作负载执行速度得到了显著提升。在另一个软件应用方面,纳米级分子动力学 (Nanoscale Molecular Dynamics, NAMD) 模型的运行性能也得到了显著提升。”

Universidad de Chile Case Study
NLHPC 借助性能卓越的 AMD EPYC(霄龙)CPU 推动计算密集型气候科学研究。

与 AMD 携手并进,推动科学研究走向光明未来

新群集能够改进研究人员部署工作负载的方式。Guerrero 表示:“如果一台服务器拥有多个核心,我们就能通过共享内存机制运行多个任务。有了 AMD EPYC(霄龙)CPU,我们现在能够将 256 个核心用于处理一项任务。我们的大多数用户都未使用 MPI。但是,他们会发起基于共享内存机制的任务。如果一台服务器有 200 多个核心,他们就能使用 200 个计算单元。之前根本无法做到这一点,因为原有的服务器仅配备 40 核 CPU。这是一项巨大的优势。”AMD Instinct 加速器还帮助 NLHPC 实现了更高的性能功耗比。“使用 AMD Instinct MI210 GPU,我们不仅能够每秒执行更多浮点运算,还能提高能效。我们的大多数用户都借助该技术加速分子动力学研究。”

Guerrero 表示:“正如我常说的,算力就是竞争力。如果我们不在计算能力上持续投资并不断发展,就会在世界舞台上失去竞争力。”智利推出了一项价值 700 万美元的招标项目,旨在采购基础设施为 AI 等新兴工作负载部署更多 GPU,我们将参与此竞标。“在当今的 AI 时代,各个国家/地区都在投入巨额资金来提升计算能力。这对于产业发展、科学研究、国家/地区发展乃至全体公民都具有重大影响。美国、欧洲和中国走在前列,拉丁美洲仍有很长的路要走,我们将不懈努力,竭力推动智利不断向前发展。”

Guerrero 坚信,通过与 AMD 合作,NLHPC 将迎来光明前景,开启下一征程。Guerrero 指出:“在全球 500 强超级计算机榜单中,AMD 处理器的地位正稳步提升。越来越多的上榜计算机采用 AMD 处理器。如果关注一下全球范围内的技术趋势,以及我们所取得的显著成果,就应该考虑立即采用 AMD 技术。AMD 表现得非常出色。AMD 的技术架构无可挑剔。这意味着,我们将以更出色的计算能力推动社会全面进步。AMD 工程团队与 NLHPC 通力合作,为我们提供了卓越的解决方案,帮助我们充分提升性能与能效。与 AMD 的合作真的让我们受益匪浅。”

Universidad de Chile Case Study
AMD Instinct GPU 助力 NLHPC 加速处理分子动力学工作负载

关于客户


智利高性能计算国家实验室 (NLHPC) 是智利首屈一指的超级计算中心。NLHPC 致力于提供先进计算资源,助力科学研究、创新与技术发展。NLHPC 为科学界、政府机构及各行各业提供支持,促进相关方在气候建模、天体物理学和基因组学等多个领域开展合作,推动科技发展。NLHPC 的使命是普及高性能计算,助力前沿科学研究,为智利的科学和经济发展做出贡献。如需了解更多信息,请访问 nlhpc.cl

成功案例资料


  • 行业:
    科学研究
  • 挑战
    实现性能和能效优化,助力智利的科学研究
  • 解决方案:
    部署基于第四代 AMD EPYC(霄龙)CPU 和 AMD Instinct GPU 的 Lenovo ThinkSystem SR675 V3 和 SR645 V3 服务器
  • 结果:
    在相同功耗下,性能比以前的数据中心基础设施提升了一倍
  • AMD 技术一览:
    第四代 AMD EPYC(霄龙)9754 CPU(计算和访问节点)与 AMD EPYC(霄龙)9224(GPU 主机)
    AMD Instinct MI210 GPU
  • 技术合作伙伴:
Lenovo

希望详细了解 AMD 可以为您的数据中心提供哪些解决方案吗?