AMD 助力智利 NLHPC 高效开展科研工作
智利高性能计算国家实验室 (NLHPC) 利用 AMD EPYC(霄龙)CPU 和 AMD Instinct GPU,将性能功耗比提升一倍,高效开展科研工作
高性能计算正大力推动全球各地的学术科研工作。智利作为南美洲的重要国家,在高性能计算领域扮演着重要角色,特别是设在智利大学数学建模中心 (CMM) 的智利高性能计算国家实验室 (NLHPC) 更是如此。与所有依赖公共资金的机构一样,NLHPC 需要在满足国家可持续发展目标的前提下,尽可能实现计算性能优化。AMD EPYC(霄龙)CPU 和 AMD Instinct GPU 能够充分满足 NLHPC 的所有需求,助力 NLHPC 高效完成最新的 HPC 部署。
NLHPC 执行主管 Ginés Guerrero 表示:“15 年来,我们致力于为智利的科学界提供计算资源。智利大学是我们的主要合作伙伴,除此之外,我们目前还与另外 44 所高校建立了合作关系,几乎覆盖了智利的所有科研机构。我们的资金来源于智利国家研究与发展署 (ANID)。”由于工作负载类型繁多,NLHPC 的计算需求显得尤为复杂。“用户数量与多样性是我们面临的一大挑战。我们拥有 500 家用户,分别来自 40 个不同的研究领域,包括量子化学、生物信息学、天文学、纳米技术和物理学等领域。”

性能功耗比翻倍
Guerrero 指出:“我们需要处理多项繁重的工作负载,包括应对气候变化以及发现新材料。例如,智利有研究人员正在探索如何才能更高效利用太阳能的光伏材料。在智利,天文学也有着举足轻重的地位。智利拥有得天独厚的天空,是研究恒星的理想地点。智利还在国际资金的支持下运行着多台至关重要的望远镜。在天文计算领域,我们研究星系形成,而且已根据望远镜拍摄的图像发表了大量关于超大质量黑洞的论文。在天文领域,我们利用 ALeRCE (Automatic Learning for the Rapid Classification of Events) 系统作为数据代理,负责处理望远镜捕获的所有图像。ALeRCE 需要对这些图像进行实时分析,以便识别包括超新星在内的任何变化并发出警报。”
Guerrero 表示:“作为智利的国家级计算实验室,我们必须及时了解高性能计算硬件的发展动态。AMD 团队非常主动与我们分享最新的技术发展成果。当我们开始评估第四代 AMD EPYC(霄龙)CPU 时,AMD 团队向我们详细介绍了该 CPU 的 AVX-512 指令集功能。我们当时还对更换 GPU 一事心存顾虑,因为我们与原来的供应商合作了很长时间。为此,AMD 团队安排美国工程师与我们对接,从开始直到结束全程协助我们将 AMD GPU 集成到系统,确保我们顺利完成过渡。”
NLHPC 对第四代 AMD EPYC(霄龙)处理器和 AMD Instinct MI210 GPU 进行了测试。Guerrero 表示:“我们安装服务器并进行了测试,结果让我们感到惊喜。在投标过程中,我们将性能视为关键因素,但能效也非常重要。我们的测试范围非常广泛。我们至少编译了 100 种工作负载。所有用户都表示,AMD EPYC(霄龙)CPU 展现出显著的性能优势。此外,我们还运行了 LINPACK 基准测试。在原有架构上运行该基准测试时,我们观测到实际性能较理论峰值降低高达 60%。但是,在基于第四代 AMD EPYC(霄龙)CPU 的新群集中,性能达到了理论峰值的两倍。要实现相同的结果,原有群集的能耗也是新群集的两倍。借助 AMD EPYC(霄龙)CPU,我们在运行 LINPACK 时实现了四倍性能提升,而能耗仅增加一倍。”

助力智利推动科学发展
Guerrero 坦言:“借助 AMD EPYC(霄龙)CPU,我们可以快速运行许多工作负载。在使用 GNU Complier Collection 或 AMD Optimizing C/C++ 编译器重新编译应用后,性能得到了显著提升,远超原来的编译器所生成的代码。改用 AMD Instinct GPU 后,就必须使用新软件。为此,我们部署了 AMD Infinity Hub 提供的容器。基于 AMD ROCm 软件的平台正是我们完成此次转换的正确选择。”
NLHPC 的新群集部署了 27 台 Lenovo ThinkSystem SR645 V3 服务器,每台配备双路 128 核第四代 AMD EPYC(霄龙)9754 CPU 及 768 GB 内存,计算节点与访问节点总计拥有 6912 个核心。此外,还部署了两台 Lenovo ThinkSystem SR675 V3 服务器,每台配备双路 24 核第四代 AMD EPYC(霄龙)9224 CPU 和六个 AMD Instinct MI210 GPU,共计 12 个加速器。Lenovo 服务器采用 Neptune 水冷系统,即使在运行高强度 AI 工作负载期间也能维持 CPU 和 GPU 的运行温度。
Guerrero 表示:“我们的核心使命是,推动智利的科学发展。我们能提供的资源越多,对整个科学界的影响就越大。”关于我们的此次升级,智利科学家们给予了非常积极的反馈。“一家用户表示,在运行天气研究与预报 (Weather Research & Forecasting, WRF) 模型时,其工作负载执行速度得到了显著提升。在另一个软件应用方面,纳米级分子动力学 (Nanoscale Molecular Dynamics, NAMD) 模型的运行性能也得到了显著提升。”

与 AMD 携手并进,推动科学研究走向光明未来
新群集能够改进研究人员部署工作负载的方式。Guerrero 表示:“如果一台服务器拥有多个核心,我们就能通过共享内存机制运行多个任务。有了 AMD EPYC(霄龙)CPU,我们现在能够将 256 个核心用于处理一项任务。我们的大多数用户都未使用 MPI。但是,他们会发起基于共享内存机制的任务。如果一台服务器有 200 多个核心,他们就能使用 200 个计算单元。之前根本无法做到这一点,因为原有的服务器仅配备 40 核 CPU。这是一项巨大的优势。”AMD Instinct 加速器还帮助 NLHPC 实现了更高的性能功耗比。“使用 AMD Instinct MI210 GPU,我们不仅能够每秒执行更多浮点运算,还能提高能效。我们的大多数用户都借助该技术加速分子动力学研究。”
Guerrero 表示:“正如我常说的,算力就是竞争力。如果我们不在计算能力上持续投资并不断发展,就会在世界舞台上失去竞争力。”智利推出了一项价值 700 万美元的招标项目,旨在采购基础设施为 AI 等新兴工作负载部署更多 GPU,我们将参与此竞标。“在当今的 AI 时代,各个国家/地区都在投入巨额资金来提升计算能力。这对于产业发展、科学研究、国家/地区发展乃至全体公民都具有重大影响。美国、欧洲和中国走在前列,拉丁美洲仍有很长的路要走,我们将不懈努力,竭力推动智利不断向前发展。”
Guerrero 坚信,通过与 AMD 合作,NLHPC 将迎来光明前景,开启下一征程。Guerrero 指出:“在全球 500 强超级计算机榜单中,AMD 处理器的地位正稳步提升。越来越多的上榜计算机采用 AMD 处理器。如果关注一下全球范围内的技术趋势,以及我们所取得的显著成果,就应该考虑立即采用 AMD 技术。AMD 表现得非常出色。AMD 的技术架构无可挑剔。这意味着,我们将以更出色的计算能力推动社会全面进步。AMD 工程团队与 NLHPC 通力合作,为我们提供了卓越的解决方案,帮助我们充分提升性能与能效。与 AMD 的合作真的让我们受益匪浅。”

关于客户
智利高性能计算国家实验室 (NLHPC) 是智利首屈一指的超级计算中心。NLHPC 致力于提供先进计算资源,助力科学研究、创新与技术发展。NLHPC 为科学界、政府机构及各行各业提供支持,促进相关方在气候建模、天体物理学和基因组学等多个领域开展合作,推动科技发展。NLHPC 的使命是普及高性能计算,助力前沿科学研究,为智利的科学和经济发展做出贡献。如需了解更多信息,请访问 nlhpc.cl。
