助力 Shell 休斯敦数据中心大幅提升高性能计算能力,同时实现节能减排
数据中心能够打通供应链、助力协作与创新、保障信息安全,并在维系社会与经济运转方面发挥着日益重要的作用。
与此同时,随着人工智能 (AI)、机器学习和物联网等数据密集型技术的广泛应用,服务器空间需求呈指数级攀升,对现代数据中心的要求也越来越高。
作为能源使用者和供应商,Shell plc(Shell 集团)正直面这些挑战。在管理自身的数据中心时,Shell 信息技术部门清醒意识到,必须在性能、成本与可持续发展目标之间取得平衡。近期,Shell Information Technology International (Shell IT) 发现,Penguin Computing Altus 服务器是帮助休斯顿数据中心高性能计算 (HPC) 集群解决这一平衡难题的关键所在。该服务器基于 AMD EPYC(霄龙)处理器并采用浸入式冷却技术,不仅有助于优化单位成本性能,更能为系统能效带来革命性跃升。
满足日益增长的算力需求
Shell Energy 技术与能源可持续发展合作全球负责人 Sjors van de Rijt 表示:“Shell 集团已设定目标,力求到 2050 年成为净零排放能源企业。在此征程中,我们肩负多重角色。从业务活动来看,我们既是能源生产者和供应者,也是能源使用者,同时还是推动行业变革的合作伙伴。Shell IT 的高性能计算 (HPC) 团队正积极支持所有这些业务活动,为实现这一目标而努力。打造高性能计算基础设施,提升石油与天然气勘探和生产效率,正是 Shell IT 的重要工作内容之一。在算力需求日益增长的同时,我们也在逐步支持各类数字化倡议。例如,我们创新推出电动车 (EV) 充电解决方案,助力社区以更安全、更清洁、更智能的方式实现互联互通。”
数字化解决方案是 Shell 集团业务版图的重要组成部分,也是推动 Shell 自身及客户实现可持续发展目标的核心助力。van de Rijt 指出:“技术发展为构建清洁能源体系带来了全新可能,既能帮助优化现有运营流程,也能让排放量的追踪与报告更趋精准。但是,数字化也意味着数据和工作负载的持续增长,这势必导致能耗上升;而如何应对数字化对系统性能、成本及碳足迹所产生的影响,正是我们 Shell Energy 团队携手客户攻坚的核心课题。”

Shell IT 高性能计算经理 David Baldwin 表示:“Shell 集团需要大量运用数据、数据存储和分析服务,而这些数据随后会进入机器学习与 AI 系统中。一方面,我们会购买和使用云平台、本地服务及数字孪生技术。另一方面,我们通过 Shell Energy 向科技行业推广能源与能效解决方案。由此可见,我们已深度融入价值链的各个环节。”
Baldwin 进一步表示:“我们的应用场景覆盖广泛。在上游业务领域,需要地震数据处理、油气储量勘探及碳捕捉目标测算等应用。此外,Shell IT 还需要为计算化学、流体动力学、油气藏工程、智能电网以及 AI 与机器学习等领域提供技术支持。在所有这些应用场景中,我们都会对系统进行精细化调整,以实现性能与成本效益的双重优化。我们正在部署智能控制、虚拟化软件及人工智能 (AI) 技术,旨在实现工作负载智能化管理,让计算任务分配更均衡,同时充分优化资源利用率。”
Baldwin 补充道:“数十年来,我们公司积累了海量数据。处理这些数据带来了严峻的功耗挑战,特别是随着处理器芯片功率不断提高,这一挑战愈发突出。”
Shell 休斯顿数据中心已 100% 采用由 Shell Energy 北美公司提供的可再生能源供电。对 Shell IT HPC 团队而言,真正的挑战在于如何在提升性能的同时降低电能使用效率 (PUE) 比值。这促使他们升级到 Penguin Computing Altus 服务器,该服务器基于 AMD EPYC(霄龙)处理器并配套采用浸入式冷却技术。Penguin Solutions 首席技术官 Phil Pokorny 表示:“Penguin 在构建和部署大型高性能计算集群领域拥有长达 25 年的深厚经验,我们的集群能够承载要求极为严苛的工作负载。此外,依托与众多技术合作伙伴的深度联动,我们得以在新兴技术整合领域持续领跑,包括整合浸入式冷却等前沿技术。”

解决数据中心冷却问题
Shell IT 早在六年前就开始采用 AMD EPYC(霄龙)处理器。Baldwin 表示:“选择转向 AMD EPYC(霄龙)处理器,是因为我们的大部分应用受限于内存带宽,而 EPYC(霄龙)芯片在这方面具备显著优势。”正是在此期间,Shell IT 将 Penguin Solutions 确定为技术合作伙伴,正式开启合作。“通过与 Penguin 合作,我们能够抢先体验新技术。”
Shell IT 与 Penguin 合作,共同寻求为日益高功耗的处理器提供高效散热解决方案。Baldwin 解释道:“我们的目标是从 CPU 获取超高内存带宽。所以,我们始终优选性能顶尖或次一级的处理器。仅在过去六年,我们的处理器功耗就从 140 瓦跃升至 360 瓦。这导致传统风冷技术无法再满足散热需求。我们曾采用直接芯片液冷技术,但后来又意识到需要进一步升级为浸入式冷却技术。在性能提升、效率优化与可持续发展的道路上,我们一直在不断突破既有边界。”
Baldwin 表示:“在采用直接芯片液冷技术时,它能带走服务器约三分之二的热量,这些热量主要来自 CPU。然而,剩余三分之一的热量仍需依赖风冷消散,但这种方式能效较低。随着内存与网络带宽逐步提升,功耗需求也在不断增加。存储设备的功耗也同样如此。采用浸入式冷却技术后,服务器的所有部件都浸没在绝缘(介电)冷却液中;这种冷却液的吸热能力远超空气,达到了空气的 1000 倍以上,因此能够更高效地处理服务器所产生的热量。”

Shell IT 在新建的休斯顿数据中心部署了 864 台双路服务器系统,这些系统基于 96 核第四代 AMD EPYC(霄龙)9654 CPU,因此总计共有 1728 个处理器和 165888 个核心。Baldwin 表示:“与第三代 AMD 芯片相比,第四代芯片实现了质的飞跃。第四代芯片具有更强大的功能,还有更多的核心和内存。我们的投资取得了更大的回报。”但是,这一升级也让高效散热的需求愈发突出。“随着芯片核心增多、功率提升,我们数据中心机架的整体功耗也随之攀升。风冷式机架的功率约为 30 千瓦。采用直接芯片液冷技术时,每个机架的功率约为 60 千瓦;而部署新型浸入式冷却服务器后,每个机架的功率可达到近 100 千瓦。”
浸入式冷却技术带来的性能优势
Baldwin 称:“大约两年前,我们首次为 Shell 阿姆斯特丹数据中心的高性能计算集群部署浸入式冷却技术。阿姆斯特丹与休斯顿数据中心均采用 Shell 专有的浸入式冷却液,但休斯顿数据中心的最新部署不仅规模显著更大,同时还能依托 Shell Energy 提供的可再生能源与智能化能源管理解决方案释放更大优势。”Shell Lubricants 是数据中心浸入式冷却液这一新兴领域的开拓者。Shell Lubricants 与 Shell Energy 携手合作,通过这些数据中心部署项目,展示如何通过全面集成、高度优化、灵活扩展的解决方案满足企业级 HPC 需求。van de Rijt 指出:“在数据托管与能源需求方面,Shell 自身面临的挑战与客户所遇到的挑战高度相似。正是这一独特处境,让我们能够凭借切身实践经验,为科技行业及其他领域的领军企业提供支持,帮助他们找到契合需求的产品与服务,最终助其实现业务目标与可持续发展目标。”
尽管每个机架的整体功耗有所上升,但 AMD EPYC(霄龙)处理器具备显著的核心密度优势,因此能效表现远胜于风冷式解决方案。若采用风冷式服务器,要达到同等性能,数据中心必须占用更大的物理空间。Baldwin 表示:“数据中心空间越大,空气管理就越困难,最终难免出现局部热点问题。此外,还会面临网络挑战。如果将所有计算机分散摆放,就需要铺设更多光纤线缆,而这会产生极高成本。借助浸入式冷却技术,我们能够在功耗密度更大、占地面积更小的空间内整合更多计算节点。”
Baldwin 补充道:“作为数据中心运营商,我们坚信浸入式冷却是未来的发展方向。Penguin Solutions 与 AMD 通力合作,帮助我们完成技术整合,推动 Shell IT 实现业务目标与可持续发展目标。AMD EPYC(霄龙)CPU 的价格、性能和内存带宽都能完全满足我们的需求,为我们提供了巨大的价值。”

关于客户
Shell plc 是知名的国际能源公司,业务涵盖石油和天然气勘探、生产、炼制与营销,以及化学品制造与销售,目前在 70 多个国家/地区拥有逾 9 万名员工。该公司运用先进技术并创新实践,致力于构建可持续的能源未来。如需更多信息,请访问 shell.com。