智利 NLHPC 運用 AMD 技術大幅提高研究成效
智利 HPC 國家實驗室運用 AMD EPYC™ 處理器和 AMD Instinct™ 顯示卡,使每瓦科研成效翻倍
高效能運算讓全球學術研究都有驚人發展。其中一個國家,便是南美洲的智利。智利透過其 HPC 國家實驗室(NLHPC,由智利大學的數學模型中心 (CMM) 主持),在此發展中扮演相當重要的角色。如同所有仰賴公開募資的機構,NLHPC 必須盡可能爭取最佳效能,同時還要符合國家永續發展目標。AMD EPYC™ 處理器和 AMD Instinct™ 顯示卡能提供 NLHPC 最新 HPC 部署中所需的一切。
NLHPC 執行主管 Ginés Guerrero 表示:「我們在智利為科學社群提供運算資源已經長達 15 年。」「智利大學是主要的合作夥伴,但其他 44 間大學目前也與我們有合作關係,因此智利幾乎所有的科學研究人員都有參與。我們獲得國家研究與發展署機構 (ANID) 的資助。」種類繁多的工作負載讓 NLHPC 的運算需求非常複雜。「使用者的數量和多樣性都相當地有挑戰性。我們有來自量子化學、生物資訊學、天文學、奈米技術與物理學等 40 種不同研究領域的 500 位使用者。」

每瓦效能翻倍
Guerrero 表示:「其中一項最密集的工作負載是關於處理氣候變遷以及探索新材料。」「舉例來說,研究人員正在研究可更有效吸收太陽能的太陽光電材料。天文學也是智利的一個重要研究領域。我們的天空是最適合用來研究星體的天空之一。我們有許多國際投資,極為重要的天文望遠鏡。在天體運算中,我們觀測星系的形成過程。已經有許多關於超大質量黑洞,以及天文望遠鏡所攝影像的研究論文。過程中必須用到快速事件分類的自動學習 (ALeRCE),這是一種天文代理程式,負責處理來自天文望遠鏡的所有影像。這些都需要即時分析,如此 ALeRCE 才能在出現任何變化時發出提醒,例如超新星。」
Guerrero 表示:「作為智利的國家運算實驗室,我們必須隨時掌握 HPC 硬體的新進展。」「AMD 團隊非常積極地告知我們其技術的最新發展。我們開始考慮第 4 代 AMD EPYC 處理器時,AMD 便為我們介紹處理器的 AVX-512 功能。我們也擔心需要更換顯示卡,因為先前廠商的產品,我們已經使用好一段時間了。因此,AMD 團隊介紹我們與美國工程師認識,協助我們在開始將 AMD 顯示卡整合至系統時能夠順利過渡。」
NLHPC 測試了第 4 代 AMD EPYC 處理器和 AMD Instinct MI210 顯示卡。Guerrero 表示:「安裝伺服器並執行測試後得到的結果,令我們大吃一驚。」在競標過程中,效能是關鍵因素,但能效也扮演了重要的角色。「我們進行了各式各樣的測試。我們編譯了至少 100 個工作負載。所有使用者都說,AMD EPYC 處理器的效能要好得多,然後我們也執行了 LINPACK 基準測試。我們在先前的架構上執行 LINPACK 時,發現效能比最高理論值最多低了 60%。目前的叢集改用第 4 代 AMD EPYC 處理器後,我們得到的效能超過 100% 的最高理論值。若要獲得相同的結果,先前叢集所需能源也是新叢集的兩倍。AMD EPYC 處理器讓我們只需要兩倍能源即可獲得四倍 LINPACK 效能。」

促進智利的科學發展
Guerrero 表示:「採用 AMD EPYC 處理器後,我們的許多工作負載都可立即執行。」「但只要我們使用 GNU Complier Collection 或 AMD Optimizing C/C++ Compiler 重新編譯應用程式,就能獲得比先前編譯器程式碼還要高的效能。採用 AMD Instinct 顯示卡,就必須使用新的軟體。因此,我們部署了 AMD Infinity Hub 提供的容器。AMD ROCm™ 軟體提供的平台是這次轉換的最佳選擇。」
NLHPC 的新叢集運行著 27 部 Lenovo ThinkSystem SR645 V3 伺服器,每個伺服器各搭載雙 128 核心第 4 代 AMD EPYC 9754 處理器和 768 GB 記憶體,總計有 6,912 個核心用於運算和存取節點。此叢集有兩個 Lenovo ThinkSystem SR675 V3 顯示卡伺服器,各搭載雙 24 核心第 4 代 AMD EPYC 9224 處理器與六個 AMD Instinct MI210 顯示卡,總計有 12 個加速器。Lenovo 的 Neptune 水冷系統,則用來在處理密集 AI 工作負載時,維持處理器和顯示卡的工作溫度。
Guerrero 表示:「對我們來說,最重要的是能促進智利的科學發展。」「我們能提供的資源越多,對整個社群的影響就越大。」智利科學家給我們的回饋一直都是壓倒性好評。「一位執行天氣研究與預報 (WRF) 模型的使用者告訴我們,他們的工作負載執行速度比之前快很多。奈米級分子動力學 (NAMD) 模型是另一個展現優異效能的軟體應用程式。」

與 AMD 一同邁向前途看好的研究未來
新的叢集正在改進研究人員部署工作負載的方式。Guerrero 表示:「如果一台伺服器內有許多核心,我們就能執行共用記憶體工作。」「有了 AMD EPYC 處理器,我們現在可以將 256 個核心用在單一工作。我們大部分的使用者都不使用 MPI。他們會啟動共用記憶體工作。如果一部伺服器擁有 200 多個核心,他們就可以使用 200 個運算單元。這在我們過去只有 40 個核心之處理器的情況下是不可能辦到的,我們的舊款處理器就是個例子。這是一項絕佳優勢。」NLHPC 的 AMD Instinct 加速器也能提供更高的每瓦效能。「採用 AMD Instinct MI210 顯示卡後,我們就能以更高的能效,每秒執行更多次的浮點運算。我們大多數的使用者都會將這項技術應用在分子動力學上。」
Guerrero 表示:「我常說一句翻譯自西班牙文的諺語『競爭力來自於運算能力』。」「如果我們不投資運算能力並繼續發展,我們在世界舞台上的競爭力就會降低。」在智利,為了因應 AI 等新興工作負載,有一個 700 萬美元的補助評選計畫要資助採購資金,以購置採用更多顯示卡的基礎架構,而我們當然會參與評選。「以現今的 AI 趨勢來說,有許多國家都在投資大量資金以提高運算處理能力。這對產業、國家、研究和全體公民來說都有影響。美國、歐洲和中國是領導者,但在拉丁美洲,仍有許多工作尚待完成,我們正努力不懈地確保工作有效推進。
Guerrero 認為 NLHPC 與 AMD 之間的關係有著光明的未來,能夠引領著我們克服眼前的挑戰。Guerrero 表示:「在全球所有超級電腦的 500 大名單中,AMD 處理器上榜的頻率顯然在增加。」「他們上榜的頻率越來越高。如果您看一下全球局勢,就應該會考慮整合 AMD 技術,因為我們獲得了非常正面的結果。AMD 的表現相當出色。這個架構真的無懈可擊。這是讓社會擁有更高運算能力的整體進步。NLHPC 與 AMD 工程團隊之間的合作,是提供擁有更高效能與最佳能效之最佳解決方案的關鍵。這一切都好到令人難以置信。」

關於客戶
智利的高效能運算國家實驗室 (NLHPC) 是智利的頂尖超級運算中心。它提供先進運算資源,支援著科學研究、創新和技術開發。NLHPC 為國內科學社群、政府機關和產業提供服務,促進協同合作和推動氣候建模、天文物理學和基因體學等領域的發展。其使命是讓 HPC 的資源普及化,推動尖端研究和促進智利的科學與經濟發展。如需更多資訊,請造訪 nlhpc.cl。
