チリの NLHPC が AMD で研究性能を大幅強化
チリの NLHPC (National Laboratory for High Performance Computing) は、AMD EPYC™ CPU と AMD Instinct™ GPU を採用することで、ワットあたりの科学研究性能を 2 倍に向上
ハイパフォーマンス コンピューティングは、世界中で学術研究を強化しています。南米で重要な役割を果たしている国の 1 つがチリです。チリ大学数理モデリング センター (CMM) に設置された NLHPC (National Laboratory for High Performance Computing) がその役割を担っています。公共資金に依存するすべての機関と同様に、NLHPC は国家の持続可能性目標を守りつつ、可能な限り最高の性能を追求する必要があります。AMD EPYC™ CPU と AMD Instinct™ GPU を組み合わせることで、NLHPC は最新の HPC 導入に必要なすべての要件を満たすことができました。
「当機関は 15 年間にわたり、チリの科学コミュニティにコンピューティング リソースを提供してきました」と、NLHPC エグゼクティブ ヘッドの Gines Guerrero 氏は言います。「チリ大学が主要なパートナーですが、現在 44 の他大学が当ラボに参画しており、チリ国内のほぼすべての科学研究者を受け入れています。当機関は、国の National Agency for Research and Development (ANID) から資金提供を受けています」。NLHPC は、多岐にわたるワークロードに対応するため、コンピューティング要件が特に複雑化しています。「ユーザーの数と多様性が大きな課題です。当機関は、量子化学、バイオ インフォマティクス、天文学、ナノテクノロジ、物理学など、40 以上の研究分野からの 500 名以上のユーザーを抱えています」

ワットあたりのパフォーマンスが 2 倍に向上
「最も負荷の高いワークロードの 1 つは、気候変動への対応や新素材の発見に関わるものです」と Guerrero 氏は言います。「たとえば、研究者たちは太陽エネルギーをより効率的に捕捉する太陽光発電材料を調査しています。チリでも天文学は大きな分野です。チリの空は、星を観測するのに最適な世界トップクラスの環境を誇ります。私たちは、国際的な資金調達により、きわめて重要な多くの望遠鏡を所有しています。アストロコンピューティングにおいては、銀河の形成過程を研究しています。超大質量ブラックホールや、望遠鏡から得られた画像について、多くの研究論文が発表されています。その中には、望遠鏡からのすべての画像を処理する天体ブローカーである ALeRCE (Automatic Learning for the Rapid Classification of Events) も含まれています。これらの画像はリアルタイムでの解析を必要とするものであり、ALeRCE は超新星などの変化があった場合にアラートを送信します」
「チリの国立コンピューティング ラボとして、HPC ハードウェアの最新の動向を常に把握することが重要です」と Guerrero 氏は言います。「AMD のチームは、テクノロジの最新の進歩について、私たちに積極的に知らせてくれます。第 4 世代 AMD EPYC CPU の検討を開始した際、チームは CPU の AVX-512 機能について最新の情報を共有してくれました。また、私たちは以前から使用していたベンダー製の GPU を変更することについても懸念がありました。そこで AMD チームは、私たちがシステムへの AMD GPU の統合を開始した際にスムーズに移行できるように、米国のエンジニアを紹介してくれました」
NLHPC は、第 4 世代 AMD EPYC プロセッサと AMD Instinct MI210 GPU をテストしました。「サーバーの設置やテストを実施した際、その結果に驚きました」と Guerrero 氏は述べています。入札プロセスでは、パフォーマンスが重要な要素でしたが、エネルギー効率も大きな役割を果たしました。「私たちの実施したテストは非常に多様でした。100 以上のワークロードをコンパイルしました。すべてのユーザーが、AMD EPYC CPU でパフォーマンスが大幅に向上したと評価しており、私たちも LINPACK ベンチマークを実施しました。これを前のアーキテクチャで実行したところ、パフォーマンスは理論上の最大値より最大 60% 低いことがわかりました。第 4 世代 AMD EPYC CPU を搭載した現在のクラスターでは、理論上の最大値の 100% 以上を達成しました。同じ結果を得るために前のクラスターが必要としたエネルギーも、新しいエネルギーの 2 倍でした。AMD EPYC CPU を使用することで、LINPACK ベンチマークで電力消費は 2 倍にしかならなかったにもかかわらず、4 倍も高いパフォーマンスを発揮しています」

チリの科学的進歩を促進
「AMD EPYC CPU を使用すると、多くのワークロードをすぐに実行できます」と Guerrero 氏は言います。「さらに、GNU Complier Collection または AMD Optimizing C/C++Compiler でアプリケーションを再コンパイルすると、以前のコンパイラのコードよりもはるかに優れたパフォーマンスが得られました。AMD Instinct GPU では、新しいソフトウェアを使用する必要がありました。そこで、AMD Infinity Hub が提供するコンテナーを導入しました。AMD ROCm™ ソフトウェアで利用できるプラットフォームは、この変換に最適な選択肢でした」
NLHPC の新しいクラスターでは、Lenovo ThinkSystem SR645 V3 サーバー 27 台を実行し、各サーバーにはデュアル 128 コアの第 4 世代 AMD EPYC 9754 CPU と 768 GB のメモリが搭載されています。コンピューティング ノードとアクセス ノードの合計コア数は 6,912 です。同社の 2 台の Lenovo ThinkSystem SR675 V3 GPU サーバーは、それぞれ 24 コア x 2 基の第 4 世代 AMD EPYC 9224 CPU と 6 基の AMD Instinct MI210 GPU を搭載しており、合計で 12 基のアクセラレータを備えています。演算負荷の高い AI ワークロードの処理中に CPU と GPU の動作温度を維持するために、Lenovo の Neptune 水冷システムが使用されました。
「私たちにとって最も重要なことは、チリに貢献して科学的進歩をもたらすことです」と Guerrero 氏は言います。「提供できるリソースが多いほど、コミュニティ全体に大きな影響を与えます」。チリの科学者からのフィードバックは圧倒的に肯定的なものでした。「WRF モデルを実行しているユーザーは、以前よりも大幅に高速化されたと報告しています。優れたパフォーマンスを発揮するもう 1 つのソフトウェア アプリケーションは、Nanoscale Molecular Dynamics (NAMD) モデルでした」

AMD と実現する研究の未来
この新しいクラスターは、研究者がワークロードを展開する方法を改善しています。「1 台のサーバーに多数のコアがある場合は、共有メモリ タスクを実行できます」と Guerrero 氏は言います。「AMD EPYC CPU により、1 つのタスクで 256 コアを使用できるようになりました。ほとんどのユーザーは MPI を使用していません。共有メモリ タスクを起動しています。1 台のサーバーに 200 以上のコアがある場合は、200 の演算ユニットを使用できます。これは、以前の CPU のように 40 コアのサーバーしかない場合には不可能でした。これは大きな利点です」。NLHPC の AMD Instinct アクセラレータも、ワットあたりのパフォーマンスを向上させています。「AMD Instinct MI210 GPU を使用することで、1 秒あたりの浮動小数点演算をより多く実行し、エネルギー効率を向上させることができます。ほとんどのユーザーは、この技術を分子動力学に採用しています」
「スペイン語の表現で、『計算できなければ競争できない (if you don't compute you don't compete)』という言葉をよく使います」と Guerrero 氏は語ります。「コンピューティングに投資して前進しなければ、世界の舞台での競争力は低下するでしょう」。チリでは、AI などの新たなワークロードに対応するために GPU を増やすインフラ購入資金として $700 万を提供するコンペティションがあり、もちろん私たちもこのコンペに参加する予定です。「今日の AI により、さまざまな国が膨大な金額を投資して処理能力を向上させています。これは、産業、国、研究、およびすべての市民に影響を与えます。米国、欧州、中国はリーダーですが、中南米にはまだやるべきことがたくさんあり、進歩を確実にするために、私たちは休むことなく取り組んでいます」
Guerrero 氏は、NLHPC と AMD の関係が次のフェーズを実現する、明るい未来を見据えています。「世界のスーパーコンピューターの上位 500 リストを見ると、AMD プロセッサが着実にシェアを伸ばしているのが明らかです」と Guerrero 氏は言います。「AMD はその存在感を高めてきています。世界中で何が起きているのかを見てみると、AMD テクノロジの統合を検討する必要があります。私たちが得た結果は非常に良好だからです。AMD は、すばらしい仕事をしてくれています。そのアーキテクチャは完璧です。これは社会全体にとって、より優れたコンピューティング環境を手に入れるための進歩となります。NLHPC と AMD エンジニアリング チームのコラボレーションは、パフォーマンスと最高のエネルギー効率を備えた最適なソリューションを実現するための鍵となりました。本当に信じられないほど素晴らしいものでした」

お客様に関する情報
チリの NLHPC (National Laboratory for High Performance Computing) は、国内有数のスーパーコンピューティング センターです。科学研究、革新、技術開発を支援する高度なコンピューティング リソースを提供しています。NLHPC は、国内の科学コミュニティ、政府機関、業界にサービスを提供し、気候モデル、天体物理学、ゲノミクスなどの分野でコラボレーションを促進し、進歩を推進しています。その使命は、HPC へのアクセスを民主化し、最先端の研究を可能にし、チリの科学的および経済的進歩に貢献することです。詳細については、nlhpc.cl をご覧ください。
ケース スタディに関する情報
- 業界:
科学研究 - 課題:
チリにおける科学研究のためのパフォーマンスとエネルギー消費を改善する - ソリューション:
第 4 世代 AMD EPYC CPU と AMD Instinct GPU を搭載した Lenovo ThinkSystem SR675 V3 および SR645 V3 サーバーを導入する - 結果:
従来のデータセンター インフラストラクチャと同じ消費電力でパフォーマンスが 2 倍に向上 - AMD テクノロジ概要:
第 4 世代 AMD EPYC 9754 CPU (コンピューティングおよびアクセス ノード) と AMD EPYC 9224 (GPU ホスト)
AMD Instinct MI210 GPU - テクノロジ パートナー:

