產品優勢
Versal HBM 系列異構整合了快速記憶體、安全連線和自適應運算,可為高度依賴記憶體且計算任務繁重的工作負載(例如機器學習、資料庫加速、新一代防火牆,以及進階網路測試器),消除處理和記憶體瓶頸。此系列是為了適應不斷演進的演算法、通訊協定和資料率而徹底從頭打造。 觀看介紹影片 瞭解更多詳細資訊。
Versal HBM 系列整合了 HBM2e DRAM,可提供高出 Versal Premium 系列多達 6 倍的頻寬並將每位元功耗降低 65%*。Versal HBM 系列建構於經正式生產環境實證的 Versal Premium 自適應 SoC 基礎之上,整合了一組廣泛的網路連線、多 Tb、省電最佳化連線核心,以及 112 Gb/s PAM4 收發器,可因應新興網路通訊協定和模組。Versal HBM 系列將收發器速度加倍,同時利用內建加密引擎保護網路基礎架構每一層的安全。配備可編程的晶片上網路 (network on chip, NoC),提供高達 2.2 Tb/s 的晶片上連線能力,可減輕架構元件之間的路由壅塞問題。此外,Versal HBM 系列所提供的邏輯密度是前一代 HBM 解決方案的兩倍,能讓持續進化不斷演化的演算法和通訊協定發揮最大效能。
*根據 2023 年 5 月的 AMD 內部分析,比較單一 Versal HBM VH1542 裝置搭配套件內封裝 HBM2E,與 Versal Premium VP1502 裝置實作搭配四個 LPDDR4-4266 元件之間的差異。假設順序記憶體存取具有 40% 的讀取/寫入交易。功率計算係使用 AMD Power Design Manager 及第三方系統功率計算工具產生。配置可能有所差異,進而產生不同的結果。 (VER-013)

主要功能
- 整合式 HBM2e
- 可擴充序列頻寬
- 省電最佳化的網路連線 IP
- 可編程邏輯
- DSP 引擎
- 處理系統

整合式 HBM2e
透過整合 HBM2e 技術提供高達 819 GB/s 的記憶體頻寬及 32 GB 的容量,為計算任務繁重的應用將功耗、面積及延遲降至最低。相較於標準型記憶體解決方案 (DDR5),Versal HBM 自適應 SoC 將堆疊記憶體放在緊鄰運算網狀架構之處,藉此提供高出 Versal Premium 系列多達 6 倍的頻寬並將每位元功耗降低 65%1。透過可編程的 NoC,即可在裝置上的任何位置全面存取整合式 HBM。有了整合式記憶體控制器和增強的交換器功能,便能從任何連接埠存取任何記憶體位置。
1.根據 2023 年 5 月的 AMD 內部分析,比較單一 Versal HBM VH1542 裝置搭配封裝 HBM2E,與 Versal Premium VP1502 裝置實作搭配四個 LPDDR4-4266 元件之間的差異。假設順序記憶體存取具有 40% 的讀取/寫入交易。功率計算係使用 AMD Power Design Manager 及第三方系統功率計算工具產生。配置可能有所差異,進而產生不同的結果。(VER-013)

可擴充序列頻寬
Versal HBM 自適應 SoC 包含擴充性極高的 58G/112 Gb/s PAM4 和 32 Gb/s NRZ 收發器,可提供高達 5.6 Tb/s 的序列 I/O 頻寬。112 Gb/s PAM4 收發器可讓產業布建具有 800G 和單通道 100G 效能的基礎架構。針對 400G 上升和部署,58 Gb/s PAM4 收發器可利用最新一代介面來提供最大頻寬密度。32 GB/s NRZ 收發器則是主流省電最佳化 100G 介面的理想選擇。

省電最佳化的網路連線 IP
高效能連線是新一代網路與雲端基礎架構的基礎。Versal HBM 系列提供前所未有的省電最佳化硬核 IP 整合,相當於 14 個 Virtex™ UltraScale+™ FPGA 的邏輯密度。Versal HBM 自適應 SoC 結合高速乙太網路、Interlaken 及具備 DMA 的 PCIe® Gen5,提供多 Tb 連線能力,並能彈性搭配各種通訊協定和資料率。線路速率高速加密引擎可完整保護網路傳輸。

可編程邏輯
Versal 架構彈性的核心在於可編程邏輯,讓使用者能開發出客製運算區塊以實現差異化、讓系統與時俱進,並能適應不斷變化的演算法和通訊協定。可編程邏輯具有多種晶片上記憶體元素,並與可編程 I/O 緊密結合,可提供大規模的平行處理能力與客製化功能,這對於許多要處理大型資料集而計算任務繁重的工作負載來說極為重要。

DSP 引擎
DSP 引擎支援各種操作及資料類型,包括單精度及半精度浮點與複雜的 18x18 操作。隨著前一代技術的增強,DSP 引擎可向下相容於 UltraScale+ FPGA 和 SoC 設計。使用者可以利用現有的程式庫或更新其設計,來獲得最大運算效能。

處理系統
我們有提供三種處理器類型以滿足各種應用需求。應用處理單元非常適合 OS 支援的複雜應用程式,而即時處理單元則是延遲敏感型應用程式的理想選擇。獨立的平台管理控制器可管理系統開機、安全性、電源管理及除錯。
Versal HBM 系列產品簡介
Versal HBM 系列能在單一平台中聚合快速記憶體、自行調適運算,以及安全的連線能力。

應用與產業

機器學習加速
人工智慧與機器學習 (Artificial Intelligence, AI/Machine Learning, ML) 的發展速度很快。複雜的演算法需要處理大量資料,因此需要龐大的記憶體頻寬。在傳統的運算架構中,當多個處理器核心同時運作時,系統會因為資料從外部記憶體移動的速度不夠快而停滯,最終達到極限。相比之下,Versal HBM 系列透過自行調適引擎和智慧引擎提供大規模的平行處理能力,並透過整合式 HBM 提供龐大的記憶體頻寬。因此,Versal HBM 系列能更快速地為許多 AI/ML 程序(例如餘弦相似度和 Louvain 模組化)提供準確的資料深入解析。Versal HBM 自適應 SoC 型解決方案具有一組廣泛的 Vitis™ 整合式軟體平台效能最佳化程式庫,能為發展快速的資料中心和雲端 AI,提供更高的 AI/ML 效能和效率。
運算預處理與緩衝
預處理資料是使固定函數運算裝置發揮最佳效果的關鍵。在真實世界中,ML 模型的資料集大小超過數 TB 是很常見的情況。因此,目標加速器需要大規模的資料預處理架構,才能有效率地處理這些資料集。Versal HBM 系列具有自行調適引擎和 819 GB/s 的 HBM 頻寬,可移除不需要的資料、轉換所選資料並增強資料,為目標加速器建立起強大的預測輸入。Versal HBM 系列配有高速 112G PAM4 收發器,能以低延遲提供最大的輸送量和系統效能。


新一代防火牆
網路營運商需要不中斷的智慧型管理及強大的網路可用性,以保護資料安全並避免企業網路遭受攻擊。
在實作多層式網路安全性方面,Versal HBM 系列具有無與倫比的擴充能力,可透過客製化原則與控制功能,以數千萬個同時進行的工作階段執行,範圍包含從實體與資料連結層到 VPN,再到傳輸層安全性層級。此外,多個 400G 整合式高速加密 (High-Speed Crypto, HSC) 引擎可讓系統維持線路速率輸送量和低延遲,而不影響效能。32G HBM 可讓新一代防火牆管理多個查找表,而無須存取外部記憶體來緩衝及重新編排網路流。112G PAM4 收發器支援最新的光纖標準和通訊協定,可擴充至新一代防火牆所需的更高輸送量。自行調適引擎能讓 ML 演算法將安全架構現代化,以抵禦新興威脅。
應用程式效能測試設備
隨著資料中心、雲端和 AI 網路開始準備迎接 800G 的光纖連線能力,許多資料中心網路和雲端供應商必須利用最先進的測試設備,確保能為計算任務繁重的應用程式提供互通性和健全的網路基礎架構。
資料中心網路與雲端供應商若要打造出可因應新興通訊協定及光纖互通性的網路,Versal HBM 裝置中的 112G PAM4 收發器是最重要的建構模塊之一。專用通道化多速率乙太網路核心具有可個別存取的 HSC、MAC、PCS 和 FEC 區塊,以及 32G HBM 和可編程 NoC,可實作最複雜的測試邏輯,適合讓 L4-L7 測試設備進行大規模流量緩衝、高效率資料移動、智慧資料流控制、追蹤及報告。

產品規格
記憶體規格
VH1522 | VH1542 | VH1582 | VH1742 | VH1782 | |
---|---|---|---|---|---|
HBM DRAM (GB) | 8 | 16 | 32 | 16 | 32 |
總區塊 RAM (Mb) | 89 | 89 | 89 | 132 | 132 |
UltraRAM (Mb) | 366 | 366 | 366 | 541 | 541 |
PL 記憶體總計 (Mb) | 509 | 509 | 509 | 752 | 752 |
DSP 引擎規格
VH1522 | VH1542 | VH1582 | VH1742 | VH1782 | |
---|---|---|---|---|---|
DSP 引擎 | 7,392 | 7,392 | 7,392 | 10,848 | 10,848 |
可編程邏輯規格
VH1522 | VH1542 | VH1582 | VH1742 | VH1782 | |
---|---|---|---|---|---|
系統邏輯單元 (K) | 3,837 | 3,837 | 3,837 | 5,631 | 5,631 |
LUT | 1,753,984 | 1,753,984 | 1,753,984 | 2,574,208 | 2,574,208 |
處理子系統規格
VH1522 | VH1542 | VH1582 | VH1742 | VH1782 | |
---|---|---|---|---|---|
應用處理單元 | 雙核心 Arm® Cortex®-A72,48 KB/32 KB L1 快取記憶體搭配奇偶校驗及 ECC;1 MB L2 快取記憶體搭配 ECC | ||||
即時處理單元 | 雙核心 Arm Cortex-R5F,32 KB/32 KB L1 快取記憶體及 256 KB TCM 搭配 ECC | ||||
記憶體 | 256 KB 晶片上記憶體搭配 ECC | ||||
連線 | 乙太網路 (x2);UART (x2);CAN-FD (x2);USB 2.0 (x1);SPI (x2);I2C (x2) |
平台規格
VH1522 | VH1542 | VH1582 | VH1742 | VH1782 | |
---|---|---|---|---|---|
GTYP 收發器 (32.75 Gb/s) | 681 | 681 | 681 | 681 | 681 |
GTM 收發器 (56G (112G)) | 20 (10) | 20 (10) | 20 (10) | 60 (30) | 60 (30) |
PCIe® 搭配 DMA (CPM5) | 2 個 Gen5x8 | 2 個 Gen5x8 | 2 個 Gen5x8 | 2 個 Gen5x8 | 2 個 Gen5x8 |
PCI Express (PLPCIE5) | 8 個 Gen5x4 | 8 個 Gen5x4 | 8 個 Gen5x4 | 8 個 Gen5x4 | 8 個 Gen5x4 |
400G 高速加密引擎 | 2 | 2 | 2 | 3 | 3 |
100G 多速率乙太網路 MAC | 4 | 4 | 4 | 6 | 6 |
600G 乙太網路 MAC | 1 | 1 | 1 | 3 | 3 |
600G Interlaken | 0 | 0 | 0 | 1 | 1 |
1.16 GTYP 收發器專門供 CPM5 用於 PCI Express。
適用於所有開發人員
AMD 提供領先業界的軟體開發環境,可使用自適應 SoC 和 FPGA 進行設計,包括工具(編譯器、模擬器等)、IP 和解決方案。
此環境可縮短開發時間,同時讓開發人員達成高每瓦效能的目標。這些工具讓 AI 科學家、應用程式與演算法工程師,嵌入式軟體開發人員,以及傳統硬體開發人員等各種開發人員,都能使用 AMD 自適應運算解決方案。

現在開始
利用套件所提供的經實證的硬體、軟體支援、工具、設計範例及文件,快速展開設計週期並快速上市。

使用 Versal HBM 系列 VHK158 評估套件著手開發
立即使用含 VH1582 裝置的 VHK158 評估套件,著手評估 Versal HBM 系列的功能。此平台運用整合式 HBM,相當適合用來開發計算任務繁重且受限於高度依賴記憶體的應用程式。利用套件所提供的經實證的硬體、軟體支援、工具、設計範例及文件,快速展開設計週期並快速上市。
資源

掌握最新動態
加入 Versal 通知清單,搶先收到最新消息。