AMD Radeon Instinct™ MI60與MI50加速器大幅提升運算效能、高速連接、高速記憶體頻寬,並更新ROCm開放軟體平台,滿足要求最嚴苛的深度學習、高效能運算、雲端與渲染等應用

台北

AMD(NASDAQ: AMD)發表AMD Radeon Instinct™ MI60與MI50加速器,為全球首款7奈米製程資料中心GPU,旨在滿足新一代深度學習、高效能運算、雲端運算以及渲染等應用所需的運算效能需求。研究人員、科學家以及開發者等運用AMD Radeon Instinct™加速器解決各種嚴峻與矚目的挑戰,包括大規模模擬、氣候變遷、計算生物學與疾病預防等。

AMD Radeon繪圖技術事業群工程部全球資深副總裁David Wang表示,傳統GPU架構限制了IT管理者有效處理對現代雲端資料中心的工作負載進行龐大資料集的持續演進與分析需求。新款AMD Radeon Instinct™加速器結合世界級效能以及靈活架構,加上強大的軟體平台以及業界最頂尖的ROCm開放軟體產業體系,不但提供業界需要的關鍵元件,也解決了現今與未來最艱鉅的雲端運算挑戰。

AMD Radeon Instinct™ MI60與MI50加速器擁有靈活的混合精度運算功能,搭載高效能運算單元,能夠處理更多工作負載類型,如各種HPC與深度學習應用。全新AMD Radeon Instinct™ MI60與MI50加速器專為有效處理眾多工作負載類型而設計。其應用範圍涵蓋訓練複雜的神經網路,為資料中心與部門部署提供更高的浮點運算效能、效率以及各種新功能1

AMD Radeon Instinct™ MI60與MI50加速器提供高速的浮點運算效能以及高達1 TB/s的超高速HBM2(第2代高頻寬記憶體),也是首款支援新一代PCIe® 4.02互連技術的GPU,比其他x86 CPU到GPU互連技術快出高達2倍3,並配備AMD Infinity Fabric™ Link GPU互連技術,讓GPU對GPU的通訊比PCIe® Gen 3快出高達6倍4

AMD同時宣佈推出用於加速運算的新版ROCm開放軟體平台,支援新款加速器的各項結構功能,包括優化的深度學習作業(DLOPS)以及AMD Infinity Fabric™ Link GPU互連技術。專為擴充設計的ROCm讓客戶在開放環境中部署高效能且環保節能的異質化運算系統。

Google TensorFlow工程部總監Rajat Monga表示,Google相信開放性資源對每位使用者都有益處。我們看到了開源機器學習技術帶來的助益,也很高興看到AMD的支持。在ROCm開放軟體平台的幫助下,TensorFlow用戶將能受益於GPU加速技術以及更強大的開源機器學習產業體系。

AMD Radeon Instinct™ MI60MI50加速器的特色:

  • 優化深度學習作業:提供靈活的混合精度FP16、FP32以及INT4/INT8運算功能,滿足瞬息萬變且不斷演化成長的工作負載需求,包括從訓練複雜的神經網路一直到對這些受訓網路執行的推導。
  • 全球最快雙精度PCIe®2加速器5AMD Radeon Instinct™ MI60加速器是全球最快雙精度PCIe 4.0加速器,提供高達7.4 TFLOPS的尖峰FP64效能5,讓各產業的科學家與研究人員更有效率地處理各種HPC應用,包括生命科學、能源、金融、汽車、航太、學術、政府機構以及國防等領域。AMD Radeon Instinct™ MI50提供高達6.7 TFLOPS的FP64尖峰效能1,針對各種深度學習工作負載帶來一個高效率、高性價比的解決方案,同時能在虛擬桌面基礎架構(VDI)、桌面即服務(DaaS)以及各種雲端環境高度重複使用。
  • 高達6倍的資料傳輸速度:每個GPU配置2個Infinity Fabric™ Links,點對點傳輸頻寬高達200 GB/s,比PCIe 3.0快達6倍4,在巢式環形組態下支援4個GPU連結(在8 GPU的伺服器內配置2個巢結構)。
  • 超高速HBM2記憶體:AMD Radeon Instinct™ MI60和MI50分別提供32GB及16GB的HBM2錯誤校正碼(ECC)記憶體6。兩款GPU提供全晶片ECC與可靠、可用、可維護7技術(RAS)。RAS可為超大規模HPC部署,提供更精準運算結果的關鍵技術。
  • 支援安全虛擬化工作負載:AMD MxGPU技術是業界唯一硬體式GPU虛擬化解決方案,採用業界標準SR-IOV(單根I/O虛擬化)技術,使駭客難以從硬體層面發動攻擊,為虛擬雲端部署提供安全防護。

更新ROCm開放軟體平台

AMD同時發佈新版ROCm開放軟體平台,設計旨在加速開發高效能且節省能源的異質化運算系統。除了支援新款Radeon Instinct™加速器,ROCm 2.0版本軟體還針對新DLOPS更新數學函式庫,支援包括CentOS、RHEL以及Ubuntu在內的64位元Linux作業系統。ROCm也將現有元件優化,以及支援最新版本的熱門深度學習框架,包括TensorFlow 1.11、 PyTorch(Caffe2)等。敬請參閱ROCm 2.0軟體。

供應時程

AMD Radeon Instinct™ MI60加速器預計在2018年底開始向資料中心客戶出貨,Radeon Instinct™ MI50則預計在2019年第1季季末前開始供應。ROCm 2.0開放軟體平台將於2018年底推出。

相關資源

關於AMD

49年來,AMD(NASDAQ:AMD)推動創新高效能運算、繪圖及視覺技術,建構遊戲、高臨場感平台與資料中心等重要領域。全球數以百萬的消費者、世界500強企業以及尖端科學研究機構皆仰賴AMD的技術來改善生活、工作及娛樂。AMD全球員工致力於研發卓越的產品,不斷突破技術的極限。欲瞭解AMD如何成就今天,啟發未來,請瀏覽AMD網站部落格FacebookTwitter


©2018年,AMD公司版權所有。AMDAMD箭頭、RadeonInstinct及上述名稱的組合是AMD公司的商標。其他名稱只為提供資訊的目的,也可能是各自所有者的商標。

免責聲明

新聞稿中涉及美商超微半導體(「AMD」或「公司」)的前瞻性陳述,其中包括特色、功能、供貨、產品時序、以及AMD預期透過AMD Radeon Instinct™ MI60和MI50加速器以及ROCm 2.0 開放軟體平台獲得的益處,這些事項都依循1995年私人證券訴訟法修正條文的安全港免責條款。這些前瞻性聲明含有像「將會」、「打算」、「相信」、「預計」、「可能」、「應該」、「尋求」、「預備」、「預期」、「預料」,或這些詞和短語的否定詞,以及其他和這些詞語和短語相似的詞彙。投資者應注意本文件中的前瞻性陳述僅根據本文公佈當時的見解、假設以及預期,僅反映本檔發布時的情況,且涉及到許多風險與不確定因素,可能會導致實際結果與預期存在重大差異;此聲明依照特定已知或未知的風險與不確定因素,其難以預期且不在AMD的控制範圍,可能會導致實際結果和未來事件與表示、暗示、預期的前瞻性資訊和聲明存在重大差異。重大因素可能會導致實際結果與預期存在差異,包含甚至不排除以下情況:Intel公司支配微處理器市場,其侵略性經營手段可能限制AMD與之效率競爭的能力;AMD和GLOBALFOUNDRIES公司(GF)達成晶圓供應協定(WSA),購買我們所有的微處理器和APU產品要求,以及其GPU產品要求的一定部分,僅有限定例外;倘若GF無法滿足生產方面的各項要求,可能對AMD業務產生負面影響;AMD目前依賴協力廠商製造產品,如果這些廠商無法及時足量交貨,或是使用競爭對手的技術,AMD的業務可能遭受嚴重的負面衝擊;AMD的產品無法達到預期的生產良率,可能對營收產生負面影響;其業務推動的成功,有賴於AMD能及時推出產品,且產品的功能與效能水準須能為顧客帶來價值,支援及協助大幅度的產業轉型;若AMD無法獲得足夠的營收與現金流,或取得外部資金挹注,可能面臨現金短缺以及無法進行所有規劃進行的投資,推動研究開發或其他策略性投資;流失大量的客戶可能帶來嚴重的負面衝擊。AMD從其半客製化SoC產品獲得利潤的能力,仰賴於設計在協力廠商產品的技術以及這些產品的成功;AMD產品可能會面臨可能對AMD造成重大不利影響的安全漏洞;數據洩露和網絡攻擊可能會損害AMD的知識產權或其他敏感訊息,對其業務和聲譽進行補救並造成重大損失;AMD的經營業績受到季度和季度銷售模式的影響;全球經濟局勢的不確定性,可能對AMD的業務與營運結果產生不利的衝擊;AMD可能無法收入足夠的現金來償還債務或因應營運資金的需求;AMD的債務可能對其財務狀況產生不利影響,使其無法執行其策略或履行合約義務;規範AMD公司債及有擔保循環信貸額度的協議,對AMD產生許多限制,可能對其經營業務產生負面影響;AMD產品銷售的市場競爭激烈;AMD發行West Coast Hitech L.P.公司認股權證以購買7,500萬股普通股,如果行使時將削弱其現有股東的所有權權益,及2026年轉換的2.125%可轉換優先債可能稀釋其現有股東的所有者權益,否則可能會降低其普通股的價格。涉及AMD產品的訂購與出貨的不確定因素,可能產生嚴重的負面影響;AMD產品的需求有賴於銷售目標產業的市場景氣。AMD產品需求的波動或這些產業市場衰退,都會對營運結果產生嚴重的負面衝擊;AMD設計新產品還有產品及時問市的能力,有賴於協力廠商業者的智產;AMD依賴協力廠商企業協助自己設計、製造、以及供應主機板、軟體、以及其他電腦平台零組件來支持其事業;若AMD失去微軟對其產品的支持,或是其他軟體廠商不為AMD的產品設計與開發軟體,AMD銷售產品的能力就會受到嚴重的負面影響;AMD對協力廠商經銷商與擴充卡(AIB)夥伴的依賴,使自己承擔一定的風險。呼籲投資者詳閱公司呈交美國證管會各項財報中提及的風險與不確定因素,其中包括但不限於AMD於2018年9月29日提出的Form 10-Q季報。

美商超微半導體

高惠如 Robyn Kao

Tel:2655-8885 EXT.23352

Email:Robyn.Kao@amd.com

世紀奧美公關

廖承運 Anthony Liao / 黎淑玲 Jannie Lai

Tel:2577-2100 EXT.806 / 819

Email:AnthonyCY.Liao@eraogilvy.com 

   JannieSL.Lai@eraogilvy.com     

註解

註1:在2018年10月22日。文中提及結果是根據Radeon Instinct MI60這顆採用Vega 7奈米 FinFET製程的晶片擁有29.5 TFLOPS 半精度 (FP16)、14.8 TFLOPS 單精度 (FP32) 、以及7.4 TFLOPS 倍精度 (FP64) 尖理論浮點運算效能。如此卓越的效能是透過在比前一代MI25 GPU產品還要小且底面積僅有331.46mm2的晶粒內嵌入132億個電晶體,而且功耗還維持在300瓦以內。

文中結果的計算是在Radeon Instinct MI50,這顆採用Vega 7奈米FinFET製程技術的晶片提供26.8 TFLOPS 尖峰半精度(FP16)、13.4 TFLOP

尖峰單精度(FP32)、以及6.7 TFLOPS尖峰倍精度(FP64)浮點運算效能。如此卓越的效能是透過在比前一代MI25 GPU產品還要小且底面積僅有331.46mm2的晶粒內嵌入132億個電晶體,而且功耗還維持在300瓦以內。

文中結果的計算是採用Radeon Instinct MI25,這顆採用 “Vega10”架構的晶片提供24.6 TFLOPS 尖峰半精度(FP16)、12.3 TFLOPS尖峰單精度(FP32)、以及768 GFLOPS尖峰倍精度(FP64)浮點運算效能。如此卓越的效能源自於在底面積僅494.8mm2的晶粒內嵌入125億個電晶體,而且功耗還維持在300瓦以內。

AMD TFLOPS 的計算是根據以下公式,對Radeon Instinct MI25、MI50、以及MI60 GPUs進行計算: FLOPS 的計算是將引擎時脈最高DPM狀態乘以每個GPU內含的xx個CU單元。之後再將結果乘以每個CU單元含有的XX個串流處理器。接著再把結果乘以FP32每個時脈2 FLOPS,以及FP16每個時脈乘以4 FLOPS。在對Vega 7奈米產品MI50與MI60的FP64 TFLOPS速率時,採用1/2的運算速率,而 “Vega 10”架構的MI25則採用1/16的速率。

針對MI50與MI60 GPU的TFLOP計算,詳情可參閱 https://www.amd.com/en/products/professional-graphics/instinct-mi50 以及https://www.amd.com/en/products/professional-graphics/instinct-mi60

運算速度/瓦

 

MI25

MI50

MI60

FP16

0.082

0.089

0.098

FP32

0.041

0.045

0.049

FP64

0.003

0.022

0.025

業界支援文件/網頁:

http://www.tsmc.com/english/dedicatedFoundry/technology/7nm.htm

https://www.globalfoundries.com/sites/default/files/product-briefs/product-brief-7lp-7nm-finfet-technology.pdf

AMD並未獨立測試或驗證外部/第三方機構的結果/資料,因此對於其中疏失或遺漏概不承擔責任。RIV-2

註2: 待更新

註3:在2018年10月22日,Radeon Instinct™ MI50 與MI60 “Vega 7奈米” 技術加速器支援 PCIe Gen 4.0 規格,在通過PCIe Gen 4.0 x16規格認證的伺服器上,每個GPU繪圖卡能能提供64 GB/s尖峰頻寬。尖峰理論傳輸率指南僅為估算數據,實際數值可能會有異動。前一代Radeon Instinct運算GPU介面卡採用PCIe Gen 3.0規格,提供32 GB/s尖峰理論傳輸率的頻寬效能。

尖峰理論傳輸率效能的計算公式為 鮑率* 位元組單位的寬度* # 傳輸方向數量= GB/s 

PCIe Gen 3: 8 * 2 * 2 = 32 GB/s

PCIe Gen 4: 16 * 2 * 2 = 64 GB/s

係指伺服器製造商公布的PCIe Gen 4.0相容性與效能指南,提及特定伺服器機種的潛在尖峰效能。各家伺服器製造商產品組態各異,故測出結果也會有差異。

https://pcisig.com/ 

https://www.chipestimate.com/PCI-Express-Gen-4-a-Big-Pipe-for-Big-Data/Cadence/Technical-Article/2014/04/15 

https://www.tomshardware.com/news/pcie-4.0-power-speed-express,32525.html 

AMD並未獨立測試或驗證外部/第三方機構的結果/資料,因此對於其中疏失或遺漏概不承擔責任。RIV-5

註4:在2018年10月22日。Radeon Instinct™ MI50 與MI60 “Vega 7奈米” 技術的加速器採用 PCIe® Gen 4.0* 規格,在通過PCIe Gen 4.0 x16認證的伺服器內,CPU到每個GPU介面卡之間提供64 GB/s尖峰理論傳輸頻寬。

前一代Radeon Instinct 運算GPU介面卡採用PCIe Gen 3.0 規格,提供最高32 GB/s的尖峰理論傳輸率頻寬效能。

尖峰理論傳輸率效能的計算公式為 鮑率* 位元組單位的寬度* # 傳輸方向數量= 每個介面卡的GB/s 

PCIe Gen3: 8 * 2 * 2 = 32 GB/s

PCIe Gen4: 16 * 2 * 2 = 64 GB/s

Vega20 對Vega20 xGMI = 25 * 2 * 2 = 100 GB/s * 每個GPU2個鏈路= 200 GB/s

xGMI (亦名為Infinity Fabric Link)  對比PCIe Gen3: 200/32 = 6.25倍

採用 「Vega 7奈米」製程技術的Radeon Instinct™ MI50 與MI60 加速器內含兩個Infinity Fabric™ Links 鏈路,每個GPU介面卡提供200 GB/s尖峰理論GPU對GPU或點對點(P2P)傳輸率頻寬效能。再結合PCIe Gen 4相容性,帶來高達264 GB/s的匯整GPU介面卡I/O尖峰頻寬。

效能指南的資料僅為估算數據,實際數值可能會有異動。前一代Radeon Instinct運算GPU介面卡提供32 GB/s的PCIe Gen 3.0規格尖峰傳輸頻寬效能。

Infinity Fabric™ Link鏈路技術尖峰理論傳輸率效能的計算公式為鮑率* 位元組單位的寬度* # 傳輸方向數量 * 鏈路數量= 每個介面卡的GB/s  Infinity Fabric Link鏈路: 25 * 2 * 2 = 100 GB/s

MI50 |MI60 各自擁有兩個鏈路:

100 GB/s * 每個GPU2個鏈路= 200 GB/s

請參閱各家伺服器製造商PCIe Gen 4.0 相容性與效能指南,查閱特定伺服器機種的潛在尖峰效能。各家伺服器製造商產品組態各異,故測出結果也會有差異。

https://pcisig.com/  

https://www.chipestimate.com/PCI-Express-Gen-4-a-Big-Pipe-for-Big-Data/Cadence/Technical-Article/2014/04/15  

https://www.tomshardware.com/news/pcie-4.0-power-speed-express,32525.html  

AMD並未獨立測試或驗證外部/第三方機構的結果/資料,因此對於其中疏失或遺漏概不承擔責任。RIV-4

註5:計算日期為2018年10月22日,Radeon Instinct MI60 GPU擁有7.4 TFLOPS 尖峰理論倍精度浮點運算(FP64)效能。AMD 的TFLOPS計算是採用以下公式: FLOPS計算是採最高DPM狀態的引擎時脈,再乘以每個GPU內含的CU單元數量。接著再乘以每個CU單元內含串流處理器數量xx,得到的結果再乘以FP64每個時脈1/2 FLOPS。MI60的TFLOP計算可參閱

https://www.amd.com/en/products/professional-graphics/instinct-mi60 . 外部對NVidia Tesla V100 (16GB 介面卡) GPU 加速器的評測結果為7 TFLOPS尖峰倍精度(FP64)浮點運算效能。結果數據可參閱:

https://images.nvidia.com/content/technologies/volta/pdf/437317-Volta-V100-DS-NV-US-WEB.pdf . AMD並未獨立測試或驗證外部/第三方機構的結果/資料,因此對於其中疏失或遺漏概不承擔責任。

註6:採用 「Vega 7奈米」技術的第2代Radeon Instinct™ GPU介面卡支援的ECC功能已擴充到全晶片ECC,包括HBM2記憶體以及內部GPU架構。

註7:擴充RAS (可靠性、可用性、可維護性) 屬性已加入到AMD的第二代Radeon Instinct™ Vega 7奈米製程GPU介面卡以及其背後的產業體系,其中包括軟體、韌體、以及系統層級功能。AMD的遠端管理功能採用先進的頻外(out-of-band)線路,不論是GPU當時處於什麼狀態,用戶都可透過I2C監視GPU,讓管理工作更為簡便。有關全系統RAS功能,請參閱系統製造商對於特定系統機種提供的指南。