AMD為科學研究發表全球最快HPC加速器

AMD Instinct™ MI100加速器以領先業界的運算效能為HPC與AI帶來顛覆性改變
首款採用全新AMD CDNA架構的GPU加速器為exascale等級時代量身擘劃

台北—2020年11月17日—AMD（NASDAQ: AMD）發表全新AMD Instinct™ MI100加速器，為全球最快高效能運算（HPC）GPU，同時也是首款突破10 teraflops (FP64)效能的x86伺服器GPU註1。MI100加速器獲得戴爾、技嘉、HPE、美超微（Supermicro）等各大廠商的新款加速運算平台支援，結合AMD EPYC™ CPU以及ROCm™ 4.0開放軟體平台，旨在為即將到來的exascale等級時代推動全新發現。

AMD Instinct MI100 GPU採用全新AMD CDNA架構打造，搭配AMD第2代EPYC處理器，為高效能運算與AI開創出全新等級的加速系統。MI100在高效能運算方面提供高達11.5 TFLOPS的FP64尖峰效能，在AI與機器學習工作負載方面則提供高達46.1 TFLOPS的FP32 Matrix尖峰效能註2。透過全新AMD Matrix Core技術，MI100在執行AI訓練工作負載時能提供比AMD前一代加速器提升近7倍的FP16理論尖峰浮點運算效能註3。

AMD資料中心GPU與加速處理部門全球副總裁Brad McCredie表示，AMD推出AMD Instinct MI100，為全球最快的高效能運算GPU，代表著我們往exascale等級運算的目標邁進一大步。瞄準科學運算中最關鍵的工作負載，最新加速器搭配AMD ROCm開放軟體平台，兩強合併的組合為科學家與研究人員提供更為優越的高效能運算工作基礎。

瞄準Exascale等級時代所打造的開放軟體平台
AMD ROCm開發者軟體為exascale等級運算提供基礎。ROCm作為一個由編譯器、程式開發API與函式庫組成的開源工具集，可以幫助眾多exascale等級軟體開發者打造高效能應用程式。經過優化的ROCm 4.0能為基於MI100的系統提供大規模運算的效能。ROCm 4.0已將編譯器升級至支援開源並統一支援OpenMP® 5.0與HIP。此外，PyTorch與Tensorflow框架都已針對ROCm 4.0進行優化，能配合MI100達到更高的效能註7、8。ROCm 4.0是為高效能運算、機器學習以及人工智慧程式開發者量身打造的最新方案，讓他們開發高效能的可移植軟體。

橡樹嶺國家實驗室領導運算中心科學總監Bronson Messer表示，我們已經率先使用MI100加速器，初步使用效果讓人非常振奮。我們見證到大幅的效能提升，相比其他GPU高出達2到3倍。我們也同樣意識到軟體對效能影響的重要性。開源的ROCm開放軟體平台以及HIP開發者工具能在各種平台上運行，這是我們自推出首款混合CPU/GPU系統以來最關切的特點。

AMD Instinct MI100加速器的關鍵功能與特色包括：
• 全新AMD CDNA架構－AMD CDNA架構提供卓越的效能與功耗效率，為AMD GPU提供exascale等級時代的效能，同時也是MI100加速器的核心。
• 為HPC工作負載提供領先的FP64與FP32效能－提供領先業界的11.5 TFLOPS尖峰FP64 效能，以及23.1 TFLOPS的尖峰FP32效能，幫助全球各地科學家與研究人員加快在生命科學、能源、金融、學術、政府、國防等領域的新發現註1。
• 為HPC與AI開發的全新Matrix Core技術－針對全範圍單精度與混合精度矩陣運算提供大幅提升效能，其中包括FP32、FP16、bFloat16、Int8、以及Int4等，促進HPC與AI的融合。
• 第2代AMD Infinity Fabric™技術－Instinct MI100使用3個AMD Infinity Fabric™ Link時，可在PCIe® 4.0上提供約2倍的P2P (peer-to-peer)尖峰I/O頻寬，以及每張顯示卡高達340 GB/s的總頻寬註4。在伺服器中，MI100 GPU可配備兩個完全連結的Quad GPU單元（hives），每個單元可為高速資料分享提供高達552 GB/s的P2P I/O頻寬註4。
• 超高速HBM2記憶體－配備32GB高頻寬HBM2記憶體以及1.2 GHz的時脈頻率，帶來超高的1.23 TB/s記憶體頻寬，支援龐大資料集，協助消弭資料在記憶體存取時的傳輸瓶頸註5。
• 支援業界最新PCIe® Gen 4.0技術－配合最新版PCIe Gen 4.0技術進行開發，在CPU與GPU之間提供高達64GB/s尖峰理論傳輸資料頻寬註6。

伺服器解決方案案例
企業級市場的各大OEM與ODM合作夥伴廠商預計將於今年底問市的新系統中搭載AMD Instinct MI100加速器，其中包括：

戴爾
戴爾科技集團PowerEdge伺服器資深副總裁Ravi Pendekanti表示，Dell EMC PowerEdge伺服器將支援全新AMD Instinct MI100，能更快從數據中分析出洞察。這將協助客戶迅速得到更強大且高效率的HPC與AI結果。AMD一直是協助我們推動資料中心創新的重要合作夥伴。AMD Instinct加速器的高效能特性與PowerEdge伺服器AI與HPC產品陣容完美契合。

技嘉
技嘉NCBU助理副總裁Alan Chen表示，我們很高興再次與AMD合作成為策略夥伴，為客戶提供高效能運算所需的伺服器硬體。AMD Instinct MI100加速器代表著資料中心高效能運算的全新水平，為能源研究、分子動力學、以及深度學習訓練帶來更高的連接性與資料頻寬。作為技嘉產品陣容的全新加速器，我們的客戶將在一系列科學與工業HPC工作負載上獲得更好的效能。

HPE
HPE全球副總裁暨高效能運算部門總經理Bill Mannel表示，客戶運用HPE Apollo系統帶來的特定功能與效能，解決在高效能運算、深度學習以及分析等領域中一系列複雜的資料密集型工作負載。隨著全新HPE Apollo 6500 Gen10 Plus系統的推出，我們進一步推升產品陣容，並藉由支援全新AMD Instinct MI100加速器與AMD第2代EPYC™處理器來改進工作負載效能，發揮更高的連接性與資料處理能力。我們期盼繼續與AMD合作，利用其最新的CPU與加速器來擴大我們的產品方案。

美超微（Supermicro）
美超微現場應用工程與事業發展部資深副總裁Vik Malyala表示，我們非常高興AMD Instinct MI100加速器為高效能運算領域帶來巨大影響。全新CDNA架構帶來的運算力提升，加上MI100帶來的高記憶體容量以及GPU P2P傳輸頻寬，我們的客戶將可獲得各種卓越的解決方案，滿足其加速運算需求以及關鍵企業工作負載。AMD Instinct MI100將為我們多重GPU伺服器以及高效能系統與模組化構建式伺服器解決方案的廣泛產品陣容提供一個卓越的擴充方案。

AMD Instinct™ MI100規格
運算單元串流
處理器 FP64 TFLOPS
(尖峰) FP32 TFLOPS
(尖峰) FP32 Matrix TFLOPS
(尖峰) FP16/FP16 Matrix
TFLOPS
(尖峰) INT4 | INT8 TOPS
(尖峰) bFloat16 TFLOPs
(尖峰) HBM2 ECC
記憶體記憶體頻寬
120 7680 高達11.5 高達23.1 高達46.1 高達184.6 高達184.6 高達92.3 32 GB 高達1.23 TB/s

相關資源
更多關於：AMD Instinct™加速器
更多關於：AMD高效能運算解決方案
更多關於：AMD高效能運算解決方案中心
更多關於：AMD CDNA
更多關於：AMD第2代EPYC™處理器
Facebook：AMD粉絲專頁
Twitter：於@AMD追蹤AMD新訊

關於AMD
50年來，AMD（NASDAQ：AMD）推動創新高效能運算、繪圖及視覺技術，建構遊戲、高臨場感平台與資料中心等重要領域。全球數以百萬的消費者、世界500強企業以及尖端科學研究機構皆仰賴AMD的技術來改善生活、工作及娛樂。AMD全球員工致力於研發卓越的產品，不斷突破技術的極限。欲瞭解AMD如何成就今天，啟發未來，請瀏覽AMD網站、部落格、Facebook及Twitter。

©2020年，AMD公司版權所有。AMD、AMD箭頭、EPYC、AMD Instinct、Infinity Fabric、ROCm及上述名稱的組合是AMD公司的商標。OpenMP及OpenMP Logo是OpenMP Architecture Review Board的註冊商標。PCIe是PCI-SIG Corporation的註冊商標。Python是Python Software Foundation的一個商標。PyTorch是PyTorch的一個商標或註冊商標。TensorFlow、TensorFlow Logo及任何相關標示都是Google Inc.的商標。
本新聞稿中提及的其他產品名稱僅作辨識之用，可能是所有者企業的商標。

新聞聯絡人：
美商超微半導體世紀奧美公關
高惠如 Robyn Kao 黎淑玲 Jannie Lai / 顏仕柔 Cheryl Yen / 張淑瑜 Sharon Chang
Tel：2655-8885 EXT.23352 Tel：2577-2100 EXT.819 / 610 / 805
Email：Robyn.Kao@amd.com
Email： JannieSL.Lai@eraogilvy.com
CherylSJ.Yen@eraogilvy.com
SharonSY.Chang@eraogilvy.com

免責聲明
本新聞稿包含有關Advanced Micro Devices, Inc（AMD）的前瞻性陳述，包含AMD Instinct™ MI100加速器產品的特色、功能、效能、上市時間、時程以及預期收益，這些陳述皆基於1995年《私人證券訴訟改革法案》（U.S. Private Securities Litigation Reform Act）的「安全港」（Safe Harbor）條款所訂定出。這些前瞻性聲明含有像「將會」、「可能」、「預期」、「相信」、「計劃」、「打算」、「估計」，或這些字詞和短語的其它類似詞彙。投資者應注意本新聞稿中的前瞻性陳述僅根據本文公佈當時的見解、假設以及預期，僅反映本新聞稿發布時的情況，且涉及到許多風險與不確定因素，可能會導致實際結果與預期存在重大差異。這類陳述受到特定已知與未知風險與不確定因素所影響，其中許多因素難以預測且大多非AMD所能掌控，並可能響應實際結果與其他未來事件和文中陳述有所出入，或是和前瞻性陳述資訊與陳述的暗示或預期狀況有所不同。可能導致實際結果和當前預期有所出入的實質因素包括但不限於：包括Intel公司佔據微處理器市場，及其侵略性經營手段、協力廠商能及時製造足夠數量AMD的產品、或使用競爭對手的技術、AMD的產品預期的製造良率、生產AMD各項產品的基礎設備或材料的影響、AMD能及時推出產品，且產品的功能與效能水準須能為顧客帶來價值、流失大量客戶、AMD由半客製化SoC產品獲得的收益、COVID-19疫情可能會造成業務、財務狀況與營運結果影響、政治、法律、經濟風險，以及各種天然災害、政府和法規影響，例如出口管理與法規、關稅以及貿易保護措施，併購、合資與／或投資可能對業務產生的影響，包含發布併購賽靈思，以及無法整合被併購的事業、AMD完成收購賽靈思的能力、發布併購賽靈思及其所帶來的不確定性對AMD業務造成的影響，AMD產品實際或察覺的安全漏洞，例如IT中斷、數據遺失、資料外洩和網路攻擊、AMD產品的訂購與出貨狀況面臨的不確定性、產品所屬產業市場的景氣狀況、管理AMD票據的協議和循環信用額度施加的限制、AMD產品銷售的市場狀況、有賴於協力廠商業者的智慧財產權、AMD目前依賴許多協力廠商業者進行設計、製造，以及供應包括主機板、軟體和其他電腦平臺零組件以支持其業務、AMD依賴微軟公司和其他軟體廠商的設計與開發軟體，以支援其產品、AMD對協力廠商經銷商與AIB夥伴廠商的依賴、2026年可轉換的2.125%可轉換高級票據可能有潛在稀釋影響、AMD可能面臨商譽受損、AMD吸引或留住優質人才的能力、AMD產生足夠的營收與營運現金流，或獲得用於研發或其他戰略投資的外部融資、AMD債務、AMD有足夠的現金流入以償還公司的借貸或應付營運資本需求的能力、在發生控制權變動的情況下，AMD可以購回所有在外流通債的能力、半導體產業的循環性。修改或運行AMD內部業務經營與資訊系統的影響AMD的產品與某些或所有業界標準的軟體與硬體的相容性、瑕疵產品的相關成本、AMD供應鏈的效率、AMD依賴協力廠商廠商提供特定供應鏈物流業務、AMD股價波動、全球政治局勢、不利的貨幣匯率波動、AMD控制其產品在灰市銷售的能力、AMD對其技術或其他智慧財產進行足夠保護的能力、AMD可能被捲入法律訴訟，以及成為其他訴訟案件的一方、AMD受到各種環保法律、衝突礦產相關的規定及其他各種法律條款所規範、呼籲投資者詳閱公司呈交美國證管會各項財報中提及的風險與不確定因素，其中包括但不限於AMD於2020年9月26日提出的Form 10-Q季報。

註1：計算由AMD效能實驗室於2020年9月18日執行，受測對象為AMD Instinct™ MI100 (32GB HBM2 PCIe® 介面卡) 加速器，1,502 MHz尖峰值提升引擎時脈，測得11.54 TFLOPS尖峰值雙精度(FP64)、46.1 TFLOPS尖峰值單精度矩陣(FP32)、23.1 TFLOPS尖峰值單精度(FP32)效能、184.6 TFLOPS尖峰值半精度(FP16) 尖峰值理論、浮點運算效能。公布結果係在Nvidia Ampere A100 (40GB) GPU加速器進行量測，測得9.7 TFLOPS 尖峰倍精度 (FP64)、19.5 TFLOPS尖峰單精度(FP32)、78 TFLOPS尖峰半精度(FP16)理論、浮點運算效能。各家伺服器製造商產品設置各異，故測得結果也會有差異。MI100-03

註2：計算由AMD效能實驗室於2020年9月3日執行，受測對象為AMD Instinct™ MI100 (32GB HBM2 PCIe® 介面卡)加速器，1,502 MHz峰值引擎時脈，測得46.1 TFLOPS峰值理論單精度(FP32 Matrix)數學浮點運算效能。Nvidia Ampere A100 (40GB) GPU加速器公佈結果為19.5 TFLOPS峰值單精度(FP32)浮點運算效能。Nvidia結果公布在: https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/nvidia-ampere-architecture-whitepaper.pdf。各家伺服器製造商產品設置各異，故測得結果也會有差異。MI100-01

註3：計算由AMD效能實驗室於2020年9月18日執行，受測對象為AMD Instinct™ MI100加速器，1,502 MHz峰值提升引擎時脈，測得184.57 TFLOPS峰值理論半精度(FP16)以及46.14 TFLOPS峰值理論單精度(FP32 Matrix)浮點運算效能。結果計算的對象為Radeon Instinct™ MI50 GPU，1,725 MHz峰值引擎時脈，測得26.5 TFLOPS峰值理論半精度(FP16)以及13.25 TFLOPS峰值理論單精度(FP32 Matrix)浮點運算效能。各家伺服器製造商產品設置各異，故測得結果也會有差異。MI100-04

註4：計算由AMD效能實驗室於2020年9月18日執行，受測對象為AMD Instinct™ MI100，採用AMD CDNA技術加速器支援 PCIe® Gen4，每個介面卡中CPU與GPU之間提供高達64 GB/s峰值理論傳輸資料頻寬。AMD Instinct™ MI100加速器內含3個Infinity Fabric™連結，每個GPU介面卡提供最高276 GB/s峰值理論GPU至CPU或是對等(P2P)傳輸率頻寬效能。再加上PCIe Gen4的支援，提供匯整GPU介面卡I/O尖峰頻寬最高達340 GB/s。MI100s 有3個連結：92 GB/s *每個GPU配置3個連結= 276 GB/s。4個GPU的單元提供高達552 GB/s峰值理論P2P效能。伺服器內的2個4 GPU單元，在每個伺服器內提供高達1.1 TB/s峰值理論直連P2P效能。AMD Infinity Fabric互連技術未開啟：4個GPU組合單元搭配PCIe® 4.0技術，提供高達256 GB/s峰值理論P2P效能。各家伺服器製造商產品設置各異，故測得結果也會有差異。MI100-07

註5：計算由AMD效能實驗室於2020年10月5日執行，受測對象為AMD Instinct™ MI100加速器，採用AMD CDNA 7奈米 FinFET製程技術，峰值記憶體時脈為1,200 MHz，達到1.2288 TFLOPS峰值理論記憶體頻寬效能。計算結果的對象為Radeon Instinct™ MI50 GPU，採用「Vega」7奈米FinFET製程技術，擁有1,000 MHz峰值記憶體時脈，測得1.024 TFLOPS峰值理論記憶體效能。CDNA-04

註6：配合PCIe® Gen 4.0 與Gen 3.0 相容主機板。每張主機板效能各異。個別產品的效能與功能，請洽詢各大系統或主機板供應廠商。

註7：測試由AMD效能實驗室於2020年10月30日執行，在3個平台與多個版本的軟體上進行量測，反映Radeon Instinct MI25 (2018年)、MI50 (2019年)以及AMD Instinct MI100 GPU (2020年)上市時的效能，使用測試應用程式為Quicksilver。MI100平台(2020年)：技嘉G482-Z51-00系統裝有雙插槽AMD EPYC™ 7702 64核處理器。AMD Instinct™ MI100 GPU、ROCm™ 3.10版驅動程式、512GB DDR4及RHEL 8.2作業系統。MI50平台(2019年)：美超微® (Supermicro) SYS-4029GP-TRT2系統的組成：雙插槽Intel Xeon® Gold® 6132、Radeon Instinct™ MI50 GPU、ROCm 2.10版驅動程式、256 GB DDR4及SLES15SP1。MI25平台(2018年)：美超微SYS-4028GR-TR2系統內含雙插槽Intel Xeon CPU E5-2690、Radeon Instinct™ MI25 GPU、ROCm 2.0.89版驅動程式、246GB DDR4及Ubuntu 16.04.5 LTS。MI100-14

註8：測試由AMD效能實驗室於2020年10月30日執行，受測對象為3個平台與多個軟體版本，反映Radeon Instinct MI25 (2018年)、MI50 (2019年)以及AMD Instinct MI100 GPU (2020年)上市時的效能，使用測試應用程式為TensorFlow ResNet 50 FP 16 批次大小128。MI100 平台 (2020年)：技嘉G482-Z51-00系統內含雙插槽AMD EPYC™ 7702 64核處理器、AMD Instinct™ MI100 GPU、ROCm™ 3.10 版驅動程式、512GB DDR4及RHEL 8.2。MI50 平台(2019年)：美超微®(Supermicro) SYS-4029GP-TRT2 系統內含雙插槽Intel Xeon® Gold® 6254、Radeon Instinct™ MI50 GPU、ROCm 3.0.6版驅動程式、338 GB DDR4及Ubuntu® 16.04.6 LTS。MI25平台(2018年)：美超微SYS-4028GR-TR2 系統內含雙插槽 Intel Xeon CPU E5-2690處理器、Radeon Instinct™ MI25 GPU、ROCm 2.0.89版驅動程式、246GB的DDR4系統記憶體及Ubuntu 16.04.5 LTS。MI100-15

文章回應