AMD Instinct MI325X加速器提供領先業界的AI效能
最新的加速器提供領先市場的HBM3E記憶體容量,並獲得戴爾科技集團、HPE、聯想、Supermicro等合作夥伴和客戶的支援

AMD Pensando Salina DPU較上一代產品提供2倍的效能提升,AMD Pensando Pollara 400為業界首款UEC就緒NIC

台北—2024年10月11日—AMD(NASDAQ: AMD)宣布推出AMD Instinct™ MI325X加速器、AMD Pensando™ Pollara 400 NIC以及AMD Pensando Salina DPU等最新加速器和網路解決方案,將為新一代人工智慧(AI)基礎設施提供大規模支援。AMD Instinct MI325X加速器為生成式AI模型及資料中心設立全新效能標準。

AMD Instinct MI325X加速器基於AMD CDNA™ 3架構,旨在為基礎模型訓練、微調和推論等要求嚴苛的AI任務提供卓越的效能和效率。全新產品將協助AMD客戶和合作夥伴在系統、機架和資料中心層級打造高效能和最佳化的AI解決方案。

AMD執行副總裁暨資料中心解決方案事業群總經理Forrest Norrod表示,AMD持續執行我們的產品藍圖,為客戶提供所需的效能和選擇,以更快的速度將AI基礎設施大規模推向市場。憑藉全新AMD Instinct加速器、EPYC處理器和AMD Pensando網路引擎、開放軟體產業體系的持續成長,以及將這一切整合至最佳化AI基礎設施中的能力,AMD展現建置和部署世界級AI解決方案的關鍵專業知識與能力。

AMD Instinct MI325X擴展AI效能的領先優勢
AMD Instinct MI325X加速器提供領先業界的記憶體容量及頻寬,包括256GB HBM3E記憶體容量支援6.0TB/s,提供比H200高1.8倍的容量和1.3倍的頻寬註1,以及1.3倍的FP16理論峰值和FP8運算效能註1。

AMD Instinct MI325X加速器的記憶體和運算能力可較H200提供高達1.3倍的Mistral 7B FP16推論效能註2、1.2倍的Llama 3.1 70B FP8推論效能註3,以及1.4倍的Mixtral 8x7B FP16推論效能註4。

AMD Instinct MI325X加速器目前如期在2024年第4季量產出貨,預計將於2025年第1季起,由戴爾科技集團、Eviden、技嘉、HPE、聯想、美超微(Supermicro)等平台供應商廣泛提供。

AMD持續履行年度產品藍圖的節奏,預覽了下一代AMD Instinct MI350系列加速器。相對於AMD CDNA 3架構的加速器,基於AMD CDNA 4架構的AMD Instinct MI350系列加速器將帶來35倍推論效能提升註5。

AMD Instinct MI350系列將持續鞏固記憶體容量的領先地位,每加速器容量高達288GB HBM3E記憶體,將如期於2025年下半年推出。

AMD新一代AI網路解決方案
AMD正在運用超大規模供應商(hyperscalers)部署最廣泛的可程式化DPU來為新一代AI網路提供動能。AI網路分為兩部分:前端(向AI叢集提供資料和資訊)和後端(管理加速器和叢集之間的資料傳輸),對於確保CPU和加速器在AI基礎設施中高效利用至關重要。

為了有效管理這兩個網路並推動整個系統的高效能、可擴展性和效率,AMD推出用於前端的AMD Pensando™ Salina DPU和用於後端、業界首款UEC就緒的AMD Pensando™ Pollara 400 AI NIC。

AMD Pensando Salina DPU是全球效能最強大可程式化DPU的第3代產品,與前一代DPU相比,效能、頻寬和規模提升高達2倍。AMD Pensando Salina DPU支援400G吞吐量以實現快速資料傳輸速率,是AI前端網路叢集的關鍵元件,為資料驅動的AI應用帶來最佳化的效能、效率、安全性和可擴展性。

UEC就緒的AMD Pensando Pollara 400由AMD P4可程式化引擎提供動能,是業界首款UEC就緒的AI NIC,支援新一代RDMA軟體,並由開放的網路產業體系提供支援。AMD Pensando Pollara 400對於在後端網路中提供領先的效能、可擴展性和加速器間通訊的效率至關重要。

AMD Pensando Salina DPU和AMD Pensando Pollara 400於2024年第4季送樣,並將如期在2025年上半年推出。

AMD AI軟體為生成式AI提供全新功能
AMD持續推進軟體功能和開放產業體系的發展,在AMD ROCm™開放軟體堆疊中提供強大的全新特性和功能。

在開放軟體社群中,AMD正推動PyTorch、Triton、Hugging Face等最為廣泛採用的AI框架、函式庫和模型對AMD運算引擎的支援。這項工作為AMD Instinct加速器提供了即時效能與支援,適用於Stable Diffusion 3、Meta Llama 3、3.1和3.2等熱門的生成式AI模型,以及Hugging Face超過100萬個模型。

除了社群之外,AMD持續推進其ROCm開放軟體堆疊,帶來支援生成式AI工作負載訓練和推論的最新功能。ROCm 6.2現在對FP8資料類型、Flash Attention 3、Kernel Fusion等關鍵AI功能提供支援。憑藉這些新增功能,ROCm 6.2較ROCm 6.0提供高達2.4倍的推論效能提升註6以及1.8倍的大型語言模型(LLM)訓練效能提升註7。

相關資源
• 觀看AMD Advancing AI主題演講
• 更多關於:AMD新一代AI網路解決方案
• 更多關於:AMD Instinct加速器
• X:於@AMD追蹤AMD新訊
• LinkedIn:於AMD LinkedIn追蹤AMD新訊

關於AMD
50多年來,AMD(NASDAQ:AMD)推動創新高效能運算、繪圖及視覺技術。全球數十億的消費者、世界500強企業以及尖端科學研究機構皆仰賴AMD的技術來改善生活、工作及娛樂。AMD員工致力於研發領先的高效能與自行調適產品,不斷突破技術的極限。欲瞭解AMD如何成就今天,啟發未來,請瀏覽AMD網站、部落格、LinkedIn及X。

©2024年,AMD公司版權所有。AMD、AMD箭頭、AMD CDNA、AMD Instinct、Pensando、ROCm及上述名稱的組合是AMD公司的商標。其他產品名稱只為提供資訊為目的,也可能是各自所有者的商標。

註1:MI325-002:截至2024年5月28日,AMD效能實驗室對AMD Instinct™ MI325X GPU進行的測試結果為1307.4 TFLOPS理論峰值半精度(FP16)、1307.4 TFLOPS理論峰值BF16、2614.9 TFLOPs理論峰值FP8、2614.9 TOPS INT8浮點效能。實際效能根據最終規格和系統配置而有所不同。

在Nvidia H200 SXM (141GB) GPU上發布的結果:989.4 TFLOPS理論峰值半精度Tensor(FP16 Tensor)、989.4 TFLOPS理論峰值BF16 Tensor、1,978.9 TFLOP理論峰值FP8、1,978.9 TOPs理論峰值INT8浮點效能。Nvidia使用稀疏性發布BFLOAT16 Tensor Core、FP16 Tensor Core、FP8 Tensor Core和INT8 Tensor Core效能。為進行比較,AMD透過除以2將這些數字轉換為非稀疏性/密集。

Nvidia H200來源:https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446以及 https://www.anandtech.com/show/21136/nvidia-at-sc23-h200-accelerator-with-hbm3e-and-jupiter-supercomputer-for-2024。請注意:Nvidia H200 GPU 具有與H100產品相同的FLOP效能https://resources.nvidia.com/en-us- tensor-core/。

註2:MI325-005:基於AMD效能實驗室於2024年9月28日完成的測試,該測試使用FP16資料類型測量Mistral-7B模型的總延遲。使用128個token的輸入長度和 128個token的輸出長度對AMD Instinct™ MI325X GPU加速器和NVIDIA H200 SXM GPU加速器的以下配置進行測試。

1x MI325X在1000瓦的vLLM效能:0.637秒延遲(以秒為單位)對比1x H200在700瓦及TensorRT-LLM:0.811秒延遲(以秒為單位)。

配置:
AMD Instinct™ MI325X參考平台:
1x AMD Ryzen™ 9 7950X 16核心處理器、1x AMD Instinct MI325X (256GiB, 1000瓦) GPU、Ubuntu® 22.04、and ROCm™ 6.3 pre-release;對比
NVIDIA H200 HGX平台:
美超微(Supermicro)SuperServer搭載2x Intel Xeon® Platinum 8468處理器、8x Nvidia H200 (140GB, 700瓦) GPU [測試中只適用1 GPU]、Ubuntu 22.04、CUDA 12.6。伺服器製造商可能會改變配置,產生不同的結果。效能可能會因使用最新驅動程式和最佳化而有所不同。

註3:MI325-006:基於AMD效能實驗室於2024年9月28日完成的測試,該測試使用FP8資料類型測量LLaMA 3.1-70B模型的總體延遲。使用2048個token的輸入長度和2048個token的輸出長度對AMD Instinct™ MI325X GPU加速器和NVIDIA H200 SXM GPU加速器的以下配置進行測試。

1x MI325X在1000瓦的vLLM效能:48.025秒延遲(以秒為單位)對比1x H200在700瓦及TensorRT-LLM:62.688秒延遲(以秒為單位)。

配置:
AMD Instinct™ MI325X參考平台:
1x AMD Ryzen™ 9 7950X 16核心處理器、1x AMD Instinct MI325X (256GiB, 1000瓦) GPU、Ubuntu® 22.04、and ROCm™ 6.3 pre-release;對比
NVIDIA H200 HGX平台:
美超微(Supermicro)SuperServer搭載2x Intel Xeon® Platinum 8468處理器、8x Nvidia H200 (140GB, 700瓦) GPU、Ubuntu 22.04、CUDA 12.6。

伺服器製造商可能會改變配置,產生不同的結果。效能可能會因使用最新驅動程式和最佳化而有所不同。

註4: MI325-004:基於AMD效能實驗室於2024年9月28日完成的測試,使用FP16資料類型測量Mixtral-8x7B模型的文字產生吞吐量。使用128個token的輸入長度和4096個token的輸出長度對AMD Instinct™ MI325X GPU加速器和NVIDIA H200 SXM GPU加速器的以下配置進行測試。

1x MI325X在1000瓦的vLLM效能:每秒4598輸出token對比1x H200在700瓦及TensorRT-LLM:每秒2700.7輸出token。

配置:
AMD Instinct™ MI325X參考平台:
1x AMD Ryzen™ 9 7950X處理器、1x AMD Instinct MI325X (256GiB, 1000瓦) GPU、Ubuntu® 22.04、and ROCm™ 6.3 pre-release;對比
NVIDIA H200 HGX平台:
美超微(Supermicro)SuperServer搭載2x Intel Xeon® Platinum 8468處理器、8x Nvidia H200 (140GB, 700瓦) GPU [測試中只適用1 GPU]、Ubuntu 22.04、CUDA® 12.6。

伺服器製造商可能會改變配置,產生不同的結果。效能可能會因使用最新驅動程式和最佳化而有所不同。

註5:CDNA4-03:截至2024年5月31日的推論效能預測,使用基於未來AMD CDNA 4架構的Instinct MI350系列加速器的設計工程估算作為預計AMD CDNA™ 4效能。評估1.8T GPT MoE模型時假設token-to-token延遲= 70毫秒實時,第一個token延遲=5秒,輸入序列長度=8k,輸出序列長度=256,假設4x8模式MI350系列(CDNA 4)與8x MI300X每GPU效能比較。實際效能將根據多種因素而有所不同,包括但不限於生產晶片的最終規格、系統配置以及所使用的推論模型和尺寸。

註6:MI300-62:由AMD效能實驗室截至2024年9月29日進行的測試,在配備8個AMD Instinct™ MI300X GPU並搭配Llama 3.1-8B、Llama 3.1-70B、 Mixtral-8x7B、Mixtral-8x22B Qwen 72B模型。

採用vLLM 0.5.5的ROCm 6.2效能與採用vLLM 0.3.3的ROCm 6.0效能進行比較,並在1至256的批次大小和128至2048的序列長度上進行測試。

配置:
1P AMD EPYC™ 9534 CPU伺服器,配備8個AMD Instinct™ MI300X (192GB,750瓦)GPU、Supermicro AS-8125GS-TNMR2、NPS1(每插槽1個NUMA)、1.5 TiB 24 DIMMs、4800 mts記憶體、64 GiB/DIMM、4x 3.49TB美光7450儲存、BIOS版本1.8、ROCm 6.2.0-00、vLLM 0.5.5、PyTorch 2.4.0、Ubuntu® 22.04 LTS以及Linux Kernel 5.15.0-119-generic。
對比
1P AMD EPYC 9534 CPU伺服器,配備8個AMD Instinct™ MI300X (192GB,750瓦)GPU、Supermicro AS-8125GS-TNMR2、NPS1(每插槽1個NUMA)、1.5TiB 24 DIMMs、4800 mts記憶體、64 GiB/DIMM、4x 3.49TB美光7450儲存、BIOS版本1.8、ROCm 6.0.0-00、vLLM 0.3.3、PyTorch 2.1.1、Ubuntu 22.04 LTS以及Linux Kernel 5.15.0-119-generic。

伺服器製造商可能會改變配置,從而產生不同的結果。效能可能會因各種因素而有所不同,包括但不限於不同版本的配置、vLLM和驅動程式。

註7:MI300-61:AMD AI產品管理團隊在AMD Instinct™ MI300X GPU上進行的測量,用於比較LLM效能與截至2024年9月28日在Llama 3.1-70B和Llama 3.1-405B和vLLM 0.5.5上啟用與關閉最佳化方法的差異。

系統配置:
AMD EPYC 9654 96核心處理器、8個AMD MI300X、ROCm™ 6.1、Linux® 7ee7e017abe3 5.15.0-116-generic #126-Ubuntu® SMP Mon Jul 1 10:14:24 UTC 2024 x86_64 x86_64 x86_64 GNU/Linux,頻率提升:啟用。

效能可能因各因素而異,包括但不限於不同版本的配置、vLLM和驅動程式。






文章回應

目前尚無回應,成為第一個回應的人吧!

回應本篇文章! (以下回應不會連結到FaceBook)(言責自負,請勿涉及人身攻擊,以免挨告!)

尚未 登入會員 ,無法回應!

gotop