AWS 與 NVIDIA 宣布策略合作針對生成式 AI 推出全新超級電腦基礎設施、軟體及服務

AWS 推出首款結合 NVIDIA Grace Hopper Superchip 超級晶片與 AWS UltraCluster 擴充技術的 AI 超級電腦
NVIDIA DGX Cloud 率先配備 NVIDIA GH200 NVL32 ，並首次在 AWS 上提供此 AI 訓練即服務
NVIDIA 和 AWS 在 Project Ceiba 上的合作，設計全球最快的 GPU 驅動 AI 超級電腦以及最新的 NVIDIA DGX Cloud 超級電腦，為 NVIDIA 的 AI 研發以及自訂模型開發服務
配置 NVIDIA GH200、H200、L40S、以及 L4 GPU 等核心的全新 Amazon EC2 執行個體，大幅提升生成式 AI、HPC 高效能運算、設計、以及模擬的工作負載效能
在 AWS 上運行的 NVIDIA 軟體，包括 NeMo LLM 框架、NeMo Retriever、以及 BioNeMo ，能加速自訂模型、語意檢索、新藥開發等應用的生成式 AI 發展

亞馬遜（Amazon）旗下 Amazon Web Services（AWS）與 NVIDIA 於 AWS re:Invent 全球盛會上宣布擴大策略合作，將聯手推出先進基礎設施、軟體及服務，推動客戶在生成式 AI（Generative AI）的創新。

NVIDIA 與 AWS 將挹注 NVIDIA 與 AWS 技術的精華，包含 NVIDIA 新一代 GPU、CPU 與 AI 軟體的最新多節點系統，以及 AWS 的 Nitro System 先進虛擬化與安全平台、Elastic Fabric Adapter（EFA）互連介面和 UltraCluster 擴充服務，以提供理想的環境來訓練基礎模型與打造生成式 AI 應用。

雙方保持長久的合作關係，合力推動生成式 AI 時代。此次擴大合作為使用機器學習（ML）的先驅們提供所需的運算效能，協助發展最尖端的技術。

此次雙方合作將大幅加速所有產業應用生成式 AI 的發展，包括：

AWS 成為第一家將配備多節點 NVLink 技術的 NVIDIA GH200 Grace Hopper Superchip 超級晶片導入雲端環境的雲端服務供應商。 NVIDIA GH200 NVL32 多節點平台運用 NVIDIA NVLink 與 NVSwitch 技術連結 32 個 Grace Hopper Superchip 超級晶片，組合成一個執行個體。此平台將以 Amazon Elastic Compute Cloud（Amazon EC2）執行個體的型態上線營運，連結 Amazon 的強大網路（EFA），加上先進虛擬化（AWS Nitro System）與超大規模叢集（Amazon EC2 UltraClusters）的支援，讓共同客戶能擴充至數千顆 GH200 超級晶片的規模。

NVIDIA 與 AWS 將聯手在 AWS 上推出 NVIDIA DGX Cloud 這項 AI 訓練即服務（AI-training-as-a-service）方案。此方案將是首個配置 GH200 NVL32 的 DGX Cloud 方案，為開發者提供單一執行個體中最多的共用記憶體。 AWS 雲端上運行的 DGX Cloud 將可加速含有超過 1 兆參數的尖端生成式 AI 與大型語言模型的訓練。

NVIDIA 與 AWS 正合作推動 Project Ceiba ，聯手設計全球最快的 GPU 驅動 AI 超級電腦，配備 GH200 NVL32 與 Amazon EFA 互連技術的大規模系統由 AWS 代管，為 NVIDIA 研發團隊提供服務。這部開創先河的超級電腦配置 16,384 顆 NVIDIA GH200 超級晶片，能處理 65 exaflops 速度等級的 AI 運算，將推動 NVIDIA 進行全新生成式 AI 的創新。

AWS 將再推出三款 Amazon EC2 執行個體：P5e 執行個體配置 NVIDIA H200 Tensor Core GPU ，瞄準大規模與尖端生成式 AI 及 HPC 高效能運算工作負載；以及分別配置 NVIDIA L4 GPU 與 NVIDIA L40S GPU 的 G6 與 G6e 執行個體，能運行包括 AI 微調、推論、繪圖、以及影片工作負載等廣泛應用。 G6e 執行個體特別適合用來開發 3D 工作流程、數位分身、以及其他使用 NVIDIA Omniverse 的應用，用來連結與打造各種生成式 AI 的 3D 應用。

AWS 執行長 Adam Selipsky 表示：「AWS 與 NVIDIA 已經合作超過 13 年，起初是推出全球首個配置 GPU 的雲端執行個體。現在我們為各種工作負載推出最廣泛的 NVIDIA GPU 解決方案，包括繪圖、遊戲、HPC 高效能運算、機器學習，一直到現在的生成式 AI 。我們持續運用 NVIDIA 技術推動創新，結合新一代 NVIDIA Grace Hopper Superchip 超級晶片與 AWS 的 EFA 強大網路、EC2 UltraClusters 的超大規模叢集、以及 Nitro 的先進虛擬化功能，讓 AWS 成為執行 GPU 運算的最佳雲端環境。」

NVIDIA 創辦人暨執行長黃仁勳表示：「生成式 AI 正改變各種雲端作業的負載，為多元內容創作挹注加速運算動能。我們共同目標是為每個客戶提供符合成本效益的先進生成式 AI ，為此 NVIDIA 與 AWS 在整個運算層級上合作，包含 AI 基礎設施、加速程式庫與基礎模型，以及生成式 AI 服務。」

AWS 雲端上運行的 NVIDIA 軟體加速生成式 AI 的研發

此外， NVIDIA 發表在 AWS 雲端上運行的軟體，將加速生成式 AI 的研發。 NVIDIA NeMo Retriever microservice 微服務提供多項新工具，用來創造高精準度的聊天機器人，以及運用加速語意檢索技術的歸納工具。在 Amazon SageMaker 服務上運行的 BioNeMo 計畫在 AWS 托管的 NVIDIA DGX Cloud 上執行，讓製藥企業運用自己的資料簡化與加速模型訓練，藉此加快新藥開發。

AWS 雲端上運行的 NVIDIA 軟體協助亞馬遜為其服務與營運注入創新動能。 AWS 正運用 NVIDIA NeMo 框架訓練新一代的 Amazon Titan 大型語言模型。 Amazon Robotics 也已開始運用 NVIDIA Omniverse Isaac 打造數位分身，在虛擬化環境中推動自主倉庫的自動化、最佳化以及規劃，完成之後再部署到真實環境。

本文章內容由「Amazon Web Services (AWS)」提供。

文章版權歸作者所有，未經允許請勿轉載。

THE END