AWS 與 NVIDIA 攜手開發下世代基礎設施，助力大型機器學習模型訓練和生成式 AI 應用程式建構

部署在 Amazon EC2 UltraCluster 中的新型 Amazon EC2 P5 執行個體經過充分優化，可以利用 NVIDIA Hopper GPU 加速生成式 AI 的大規模訓練和推論

Amazon Web Services（AWS）和NVIDIA（輝達）宣佈了一項多方合作，致力於建構全球最具可擴展性且隨需付費的人工智慧（AI）基礎設施，以便訓練日益複雜的大型語言模型（LLM）和開發生成式AI應用程式。

借助於NVIDIA H100 Tensor Core GPU支持的下世代Amazon Elastic Compute Cloud（Amazon EC2）P5執行個體，以及AWS最先進的網路和可擴展性，此次合作將提供高達20 exaFLOPS的運算效能來協助建構和訓練更大規模的深度學習模型。P5執行個體將是第一個利用AWS第二代Amazon Elastic Fabric Adapter（EFA）網路技術的GPU執行個體，可提供3200 Gbps的低延遲和高頻寬網路輸送量。因此客戶能夠在Amazon EC2 UltraCluster中拓展多達2萬個NVIDIA H100 GPU，滿足隨需訪問超級電腦的AI效能需求。

「AWS和NVIDIA合作已超過12年，為人工智慧、機器學習、圖形、遊戲和高效能運算（HPC）等各種應用提供了大規模、低成本的GPU解決方案。」AWS執行長Adam Selipsky表示，「AWS在交付基於GPU的執行個體方面擁有無比豐富的經驗，每一代執行個體都大幅強化可擴展性，如今眾多客戶將機器學習訓練工作負載拓展到1萬多個GPU。借助第二代EFA，客戶能夠將其P5執行個體拓展到超過2萬個H100 GPU，為包括新創公司、大企業在內的所有規模客戶提供所需的超級運算能力。」

「加速運算和人工智慧已經到來，而且適逢其時。加速運算提升效能的同時，降低了成本和功耗，讓企業事半功倍。生成式AI已促使企業重新思考產品和商業模式，力求成為顛覆者，而不是被顛覆。」NVIDIA創辦人暨執行長黃仁勳表示，「AWS是NVIDIA的長期合作夥伴，也是首家提供NVIDIA GPU的雲端服務提供者。我們很高興能夠結合各自的專長、規模和業務範圍，協助客戶利用加速運算和生成式AI抓住未來的大好機遇。」
新的超級運算叢集

新的P5執行個體建構於AWS和NVIDIA十多年來在AI和HPC基礎設施交付方面的合作基礎之上，也立足於雙方在P2、P3、P3dn和P4d(e)前四代執行個體方面的合作。P5執行個體是基於NVIDIA GPU的第五代AWS產品，與最初部署的NVIDIA GPU（始於CG1執行個體）已相隔近13年。

P5執行個體非常適合對日益複雜的LLM和電腦視覺模型進行訓練和運行推理，並應用於要求嚴苛的運算密集型生成式AI應用程式，包括問題回答、代碼生成、影片圖像生成和語音辨識等領域。

對於致力於以可擴展和安全的方式將AI賦能的創新推向市場的企業和新創公司而言，P5執行個體是不二之選。P5執行個體採用8個H100 GPU，能夠在一個Amazon EC2執行個體中實現16 petaFLOPs的運算效能、640 GB的高頻寬記憶體和3200 Gbps的網路效能（比上一代執行個體高出8倍）。P5執行個體效能的提升使機器學習模型訓練時間加快了6倍（將訓練時間從數天縮短到數小時），額外的GPU記憶體可幫助客戶訓練更龐大更複雜的模型。預計P5執行個體的機器學習模型訓練成本將比上一代降低40%。相比靈活性較差的雲端產品或昂貴的本地端系統，它為客戶提供了更高的效率。

P5執行個體部署在EC2 UltraCluster的超大規模叢集中，該叢集由雲端最高效能的運算、網路和儲存系統組成。每個EC2 UltraCluster都是世界上功能最強大的超級電腦之一，助力客戶運行最複雜的多節點機器學習訓練和分散式HPC工作負載。它們採用PB級無阻塞網路，基於EFA，這種針對Amazon EC2執行個體的網路介面使客戶能夠在AWS上運行需要在大規模高級節點間通訊的應用程式。EFA的客製化作業系統繞過硬體介面，並與NVIDIA GPUDirect RDMA整合，可降低延遲、提高頻寬使用率，進而提升執行個體間通訊效能，這對於在數百個P5節點上拓展深度學習模型的訓練至關重要。藉由P5執行個體和EFA，機器學習應用程式可以使用NVIDIA Collective Communications Library（NCCL）拓展到多達2萬個H100 GPU。因此，客戶可以透過AWS的隨需彈性和靈活拓展能力，獲得本地HPC叢集的應用效能。除了這些出色的運算能力外，客戶可以使用業界最廣泛最深入的服務組合，比如物件導向儲存的Amazon S3、針對高效能檔案系統的Amazon FSx，以及用於建構、訓練和部署深度學習應用的Amazon SageMaker。P5執行個體將在今後幾周提供有限預覽版。欲瞭解詳情，請參考https://pages.awscloud.com/EC2-P5-Interest.html。

借助新的P5執行個體， Hugging Face和Pinterest等客戶將能夠大規模建構和訓練最龐大的機器學習模型。基於其它幾代Amazon EC2執行個體的合作將助力新創公司、大企業和研究人員無縫拓展來滿足各自的機器學習需求。

Hugging Face的使命是將優秀的機器學習普及化。「作為發展最快速的機器學習開源社群，我們如今在針對NLP、電腦視覺、生物學和強化學習等領域的平臺上提供逾15萬個預訓練模型和2.5萬個資料集。」Hugging Face技術長暨聯合創辦人Julien Chaumond表示，「鑒於大型語言模型和生成式AI技術的顯著進步，我們正與AWS合作，以建構和貢獻未來的開源模型。我們希望在結合EFA的EC2 UltraCluster叢集中透過大規模Amazon SageMaker使用P5執行個體，加快為所有客戶提供新的基礎AI模型。」

如今，全球超過4.5億人透過Pinterest尋找視覺靈感，以購買符合自己品味的個性化產品、尋求可實體化的創意，並發現最有才華的創作者。「我們廣泛使用深度學習技術，比如對上傳到我們平臺上的數十億張照片進行標記和分類，以及讓用戶獲得從靈感到付諸行動的視覺搜尋能力。」Pinterest架構師David Chaiken表示，「我們使用P3和最新的P4d等AWS GPU執行個體建構和部署這些應用場景。我們希望使用由H100 GPU、EFA和Ultracluster加持的Amazon EC2 P5執行個體，加快產品開發，為我們的客戶提供同理心AI（Empathetic AI）體驗。」

為可擴展、高效能 AI 採用新的伺服器設計

在H100 GPU發佈之前，NVIDIA和在熱力、電機和機械領域擁有專業知識的AWS工程團隊合作設計了伺服器，以利用GPU提供大規模AI，重點關注AWS基礎設施的能源效率。在某些AI工作負載下，GPU的能效通常是CPU的20倍，對於LLM而言，H100 GPU的能效比CPU高300倍。

雙方的合作包括開發系統散熱設計、整合安全和系統管理、與AWS Nitro硬體加速虛擬機器管理程式一起實現安全性，以及針對AWS客製化EFA網路結構的NVIDIA GPUDirect™優化技術。

在AWS和NVIDIA專注於伺服器優化的基礎上，兩家公司已開始合作開發未來的伺服器設計，以借助新一代系統設計、冷卻技術和網路可擴展性提高擴展效率。

本文章內容由「Amazon Web Services (AWS)」提供。

文章版權歸作者所有，未經允許請勿轉載。

THE END