AWS 宣布 Amazon EC2 P5 執行個體正式可用，加速生成式 AI 和高效能運算應用由 NVIDIA H100 Tensor Core GPU 驅動

亞馬遜旗下公司 Amazon Web Services（AWS）近日在紐約峰會上宣布 Amazon Elastic Compute Cloud（EC2）P5 執行個體正式可用。這是一款下世代 GPU 執行個體，由最新的 NVIDIA H100 Tensor Core GPU 驅動，可以滿足客戶在執行人工智慧、機器學習和高效能運算工作負載時對高效能和高擴展性的需求。與上一代基於 GPU 的執行個體相比，Amazon EC2 P5 執行個體可以將訓練時間縮減 6 倍（從幾天縮短到幾小時），幫助客戶節省高達 40% 的訓練成本。

Amazon EC2 P5 執行個體提供 8 個 NVIDIA H100 Tensor Core GPU，具有 640 GB 高帶寬 GPU 記憶體，同時提供第三代 AMD EPYC 處理器、2TB 系統記憶體和 30 TB 本地 NVMe儲存。 Amazon EC2 P5 執行個體還提供 3200 Gbps 的聚合網路頻寬並支援 GPUDirect RDMA，進而能夠繞過 CPU 進行節點間通訊，實現更低的延遲和高效的橫向擴展效能。

AWS 與 NVIDIA 攜手開發下一代基礎設施

AWS 和 NVIDIA 在今年 3 月宣布了一項多方合作，打造全球最具可擴展性且按需付費的人工智慧基礎設施，以便訓練日益複雜的大語言模型和開發生成式 AI 應用程式。

當時，AWS 預發布了由 NVIDIA H100 Tensor Core GPU 驅動的 Amazon EC2 P5 執行個體，可為打造和訓練更大規模的機器學習模型提供高達20 exaFLOPS的算力。AWS 和 NVIDIA 合作十多年來成果豐碩，推出了包括支援視覺運算、人工智慧和高效能運算集群的各種 GPU 執行個體，如 CG1 執行個體（2010年）、G2（2013年）、P2（2016年）、P3（2017年）、G3（2017年）、P3dn（2018年）、G4（2019年）、P4（2020年）、G5（2021年）和 P4de（2022年）執行個體。

現在，機器學習模型的規模已經達到數萬億參數，這種複雜性大大增加客戶訓練模型所需的時間。例如，最新的大語言模型訓練時間長達數月之久。類似的趨勢也出現在高效能運算領域。隨著高效能運算客戶資料收集準確度的提高以及資料集達到 EB 級規模，客戶已在尋找解決日益複雜應用程式的更快方法。

關於 Amazon EC2 P5 執行個體

Amazon EC2 P5 執行個體非常適合訓練和執行越來越複雜的大語言模型和電腦視覺模型，以滿足最苛刻的運算密集型生成式 AI 應用的需求，包括問答、程式碼生成、影片和圖像生成、語音識別等。與上一代基於 GPU 的執行個體相比，Amazon EC2 P5 執行個體在這些應用中的訓練時間縮短了 6 倍。那些可以在工作負載中使用較低精度FP8 資料類型的客戶，例如使用 Transformer 模型架構的語言模型，將透過 NVIDIA Transformer Engine 的支援獲得高達 6 倍的效能提升。

高效能運算客戶透過使用 Amazon EC2 P5 執行個體可以更大規模地部署在藥物開發、地震分析、天氣預報和金融建模等高需求的應用程式。此外，對於使用基於動態規劃（Dynamic Programming）算法進行基因組測序或加速資料分析等應用的客戶，Amazon EC2 P5 將透過新的 DPX 指令集提供支援。

第二代 Amazon EC2 UltraClusters 和 Elastic Fabric Adapter

Amazon EC2 P5 執行個體為多節點分佈式訓練和緊密耦合的高效能運算工作負載提供先進的橫向擴展功能，其使用的第二代 Elastic Fabric Adapter（EFA）網路設備提供高達3200 Gbps 的網路速度，是 Amazon EC2 P4d 執行個體的 8 倍。

為了滿足客戶對大規模和低延遲的需求，Amazon EC2 P5 執行個體部署在第二代Amazon EC2 UltraClusters 中，該集群目前可在超過 2 萬個 NVIDIA H100 Tensor Core GPU上為客戶提供更低的延遲。作為雲端最大規模的機器學習基礎設施之一，Amazon EC2 UltraClusters 中的 Amazon EC2 P5 執行個體可提供高達 20 exaFLOPS 的聚合運算能力。

Amazon EC2 UltraClusters 使用了 Amazon FSx for Lustre，這是一種完全託管的共享儲存，建立在常用的高效能並行文件系統上。客戶透過 Amazon FSx for Lustre，可以按需要大規模快速處理海量資料集，並實現亞毫秒級延遲。 Amazon FSx for Lustre 的低延遲和高吞吐量特性經過優化，可在 Amazon EC2 UltraCluster 上為深度學習、生成式 AI 和高效能運算工作負載提供支援。

Amazon FSx for Lustre 可以為 Amazon EC2 UltraCluster 中的 GPU 和機器學習加速器持續提供資料，進而加速最苛刻的工作負載，包括大語言模型訓練、生成式 AI 推理，以及基因組學和金融風險建模等高效能運算負載。