NVIDIA Hopper架構TensorRT-LLM使生成式AI推論提升近3倍，H200藉HBM3e記憶體散熱打破MLPerf推論紀錄

2年前发布

0648

雖然NVIDIA甫在GTC 2024公布眾所矚目的全新Blackwell架構，但畢竟Blackwell仍要待到2024年下半年才會開始出貨，故目前最新的NVIDIA AI GPU加速產品為採用美光HBM3e記憶體的NVIDIA H200 Tensor Core GPU；NVIDIA公布全新的MLPerf測試成績，基於Hopper架構的H100借助TensorRT-LLM軟體突破MLPerf的生成式AI測試項突破原本的性能上限，於GPT-J LLM推論性能較6個月前提升近3倍，而陸續出貨的H200 GPU則透過容量、頻寬提升的HBM3e記憶體與更彈性的散熱，一舉刷新多項MLPerf的紀錄。

▲包括大型語言模型、圖像生成與推薦系統都是NVIDIA推論系統的熱門應用領域

▲相較去年9月的結果，NVIDIA透過TensorRT-LLM使GPT-J推論提升將近3倍性能

▲系統商的客製化散熱方案能使Hopper性能獲得14%成長

MLPerf在v4.0版本加入兩項生成式AI測試項，使用Llama 2當中70B參數的最大規模模型版本作為基準，此模型相較2023年9月的GPT-J LLM規模大了10倍以上，對記憶體容量與性能也有更高的要求；NVIDIA透過強化Hpper架構的記憶體的H200 GPU進行測試，搭配TensorRT-LLM，每秒可產生3.1萬個Token，是目前MLPerf的Llama 2測試基準的紀錄，此外透過客製化的散熱方案，使系統提升14%的性能增長，當前許多系統商也陸續將客製化散熱設計導入NVDIA MGX設計，進一步提升Hopper架構的性能。

▲H200藉由記憶體容量擴增與傳輸性能提升，不僅提升Llama 2 70B的推論性能且足以在單一GPU進行推論

▲近20家系統商與雲端服務商將推出搭載H200的系統與服務

NVIDIA的H200 GPU將由近20家領先的系統商與雲端服務商推出，H200搭載高達141GB、頻寬達4.8TB/s的HBM3e記憶體，容量較H100提高76%容量、傳輸性能提升43%，同時仍可相容既有的H100系統設計；透過記憶體容量的提升，單一個H200 GPU即足以執行Liama 2 70B的模型，進而簡化與加速推論。

對於單一系統記憶體更為苛求的客戶，NVIDIA則提供NVIDIA GH200 Superchips平台，在單一超級晶片提供高達624GB的高速記憶體，其中包含144GB的HBM3e記憶體，在超級晶片整合兼具效能與能耗的Grace GPU與H200 GPU，彼此之間透過NVLink-C2C高速溝通，對於如推薦系統等記憶體密集的MLPerf測試提供出色的效益。

▲NVIDIA的GPU加速運算能因應市場所有AI領域的運算需求與支援廣泛模型

做為首家自2020年10月即開始遞交MLPerf測試結果的平台，NVIDIA與合作夥伴屢屢刷新MLPerf的紀錄，霸佔生成式AI、推薦系統、自然語言模型、語音與電腦視覺領域的測試成績龍頭，且不光僅是透過更新硬體刷新成績，透過軟體更新後也能使既有硬體獲得飛躍的性能表現。

NVIDIA突破性能上限的關鍵是透過三項創新技術，包括首度在NVIDIA A100 Tensor Core GPU導入的結構稀疏化技術，該項技術能使H100執行Llama 2推論速度提升33%；第二項創新技術式則是稱為Puring(修剪)的吞吐量提升技術，藉此方式能簡化如大型語言模型等AI模型，使H100的推論速度提升40%；最後一項創新技術則是稱為DeepCache的最佳化技術，可減少執行如Stable Diffusion XL模型的運算需求，使效能提升76%。

▲NVIDIA強調其測試結果皆公開透明，同時相關資源也採取開源供開發者存取

▲NIM推論微服務將助生成式AI應用更易開發與客製化

NVIDIA強調其測試結果是公開且透明，相關資源也採取開源，且不僅由NVIDIA遞交結果，包括採用NVIDIA技術的合作夥伴如華碩、Cisco、Dell、富士通、技嘉、Google、HPE慧與、聯想、微軟Azure、甲骨文Oricle、QCT(廣達/雲達)、Supermicro美超微、VMware與緯穎都進行測試並上繳結果，橫跨系統供應、雲端服務等領域，同時測試的結果也都能在MLPerf資料庫找到，並可看到透過不斷進化的NGC、NVIDIA GPU Software Hub、1包括NVDIA NIM微服務的NVIDIA AI Enterprise等持續提升的效能。

▲大型語言模型將邁入兆級參數世代，Blackwell架構則是因應參數不斷擴張的新GPU架構

▲Blackwell為提升即時推論性能支援FP4

隨著生成式AI技術與應用如火如荼的發展，接下來除了更具效益的最佳化模型外，具理解與能產生更複雜內容的兆級數據參數模型也很快就要出現，NVIDIA於GTC 2024公布、預計2024年內推出的Blackwell架構即是因應兆數參數需求，不僅效能有顯著的提升，也具備更大的規模化與記憶體容量，還支援FP4浮點，將解決未來兆級參數生成式AI模型的需求。

文章版權歸作者所有，未經允許請勿轉載。

THE END