GTC 2024:NVIDIA DGX GB200液冷伺服器動眼看,由18台GB200 Superchip的機架伺服器、9台NVSwitch構成的大型AI Factory單元

NVIDIA在GTC 2024公布基於NVIDIA GB200 NVL72的DGX GB200系統,在會場也展示實際的設計;不同於過往x86形式的DGX系統是由2個x86晶片以PCIe連接到具備8個NVIDIA GPU的NVLink載板的風冷式機架伺服器,DGX GB200則是由18台載有兩套NVIDIA GB200 Superchip的1U伺服器,搭配9台NVSwitch的NVLink交換器等構成,同時也僅有液冷散熱單一設計。

▲左側為NVSwitch交換器,中間與右方分別為移除水冷頭的以及覆蓋有液冷頭的GB200 Superchip伺服器

▲後方白色的纜線為NVSwitch的銅纜

▲液冷道由底下連接到外部的冷卻循環系統

在會場展示的DGX GB200可看到其結構排列,位於頂部為兩套乙太網路交換器,下方據說是一套電源系統,接著是10套1U的GB200 Superchip伺服器,再來是9套NVSwitch交換器,底下再為8套GB200 Superchip伺服器,最底下為另一套電源系統;位於後方則可看到梳理整齊的NVLink銅纜,下方則為液冷循環的出口。

▲單一GB200 Superchip高達2,700W功率,為了維持系統效能與緊湊也不得不全面採用液冷

過往NVIDIA的DGX參考設計採用風冷設計,然而單一GB200 Superchip達2,700W功耗,DGX GB200系統為了維持系統的緊湊性與在有限空間連接36組GB200 Superchip,故全面採用液冷散熱;相較一般機架伺服器內的伺服器彼此透過InfiniBand或乙太網路連接,DGX GB200則是透過NVLink與NVSwitch提供內部Grace CPU與Blackwell GPU的相互連接與記憶體共享,等同內部的72個Blackwell GPU構成一個具備海量記憶體的大型GPU,同時藉由符合DGX SuperPod特性,最多還可將8套DGX GB200透過高速方式連接,使576個GB200 GPU以NVLink技術構成一個大型GPU。

© 版权声明
THE END
喜歡就支持一下吧
点赞15 分享
評論 抢沙发
头像
歡迎您留下寶貴的見解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容