GTC 2024:Blackwell GPU家族成員除了GB200 Superchip、B200 GPU外,還有等同B200 GPU壓低能耗的B100 GPU

在早期的產品藍圖,當時NVIDIA指稱2024年將公布代號B100的Hopper後繼架構,不過在GTC 2024,NVIDIA則是聚焦在Blackwell架構的GB200 Superchip與B200 GPU,但在Blackwell產品線規劃,B100 GPU確實存在,而且與B200 GPU的關鍵差異僅在於能耗設定以及因為能耗影響的效能。

▲B200晶片特寫,可看到上下的HBM3E記憶體以及兩個互連的Blackwell晶粒

根據NVIDIA提供的白皮書,Blackwell GPU是透過封裝技術將兩個晶片與8Gbps HBM3E記憶體透過高速通道連接構成一個晶片,總共有2,080億個電晶體,單一個Blackwell GPU具備192GB記憶體,並採用第5代NVLink作為外部通道。

▲GB200由1個具備480GB記憶體的Grace CPU搭配2個B200 GPU

▲GB200 Superchip工程板面積更為龐大,2個B200 GPU與Grace CPU呈現扇形排列

在GB200 Superchip的結構,是由1個具備1TB/s頻寬、480GB LPDDR5x的Grace CPU搭配2個分別為192GB HBM3e的Blackwell GPU,平台功耗達2,700W,其中Grace CPU為300W,而2個Blackwell GPU分別為1,200W,總共可發揮20PFLOPS的FP4 AI性能,在白皮書另提到除了具備2路的第5代NVLink(1,800GB/s),還採用2路的PCIe Gen 6.0(256GB/s),從NVLink與PCIe Gen 6.0的性能差,也不難想像NVIDIA為何會投入基於Arm Neoverse的Grace CPU開發。

▲B200 GPU與B100GPU旨在能沿用現行為Hopper設計的伺服器結構與散熱

至於B200 CPU與B100 CPU則是針對搭配傳統x86系統的GPU加速器產品,並強調能夠與現行針對Hopper架構的系統無縫連接,兩者原則上都為配有192GB HBM3e記憶體的Blackwell單一晶片,當前公布的數據僅有功耗設定與似乎是因此造成的性能差異,B200 GPU採用基本1,000W功耗設定,但據稱若使用液冷則可提高至1,200W,而B100 GPU則控制在與H100 GPU相同的700W功耗。

▲若散熱解決方案完全依據H100 GPU參考設計的最低限度,則可選擇同為700W設定的B100 GPU

可預期B200與B100的差異化設定有很大部分是為了減少系統生態系夥伴必須為此重新設計散熱架構,因為NVIDIA強調系統商可沿用為H100所開發的設計改為Blackwell GPU;當時NVIDIA的官方參考設計的熱解決方案是因應H100的700W所設計,不過不同的系統商也會採取不同的散熱解決方案,部分廠商因應客戶需求有些會採用更高效的散熱器,或是直接採用液冷。

▲藉由功率設定的差異,GB200、B200與B100有一定的效能落差

簡單的說,設定為700W的B100 GPU即可對應原本依據NVIDIA H100最低限度的散熱結構的設計,若當初的散熱設計有更多的餘裕,可進一步採用1,000W設定的B200 GPU,倘若已導入高效的液冷散熱,還可進一步使用1,200W設定的B200 GPU。此外,雖然此次NVIDIA並未提及PCIe卡形式的Blackwell,但不排除B100後續會採用PCIe Gen 6通道提供PCIe卡形式的設計,提供單卡或以NVLink連接的雙卡,提供給更小規模的加速系統使用。

© 版权声明
THE END
喜歡就支持一下吧
点赞12 分享
評論 抢沙发
头像
歡迎您留下寶貴的見解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容