NVIDIA揭密持有的EOS超級電腦,一探超級電腦TOP 500第9名系統的架構

雖然過往超級電腦多由公部門或特定領域企業建設,不過隨著NVIDIA GPU異構加速技術開花結果,NVIDIA也在每個加速器世代設立超級電腦作為火力展示,當前於2023年11月SC23大會亮相的NVIDIA EOS更是超級電腦排行榜TOP 500的第九名系統;而NVIDIA近期釋出一部短片,進一步介紹NVIDIA EOS的構成技術。

▲EOS透過高速網路串接576套NVIDIA DGX 100、具備達4,608個H100 GPU,提供18.4 exflops的FP8 AI算力

EOS基於NVIDIA DGX SuperPOD模組化架構,由576套NVIDIA DGX H100系統組成,共有4,608個NVIDIA H100 Tensor GPU,並透過NVDIIA Quantum-2 InfiniBand網路與相關軟體構成,總共可提供18.4 exflops的FP8 AI效能,使得EOS可以處理龐大的AI工作負載,尤其如訓練大型語言模型、推薦系統與進行量子模擬,可說是因應生成式AI世代到來的高效能系統。

▲其結構透過NVIDIA Quantum-2 InfiniBand以400Gb/s速度連接,使多個節點宛若一個大型晶片

EOS也是呼應當前生成式AI如藥物探索、聊天機器人至自主機器等領域而生的系統,旨在提供已經具備AI專業知識與開發技能的專業人員一個AI工廠、一個隨時可用的專用AI引擎;NVIDIA EOS支援在業界廣泛被使用的加速運算與網路技術,包括NVIDIA Base Command、NVIDIA AI Enterprise等套件,並因應跨大型加速器節點叢集,可實現低延遲、高吞吐量的AI工作負載。

EOS為了實現大量運算叢集低延遲、高吞吐量的目標,使用基於In-Network Computing網路內運算技術的NVIDIA Quantum-2 InfiniBand,支援達400Gb/s的資料傳輸,使各個NVIDIA DGX H100節點如同一個超大型的運算晶片。

© 版权声明
THE END
喜歡就支持一下吧
点赞8 分享
評論 抢沙发
头像
歡迎您留下寶貴的見解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容