天猫配资端天猫配资端天猫配资端
最近,“超节点”在AI圈迅速走红,在各大展会论坛频繁亮相,行业大佬也认为它是智算发展重要趋势。那么,究竟什么是超节点?为何需要超节点?本文将深入解读。
超节点英文为SuperPod,由英伟达最先提出。随着大模型参数规模增长,对GPU集群规模需求不断增大,构建大规模GPU集群的方式有Scale Up(向上扩展,增加单节点资源数量)和Scale Out(向外扩展,增加节点数量) 。但Scale Up受限于单台服务器空间、功耗、散热及内部通信能力,英伟达推出NVLINK总线协议及NVLink交换机解决此问题,历经发展,NVLINK已到第五代。2024年3月,英伟达发布NVL72,可集成大量CPU和GPU,实现高AI训练性能。
之所以搞超节点这种加强版Scale Up,是因其在性能、成本、组网、运维等方面有巨大优势。相比Scale Out采用的Infiniband和RoCEv2技术,超节点在带宽、时延上表现更优,还支持内存语义能力。从组网和运维角度,超节点可降低组网复杂度与网络部署难度,缩短部署周期,方便后期运维,不过也要考虑成本因素。
因超节点优势显著,受到业界关注,很多厂商加入研究。当前主流超节点方案有:私有协议方案,如英伟达,还有华为发布的CloudMatrix 384,以384张昇腾算力卡组成超节点,提供高密集BF16算力;开放组织方案,以以太网技术为基础发展开放标准,降低行业门槛,其中ETH - X开放超节点项目有30余家产学研机构参与,基于以太网构建HBD,具备多种特点,其技术规范1.0已发布,首台原型机已下线。
随着AI发展天猫配资端,业界对超节点需求将更强烈,更多厂商会加入相关开放标准。
#超节点 #AI技术 #GPU集群 #开放标准米牛配资提示:文章来自网络,不代表本站观点。