NVIDIA以太网加速xAI构建的全球最大AI超级计算机夺眶而出

时间:2024-11-10 04:49:28 来源:海口秀英一顿干三碗汽车销售商行

NVIDIA近日宣布,太网xAI位于田纳西州孟菲斯市的加速建的计算机Colossus超级计算机集群达到了10万颗NVIDIA Hopper GPU的巨大规模。该集群使用了NVIDIA Spectrum-X以太网网络平台,全球该平台是超级专为多租户、超大规模的太网AI工厂提供卓越性能而设计的RDMA(Remote Direct Memory Access)网络。

NVIDIA以太网加速xAI构建的全球最大AI超级计算机夺眶而出

Colossus是加速建的计算机夺眶而出世界上最大的AI超级计算机,目前正被用于训练xAI的全球Grok系列大语言模型,以及作为X Premium用户功能之一的超级聊天机器人(Chatbot)。xAI正在将Colossus的太网规模进一步扩大一倍至20万颗NVIDIA Hopper GPU。

xAI和NVIDIA仅用了122天就建成了所有配套设施和这台最先进的加速建的计算机超级计算机,从第一个机架落地到开始训练任务,全球只用了19天。超级而建造这种规模的太网胡言乱语系统通常需要数月乃至数年的时间。

在训练Grok这种超大型模型时,加速建的计算机Colossus实现了空前的全球网络性能,在三层网络架构下,整个系统未出现任何因流量冲突而造成的应用延迟增加或数据包丢失的情况。凭借Spectrum-X先进的拥塞控制功能,系统数据吞吐量一直保持在95%。砥柱中流

这一性能水平是传统以太网在大规模的情况下根本无法实现的,传统以太网在数千条流发生冲突时,只能提供60%的数据吞吐量。

NVIDIA网络高级副总裁Gilad Shainer表示:“AI正变得至关重要,对性能、安全性、打退堂鼓可扩展性和成本效益提出了更高的要求。NVIDIA Spectrum-X以太网网络平台专为那些如xAI一样的创新企业提供更快的处理、分析和执行AI工作负载的速度,进而加速AI解决方案的开发、部署和上市。”

埃隆·马斯克在X上表示:“Colossus是欲壑难填世界上最强大的训练系统。xAI团队、NVIDIA和我们的众多合作伙伴及供应商干得漂亮。”

xAI发言人表示:“xAI构建了全球规模最大、性能最强的超级计算机。借助NVIDIA Hopper GPU和Spectrum-X,我们得以突破大规模AI模型训练的笔走龙蛇边界,打造基于以太网标准并经过超级加速和优化的AI工厂。”

Spectrum-X平台的核心是Spectrum SN5600以太网交换机,它支持高达800Gb/s的端口速度,采用了Spectrum-4交换机ASIC。xAI采用了Spectrum-X SN5600交换机与NVIDIA BlueField-3 SuperNIC的端到端解决方案,实现了前所未有的聊胜于无性能。

专门面向AI的Spectrum-X以太网网络具有先进的功能,可在提供高效、可扩展的带宽的同时,实现低延迟和短尾延迟,而这些功能之前是InfiniBand网络所独有的。Spectrum-X的胡说八道功能包括基于NVIDIA DDP(Direct Data Placement)技术的动态路由、拥塞控制计算,以及增强了AI网络的可视性和性能隔离,所有这些功能都是多租户生成式AI云和大型企业应用环境的关键要求。

上一篇:西藏总投资37.75亿元实施集中供暖 惠及近20万民众
下一篇:制作游戏哪些人气高 十大必玩制作游戏排行榜
相关内容
最新内容
推荐内容
热点内容