超节点，凭何成为AI算力“新宠”？

21世纪经济报道记者雷晨上海报道

在AI浪潮的汹涌推动下，大模型的迅猛发展对算力提出了近乎苛刻的要求。万亿参数大模型与多模态训练的兴起，促使算力集群跑步迈入“万卡协同”时代。

传统算力架构已难以满足高效、低耗、大规模协同的AI训练需求，行业亟需一场技术革新。在此背景下，超节点（SuperPod）——这一由英伟达率先提出的Scale Up（纵向扩展）解决方案，凭借其高性能、低成本、高能效等优势，迅速成为全球科技巨头竞逐的“新战场”。

据中科院物理所介绍，超节点的英文名叫SuperPod，是英伟达最先提出的概念。作为Scale Up的当前最优解，它通过内部高速总线互连，能够有效支撑并行计算任务，加速GPU之间的参数交换和数据同步，缩短大模型的训练周期。

在2025世界人工智能大会期间，从华为昇腾384超节点的“真机首秀”，到曦智科技光互连方案的“SAIL奖折桂”，中国企业在超节点领域的全面开花，不仅标志着算力集群正式迈入“万卡协同”时代，更预示着AI基础设施的竞争已从单点突破升级为系统工程级的生态较量。

超节点成AI算力“新宠”

超节点，究竟好在哪里？

一般而言，构建大规模GPU集群，行业主要采用Scale Out（横向扩展）以及Scale Up（纵向扩展）两种方式。

有业内人士指出，相较于传统方案Scale Out，Scale Up在性能、成本、组网、运维等方面存在优势。而超节点就是Scale Up的最佳方案。

“超节点架构通过深度整合GPU资源，在超节点内构建起低延迟、高带宽的统一算力实体，已成为支撑这一演进的关键技术路径。”壁仞科技OCS超节点项目相关负责人董朝锋对21世纪经济报道记者表示。

“当前传统风冷AI服务器的功率密度已逼近极限。一个标准机柜塞满8张高功耗GPU服务器，其散热和供电挑战巨大。”董朝锋指出。

在他看来，超节点通过液冷等先进散热技术，将数十甚至上百个计算单元整合在一个高度集成的机柜或机组中，极大地提升了算力密度和能源效率（PUE）。

以其与曦智科技、中兴通讯联合推出的国内首个光互连光交换GPU超节点——光跃LightSphere X为例，董朝锋指出，针对包含Deepseek的大模型训练与推理需求，该方案可显著缩短训练时间、降低算力成本。

与此同时，他提到，作为沪设沪造的标杆项目，该方案将有效推动上海本地光芯片、液冷技术、GPU模组等产业的协同发展，形成“技术-产品-服务”的闭环生态。此外，光交换芯片的低功耗特性及液冷技术的应用，助力数据中心绿色转型，符合国家“双碳”目标。

中信建投研报对超节点市场前景持乐观态度。其指出，超节点作为重要的产业趋势，已经被国内外众多服务器选为下一代方案，同时大部分的超节点方案都会采用铜连接作为主要承载载体。

当前，通信网络中常见的连接方案包括光通信和高速电通信，无源DAC作为电通信的主要解决方案，不包含光电转换器模块，具有很高的成本效益和运营可靠性，成为实现短距离传输的优秀解决方案。

目前的铜缆已经实现224G以太网SerDes高速通信技术升级，短距离传输性价比突出，在AI服务器高集成度的趋势下，铜连接呈现一定的趋势放量。

当前，业界主流的超节点方案主要包括私有协议方案和开放组织方案两种，私有协议主要包括英伟达、Trainium方案、华为方案等。

“在英伟达方案中，GB200 NVL72服务器采用大量的铜连接作为机柜内部通讯方式，GB200 NVL72机柜中不同的计算托盘间采用电缆进行互联，内部使用电缆长度累计接近2英里，共有5000多条独立电缆。”上述研报指出。

而计算托盘内同样采用大量铜连接作为服务器内的GPU芯片互联。在开放协议中，目前的开放标准不止一个，基本上都是以以太网技术（ETH）为基础，以太网技术最成熟、最开放，也拥有最多的参与企业。

超节点开放标准方面，中心建投指出，比较有代表性的是由开放数据中心委员会（ODCC）主导、中国信通院与腾讯牵头设计的ETH-X开放超节点项目。在ETH-X的架构中，分为Scale Up 和Scale Out两个主要组网部分，其中Scale Up网络负责HBD内部GPU之间的互联，HBD可以由一个或者多个高功率Rack组成，通过Scale Up进行扩展；多个HBD通过Scale Out的扩展方式组成更大的GPU集群。

值得注意的是，该机构提到，国内字节、阿里、腾讯新一代服务器分别采用超节点设计，预期将进一步带动铜连接整体市场空间。

科技企业纷纷布局

面对超节点这一算力新领域，国内科技企业积极布局。

其中，华为在超节点领域进展显著。今年5月23日，华为于鲲鹏昇腾开发者大会上发布昇腾384超节点，实现业界最大规模的384卡高速总线互联，具备超大带宽、超低时延、超强性能的三大优势。

据介绍，昇腾384超节点由12个计算柜和4个总线柜构成，集成384个昇腾910CNPU和192个鲲鹏920CPU。其打破了冯诺依曼架构，创造性设计了对等计算架构，通过高速总线互联技术实现技术上的重要突破。

通过系统工程的优化，实现资源的高效调度，更好的满足了模型训练和推理对低时延、大带宽、长稳可靠的要求。

在2025世界人工智能大会上，华为首次展示了为昇腾384超节点真机，并且获评“WAIC镇馆之宝”。

除了昇腾384之外，大会上，曦智科技联合壁仞科技、中兴通讯推出全球首个分布式光互连光交换GPU超节点解决方案——光跃LightSphereX，并获世界人工智能大会最高奖项——卓越人工智能引领者奖（Super Al Leader，简称SAIL奖）。

记者获悉，该超节点基于曦智科技分布式光交换技术，采用硅光技术的光互连光交换芯片和壁仞科技大算力通用GPU液冷模组等构建，具备高带宽、低延迟、灵活可扩展等特点。

与此同时，曦智科技与沐曦合作的光互连电交换超节点方案也在会上首次公开亮相，进一步丰富了超节点的技术路线。

而燧原科技的云燧ESL超节点系统，在测试中表现出良好性能，单节点最高64卡全带宽互联，采用液冷方案，目标是高性价比、高密度、高能效。据称可实现9216GB单节点存储容量、230TB/s单节点存储带宽、51.2TB/s单节点聚合带宽、单节点可支持PD分离优化。

而沐曦发布的旗舰GPU曦云C600，支持MetaXLink超节点扩展技术，并且内置ECC/RAS多重安全防护模块，旨在为金融、政务等关键领域提供高可靠算力基座，满足下一代生成式AI的训练和推理需求。

此外，记者获悉，摩尔线程已经建立了涵盖AI训练智算卡、AI推理卡、AI超节点服务器及夸娥(KUAE)智算集群在内的全栈AI智算产品线。

在2025世界人工智能大会召开前夕，摩尔线程创始人兼CEO张建中提出构建新一代AI训练基础设施，为AGI时代打造生产先进模型的“超级工厂”。

据张建中介绍，这座“AI工厂”的智能“产能”，由五大核心要素共同决定，其效率公式可概括为：AI工厂生产效率=加速计算通用性×单芯片有效算力×单节点效率×集群效率×集群稳定性。

他指出，当单节点效率达到新高度，如何实现大规模集群的高效协作成为新的挑战。摩尔线程自研KUAE计算集群通过5D大规模分布式并行计算技术，实现上千节点的高效协作，推动AI基础设施从单点优化迈向系统工程级突破。

在业内人士看来，当单点突破升维为体系化竞争力，中国超节点技术正在为全球人工智能发展铺设一条兼具性能与包容性的新赛道，其价值有望持续释放。

Top

1、和泰国闹僵之后，柬埔寨开始大力打击电诈,2020柬埔寨电信诈骗最新新闻

2、少林寺事件是有神论宗教回到自己位置的转折！,当年少林寺有多火

3、“贫穷是英国殖民的遗产，不是印度教文明的宿命”：印度官员的话语构建

超节点，凭何成为AI算力“新宠”？

Top

小编推荐

相关阅读

网友评论