国产算力建设交流
(来源:纪要头等座)
国产算力建设交流
从展望明年的角度来讲,海外算力和国产算力同样具有非常好的机会。海外算力(国内常指代海外相关产业链)就不用多说了,光通信那几个标的逻辑非常好。国内的话,目前来看,建议可以重点关注一下“超级节点”的情况。关于“超级节点”,我们先大致跟各位领导做一个简单的汇报,说一下核心逻辑,然后讲解更详细的内容。
首先,我们要明确一个点:“超级节点”本质上是指,我们采用一个统一的通信协议,将整个架构中的AI芯片以更高速、更集中的方式连接在一起。它和传统的Spine-Leaf等架构有所不同。例如,传统的Spine-Leaf架构可能在短距离内使用NVLink,在机架间(Off-Shelf/Off-Chip)层面又用以太网或IB(InfiniBand)架构。它们的通信协议不统一,依赖于交换机和网络架构的叠加,随着集群规模扩大,来构建更大的AI集群。
但其实,这样的集群存在一些劣势。目前海外厂商,如英伟达、AMD以及其他AI集群的演进方向,都倾向于在整个集群内,将所有的AI芯片统一起来,用一个高度统一的通信架构进行连接。同时,甚至可以将许多AI芯片的显存资源聚合到一起,而不是像之前那样每个AI芯片只使用自己的显存。这是一个很大的变化,目前北美在“超级节点”方面推进很快。
国内未来可能会推进得更快,非常快。可以理解为,“超级节点”对整个国产算力有非常重要的影响。国内算力之前的问题是什么?一直以来是需求不太好。需求不太好的原因在于单卡(芯片)本身还是有问题。之前,有运营商采购过昇腾(JLB,此处应指昇腾系列)的卡,发现单卡性能尚可,但组成集群后,整个集群的能力可能只相当于预期性能的30%或60%,这很不理想。因此,国内算力的AI芯片厂商也在想办法。
他们想的办法是:干脆采用统一的通信协议,提前把所有卡(芯片)组建到一起。例如,华为今年推出了384卡的超级节点,明年可能会推出基于Atlas900的8192卡超级节点,后续还有1万多张卡的Atlas960超级节点。曙光也推出了自己的640卡超级节点。阿里这边有盘古128卡超级节点。目前,除了寒武纪的方案可能尚未完全确定,其他所有厂商(除寒武纪外)明年都会将“超级节点”作为重点突破方向。因为单打独斗的时代已经过去,依靠单卡性能提升实在太难了。
最好的方式,是利用统一的通信协议和通信能力来弥补单卡的不足,用规模来提升性能,用网络能力来弥补单卡算力的劣势,从而形成一个庞大且有优势的AI集群。这是一个非常重要的发展方向。(更多实时纪要加微信:aileesir)因此,我们认为明年国内“超级节点”的渗透率会大幅提升,这个提升速度甚至可能比海外还要快。海外因为其单卡能力还比较强,不一定非要推出超级节点,但国内推出超级节点可能会成为一个重要趋势。在这个趋势下,可以理解为整个国产算力的集群协作能力将被大幅提升。
例如,明年华为的8192卡超级节点(基于Atlas950)性能预计会有明显提升。因此,明年随着中芯国际、华虹半导体等扩产加速,以及国内AI芯片能力的提升,国产算力一定有大机会。这个大机会,重点将体现在“超级节点”方面。如果我们梳理超级节点中哪个环节弹性最大,那一定是网络侧弹性最大。因为超级节点的本质就是通过网络能力来弥补单卡性能不足,所以网络侧会有很大增量,主要分为三块:高速线缆模组、交换芯片、光模块。
以高速线缆模组为例,我们之前推荐的华丰科技就是这个逻辑。通过卡间互联速率的提升,将原来华丰科技供应的112G线缆升级为224G的新高速线缆模组,单价从之前的约1万元提升到未来的约2万元,这是一个很大的变化。再加上明年华为整体芯片出货量可能很高,所以高速线缆模组市场规模预计会很大,华丰科技的份额和净利润率都有望提升。因此,高速线缆模组在华丰科技这边,能够体现出量、价、份额的同步提升。
除此之外,交换芯片和光模块的逻辑也一样。无论从哪个方向测算,都可以发现,在超级节点方案中,线缆模组、交换芯片和光模块的占比(或需求量)会得到大幅增长。因此,明年从国产算力的投资角度看,布局AI芯片本身的弹性可能不如布局超级节点方案中的网络侧弹性大。这是明年一个非常重要的趋势。未来,海外和国内以“超级节点”形式出货的服务器比例将大幅提升,其中国内市场的渗透速度可能会更快。
所以,明年预计会看到很多公司能够以“超级节点”的形式,提供一些非常有前瞻性的产品和方案。以上就是我们对“超级节点”的一个大致展望。我们认为当前弹性最大的公司是我们之前提到的华丰科技,明年利润可能很高,有望看到约20亿的利润规模,以及六七百亿的市值。除此之外,还包括像锐捷网络、盛科通信、中兴通讯这样的交换机制造商。再者,就是相关光模块厂商,如中际旭创、华工科技等也都不错。
在正式推演这个逻辑之前,需要看到,芯片的摩尔定律正在逐渐放缓,单颗芯片的物理极限正在逼近。如果我们要支撑大模型参数指数级增长的需求,用“超级节点”方案是一个解决思路。我们看到,投资界也注意到英伟达推出了NVL72,华为发布了CloudMatrix架构。
这不仅仅是一次产品迭代,也是算力基础设施架构的一次“物种进化”。这次进化,正是将计算的瓶颈从计算侧彻底推向了网络侧。所以我们的核心观点非常明确,正如贺然总刚刚提到的:伴随着AI大模型向万亿参数、多模态及智能体方向加速演进,传统的AI训练/集群架构正面临通信和能耗的双重瓶颈。而超级节点架构,通过高带宽、低延迟的互联,深度重塑了互联组件的配比逻辑,由此可能引发交换芯片、光模块以及高速线缆模组的需求从过去的线性增长转变为指数级爆发。
而且,超级节点对于我国国产算力具有非常重要的意义。在单卡性能受限,或者说海外高性能芯片卡脖子的背景下,超级节点是我们实现后发赶超的必经之路。接下来,我将分六个部分,和大家详细拆解这份报告的细节,包括我们在附录里整理的全球超级节点协议标准等。
第一部分:瓶颈与破局——大模型倒逼算力架构革新
首先,当前有四大AI趋势定义了算力需求的新范式:
第一个趋势是模型规模和算力规模交替增长。算力竞赛全面升级。参考相关数据,主流模型参数自2010年以来,每年以约2.4倍的速度增长,意味着大约每2.6年,参数规模就会提升一个数量级。更可怕的是训练能耗的增长,例如Grok3的训练消耗已达110GWh(假设单位)。头部厂商模型迭代速度非常快,基本维持在8-12周迭代一代。在我国,截至2025年,国内已有433款大模型完成备案。在这种模型竞赛的背后,是对算力基础设施规模化扩张的极大需求。
第二个趋势是垂类应用深化,由推理和后训练定义新需求。AI不再只是通用的聊天机器人,它正通过后训练(如监督微调、强化学习)走向行业专用。这意味着算力需求不仅在提升,而且推理侧市场更要求低延迟和高吞吐。例如,OpenAI一方面推出GPT-4、GPT-5来抬高基座模型天花板,另一方面也推出GPT-4o等模型进行后训练,这对AI基础设施的弹性调度提出了非常高要求。
第三个趋势是训练成本呈几何级数提升。例如Grok4的训练成本已达到3.9亿美元。在成本结构中,大头不是电费或研发工资,而是硬件折旧,占比高达47%-67%。这逼迫全行业必须重构算力底层架构,提高效率,否则AI可能出现“用不起”或“练不起”的情况。
第四个趋势是AI正迈向多模态和智能体方向,迈向复杂认知。根据Gartner预测,到2030年,八成以上的企业应用将原生支持多模态。未来的AI智能体需要自主规划和逻辑推理。因此,AI计算范式正从确定性的暴力计算转向动态的认知计算,这对低延迟互联提出了巨大挑战。
以上是四大AI趋势。从物理层面看,各种训练或推理的并行策略正撞上“通信墙”。
在此趋势下,单机八卡训练已成为历史,超大规模集群是刚需。但简单堆叠机器已行不通。在大模型训练中,经常采用多种并行策略,主要有四种:数据并行、张量并行、流水线并行和序(更多实时纪要加微信:aileesir)列并行。每种并行策略对网络互联速度都有不同要求,有些并行策略(如某些梯度同步)通信频率极高,对带宽和时延极度敏感;有些则流量不规则,容易造成拥塞,导致各种网络瓶颈。
因此,当前AI基础设施面临三大物理瓶颈:
1.通信瓶颈:千亿参数模型的梯度同步等操作,传统以太网难以承载其网络需求。
2.能耗与热力屏障:为打破通信瓶颈,算力集群需提升互联密度,这使得液冷和48伏(或更高)供电成为标配。
3.复杂度与可靠性挑战:随着AI集群节点数量破万,硬件故障常态化。从GPT-3到GPT-4,参数增长约10倍,但跨节点互联需求激增近50倍。经常会出现某个节点的故障导致整个模型训练短暂停机的情况。
第二部分:行业答案——超级节点
面对上述挑战,行业给出的答案就是“超级节点”。
简单来说,它是一个机柜级(或更大)的AI算力单元。其核心设计思想是采用如NVLink或华为UniBlade等极高带宽的统一内部总线,将几十甚至上百颗GPU(或NPU)互联,构成一个在逻辑上统一的“单颗巨型GPU”。
对比传统AI服务器与超级节点:传统AI服务器(除英伟达方案外)通常通过PCIe连接GPU,通信受限于PCIe带宽,且扩展性较差。而超级节点以GPU为中心,实现GPU间的全互联。例如英伟达的NVL72,其内部带宽高达130TB/秒。
超级节点的核心价值在于:
*训练端:能显著缩短训练周期。因其内部Scale-up网络带宽远大于传统网络,大量通信被内部化,延迟极低,并能支持更大规模的模型参数,尤其是MoE(混合专家)模型。
*推理端:体现在经济效益上。高带宽解决了显存瓶颈,将算力利用率推向极限,并能完美支持超长上下文。
从行业演进路径看,我们梳理了全球主流厂商的超级节点规划:
*英伟达无疑是推进最快的,已明确规划从2025年推出72卡的NVL72,到2027年可能推出NVL576,互联带宽从0.1PB/秒演进到1.5PB/秒。
*华为后发制人,已推出CloudMatrix384卡方案(基于昇腾),并计划在2027年支持万卡规模的超级节点方案(基于Atlas950/960)。
*其他厂商如AMD推出了自己的72卡方案,阿里推出了128卡超级节点。
这形成了一个共识:超级节点方案正从过去的单机八卡,向单机72卡甚至576卡演进。
第三部分:超级节点带来的网络侧投资机会——需求指数级提升
首先是交换芯片。在传统两层Clos或胖树网络架构下,交换机需求通常随GPU数量线性增长。例如,用八卡服务器组网,GPU与交换芯片的比例测算约为2.67:1。但在超级节点时代,这个逻辑发生了变化。
以英伟达NVL576为例,参考第三方组网方案(如采用18平面双层胖树拓扑等),可能需要288颗L1层和144颗L2层NVSwitch芯片,总计432颗芯片对应576个GPU,此时GPU与交换芯片比例变为1.33:1。在某些组网方案下(如用NVL36背靠背组成NVL72再扩展),比例甚至可能达到0.94:1。这意味着,在某些组网情况下,通过超级节点方式,交换芯片需求量几乎能追平GPU需求量,这是前所未有的。
再看AMD的Helius72卡超级节点。它在机柜内引入了5个交换机托盘,包含9颗交换芯片ASIC,其超级节点内GPU与交换芯片比例为8:1。相比之下,传统的MI300用胖树组网,GPU与交换芯片比例可能在23:1左右(即约23个GPU对应1颗交换芯片)。超级节点带来了约3倍的用量提升。
华为的UB-Mesh架构更为激进。根据其论文,64卡超级节点需要72台低基数交换机,NPU与交换芯片比例达到0.89:1,实现了单机架内交换芯片需求对GPU需求的反超。再看华为384卡方案,总计有448颗交换芯片,比例达到0.85:1。因此,如果以国内华为的方案来看,交换芯片用量相较于传统Clos或胖树架构,可能有8-15倍的增长空间。
说完交换芯片,再看光连接。由于超级节点内部网络距离极短、带宽极高,在NVL72内部铜缆(如NVLink)占据主导。但未来超级节点的横向扩展以及内部Scale-up需求,对光模块来说是指数级增长。
华为的全光路线是一个典型案例。其384卡方案摒弃了传统铜缆,使用了6912个400GLPO光模块构建全光网络。在这个方案中,ASIC芯片与光模块的比例高达1:18。对比英伟达方案,其GPU与光模块比例通常在1:1.2到1:3.5之间。华为方案的光模块需求是传统英伟达方案的5-6倍。
接着看高速线缆模组。虽然光模块需求也在指数级增长,但并不意味着立即“光进铜退”。相反,超级节点内部的高速线缆模组(背板连接器+线缆)也迎来了量价齐升。在机柜内部,由于超级节点需要实现多卡间互联,对短距离、高速率连接的需求指数级提升,而机柜内的铜连接凭借低成本、低功耗和高可靠性,依然是短距离连接的王者。高速线缆模组壁垒很高,涉及信号完整性检测、微小零件激光焊接等工艺,门槛高、价值量也高。
随着华为Atlas950/960芯片互联带宽从2TB提升到4TB,板卡间短距离高速连接需求会大幅提升,直接利好具备高速连接器研发能力的厂商,如华丰科技。
第四部分:国产算力的破局之路——超级节点
因为海外算力芯片单卡能力确实强,而我们受限于先进制程和HBM(高带宽内存)供应链,单卡性能提升上限落后于海外。因此,我们的策略非常明确:以集群换单卡,以网络换算力。华为昇腾的发布会也已验证了这一路径。
从资本开支角度看,2025年,亚马逊、微软、谷歌、Meta的资本开支预计分别为1056亿、1240亿、850亿、690亿美元。反观国内,2025年主要厂商的资本开支预计总计在1200-1450亿人民币左右。总量上的巨大剪刀差,正是国内算力投资向上的弹性所在。
从财务指标看,国内大厂完全有资金能力进行资本开支。我们在报告中对Capex占经营性现金流、收入及净利润的比例进行了测算,都有充足空间。只不过2025年,可能在AI模型应用落地变现、或海外芯片获取路径受阻等因素影响下,国内对国产算力的投入曾出现短暂观望或暂停。
但现在,超级节点方案的成熟,将重新开启国内算力投资。各云厂商的投资意愿明显加强:阿里在业绩会上明确表示不排除在既定投入外进一步加码;腾讯表示将在其异构计算平台全面适配国产芯片;华为预测到2035年全社会算力需求将达到10亿EFLOPS(是现在的10万倍)。各厂对AI云计算的投入坚定度毋庸置疑。
基于以上意愿,我们在报告中也做了保守测算:假设到2027年,主要互联网厂商及运营商的资本开支约5600亿人民币,假设其中30%用于采购AI芯片,且AI芯片与交换芯片比例达到1:1,那么交换芯片和交换机的市场将迎来200%甚至300%的超高速成长。
第五部分:主流超级节点协议
超级节点通过高带宽总线协议实现节点内所有GPU/NPU的互联。下面聊聊主流协议:
1.英伟达:核心协议是NVLink及配套产品NVSwitch。其强大不仅因为GPU,也因为NVLink。NVLink从1.0到5.0,带宽已提升800倍。其72颗GPU全互联,单向带宽达1.8TB/秒,背后是NVSwitch芯片及专有的SHARP技术(在交换机内完成如Allreduce等集合通信操作),极大减轻了计算侧负担。
2.挑战者联盟——UCIe/其他开放协议:面对英伟达垄断,其他厂商形成了挑战者联盟,如致力于开放标准的UCIe(UniversalChipletInterconnectExpress)等,成员包括谷歌、微软、AMD、英特尔等,目标是创建开放标准,让不同厂商的加速器能在超级节点内混合使用,这对于希望解耦的云厂商客户很重要。此外,博通等主推的增强型以太网协议(如可能指代FUE或特定优化版以太网),旨在通过对以太网进行增强来满足需求,这对已部署大量以太网的数据中心来说是一条平滑的渗透路径。
3.中国的主要协议:
*华为UB-Mesh:最接近英伟达模式,不仅定义了接口,更定义了硬件、软件加组网拓扑的系统工程。其论文已明确规划了从64卡线性扩展到8192卡的技术路径,处于领先地位。
*腾讯与开放数据中心委员会推动的ETH-X:基于以太网进行优化的超级节点方案,特色是引入了CTC/NPC(铜共封装/近封装互联)技术来解决光模块可能带来的成本或功耗问题,思路可能与NVL72接近。
*阿里ALS:强调对先进互联技术的支持及在网计算能力,试图为国产算力保留通向国际生态的接口。
*运营商协议:如中国移动从运营商视角推出的OISA协议,也是基于以太网优化,支持千卡级互联。
第六部分:市场数据与投资策略
最后看第三方数据。根据IDC数据,2025年第二季度,中国数据中心交换机市场规模约11.56亿美元,同比增长24.5%。由于政企集采等因素,市场存在季节性。但从数据中心交(更多实时纪要加微信:aileesir)换机端口出货量看,二季度达977万个,同比增长65.2%,增速创五年新高,并首次呈现加速趋势。
相比海外交换机市场已持续两三个季度的加速增长,国产算力中交换机/交换芯片的产业趋势刚刚处在加速起点。
长远看,无论是LightCounting还是Dell‘OroGroup等机构,都对Scale-up交换机或匹配超级节点的交换机市场规模给出了乐观指引。LightCounting数据显示,Scale-up交换机市场规模已超过传统以太网和InfiniBand市场总和,预计未来5年CAGR保持25%。Dell’OroGroup预测,高带宽以太网交换机(200G以上)市场CAGR将达30%,其中800G以上细分市场CAGR更可能达到54%。
这些数据都告诉我们一个事实:网络侧的价值量正在经历前所未有的重估。
免责申明:以上内容不构成投资建议,以此作为投资依据出现任何损失不承担任何责任。
相关推荐
国产算力建设交流
国产算力的曙光
DeepSeek-V3.1发布:国产算力生态跃迁新纪元
工信部推动算力建设!算力股机会来了?
国产GPU算力将达250W 运营商已寻求支持
国产算力和国产大模型,迎来双赢时刻
中长期算力自主可控 国产算力生态受益股一览
国产算力之王“华为算力”第一股,385家机构重仓,有望强势起飞!
国产AI算力黑马崛起,解密英博云全新产品矩阵
国产算力中心能否再次启动?
网址: 国产算力建设交流 http://www.xishuta.com/newsview144953.html
推荐科技快讯
- 1问界商标转让释放信号:赛力斯 95792
- 2报告:抖音海外版下载量突破1 25736
- 3人类唯一的出路:变成人工智能 25175
- 4人类唯一的出路: 变成人工智 24611
- 5移动办公如何高效?谷歌研究了 24309
- 6华为 nova14深度评测: 13155
- 7滴滴出行被投诉价格操纵,网约 11888
- 82023年起,银行存取款迎来 10774
- 9五一来了,大数据杀熟又想来, 9794
- 10手机中存在一个监听开关,你关 9519
