首页 科技快讯 华为突破制裁的密码,藏在“384超节点”中

华为突破制裁的密码,藏在“384超节点”中

来源:晰数塔互联网快讯 时间:2025年06月17日 18:01

在通往通用人工智能(AGI)的路上,如何像其他领域一样实现弯道超车,是业界绕不开的话题。

在过去的十余年时间里,各项单点技术飞速演进,但随着单点技术演进的边际效应递减和系统复杂度的提升,系统性能的天花板逐步从单点技术的上限演变成系统工程上限:单点优势越来越像是精致的零件,提升空间有限;但采用系统工程创新,各个部分完美配合、高效协同,实现整个系统的效能最优,才有更积极的现实意义。

如何在发挥单点技术优势的同时,以整体视角重新构建路径,通过对复杂系统的极致把控与再组织、找到新的突破可能?解决这个看似不可能的问题,就有望为我们独立引领最前沿技术发展创造条件。

近期,虎嗅将推出《华为技术披露集》系列内容,通过一系列技术报告,首次全面详述相关技术细节,为业界提供参考价值。

我们期待通过本系列内容,携手更多伙伴共同构建开放协作的生态系统,助力昇腾生态在中国的蓬勃发展。

《华为技术披露集》系列

VOL.16 :384超节点

在5月底的昇腾AI峰会上,华为正式推出“昇腾 CloudMatrix 384超节点”算力集群解决方案。

根据官方公告,这个算力平台基于384颗昇腾芯片构建,通过全互联对等架构实现芯片间高效协同,可提供高达300 PFLOPs的稠密BF16算力。

这一能力,已经超越了英伟达此前发布的B200 NVL 72平台,180PFLOPs的稠密BF16算力,为中国企业终结了底层算力的忧虑。

在禁令层层加码的情况下,为什么华为还能利用工艺制程落后的昇腾910系列芯片,在算力集群上实现后来居上?

“以非摩尔补摩尔、以集群补单芯片”

在讨论华为如何短时间内实现赶超的问题前,我们需要先明确一个问题:“384超节点”算是华为在制裁下的无奈之举吗?

不完全是。

除了制裁下寻求破局这个角度,华为打造“超节点”这件事,恰恰展现了其作为全球顶尖科技公司的远见——随着制程技术的不断升级,半导体性能提升的摩尔效应正在加速失效,不仅芯片需要面对漏电、结构迫近物理极限等一系列问题。技术升级带来的成本指数级飙升,也正在拉低新制程的革新优势。

以实际的芯片落地为例,即使客户选择全球顶尖代工厂,从5纳米升级到3纳米制程,代工成本将增加数倍,但晶体管密度也只有15%-20%的提升。这种“投入多,但提升少”的困境,正随着制程工艺的持续升级而不断加剧。

既然无法从“单点”解决发展的挑战,那就只能从“系统层面”下手了。通过系统工程的创新,弥补芯片工艺落后的问题。

前不久,黄仁勋公开表达,“从技术参数看,华为的CloudMatrix 384超节点,性能上超越了英伟达”。CloudMatrix384超节点里面有384个卡,这些卡要连在一起像一台计算机一样高效的工作,除了计算,还包括内存,通信,存储,架构,调度,并行,散热,供电,高速互联等资源调度问题。

只有让各个组成部分有效地配合在一起运行,才能使整个系统效能最佳。一位华为技术专家向虎嗅表示, “超大规模MoE模型的训练就是一项复杂的系统工程,挑战很大,如果你深入下去就会发现到处是拥塞,很多是串行,到处是等待,很大情况是资源不匹配,还有一些则是重复计算或重复数据搬运,蕴藏着巨大的改进空间”。

面对这些问题,华为的研发人员决定从底层重构现有的算力架构。

一场“系统工程的胜利”

昇腾团队做的第一个“重构”,就是“全对等高速互联的架构”。

展开来说,这是一项基于高速总线互联技术实现的重大突破,它相当于把总线从服务器内部,扩展到整机柜、甚至跨机柜。

在超节点范围内,用高速总线互联替代传统以太,通信带宽提升了15倍;单跳通信时延也从2微秒做到200纳秒,降低了10倍,使集群如同一台计算机般协同工作,有效突破系统性能限制。

紧接着,团队又设计了“全局内存统一编址”,通过虚拟化技术将分散在各节点的内存池虚拟为统一地址空间,支持跨节点直接内存访问。

这使得大模型训练中频繁的参数同步操作,无需经过传统的“序列化-网络传输-反序列化”流程,直接通过内存语义通信完成,可满足大模型训练/推理中的小包通信需求,提升专家网络小包数据传输及离散随机访存通信效率。

值得一提的是,研发团队还对“384 超节点”的资源调度进行了升级:细粒度动态切分,基于对MoE模型结构的深度感知,超节点可将模型层间计算任务按专家分布动态切分至不同节点。例如对包含288个专家的模型,可将每个专家分配至独立NPU,同时通过智能路由算法优化跨节点通信路径,使计算与通信耗时比从传统的1:1升至3:1。

事后来看,完成上述重构设计,行业中可能只有华为能在短时间内完成。因为其背后是涉及的是基础软件、计算、内存、通信、架构、调度、散热、供电、高速互联等多个领域的“协同作战”,而且每个领域都需要深厚的技术积累。

就比如说最基础的通信,传统铜缆在庞大规模的集群节点中会产生明显的信号衰减,因此昇腾团队选择了华为自主研发的400G光模块解决互联问题;又由于“超节点”的网络拓扑发生变化,还不能用传统的光调度系统,但华为此前研发的OXC(全光交叉联接)刚好可以解决这个问题。

类似的例子还有很多,应该说在CloudMatrix 384超节点的研发过程中,华为过去几十年在硬件工程和基础软件方面积累的经验,被集中展示了出来。

据悉,华为内部有个算力会战,集结了超过万人的团队,把华为云、模型、底座、芯片、硬件工程、基础软件的人集结在一起,跨部门作战,深度协同,实现了“大杂烩”技术的有效利用和协同创新。这种“多产业集群”优势,恐怕是行业内任何一家公司都不具备的。

此外,从纵向来看,也就是把范围缩小到AI产业中,华为也是为数不多既能做算力基础设施,也能做基础大模型的公司,这可以在公司内部形成一个高效运转的“技术飞轮”。华为专家强调:“只有做基础大模型,才知道对算力底座有什么要求,才知道算力底座该怎么改进。没有这样的牵引和支撑驱动机制,可能都不能发现深层次的问题。”

近期华为披露了盘古Ultra MoE准万亿模型,同时,盘古Pro MoE大模型在SuperCLUE榜单并列百亿模型榜首的成绩,这充分映证了基于昇腾国产算力平台也可以训练出世界一流的大模型。

生态,还是生态

大家都知道,国产算力在生态方面是劣于英伟达CUDA生态的,这个问题需要长时间的改进。

“能用”和“易用”是两个维度上的问题。想要将“384超节点”变成一套“易用”的算力平台,则需要华为在生态上提供更加全面的支持。

尤其考虑到此前开发者早已习惯于PyTorch、TensorFlow这种深度学习框架,或者是英伟达的CUDA。

而华为也早早地考虑到了这个问题。昇腾的异构计算架构CANN,从诞生之日起,就支持包括上述的开源学习框架。另外一方面,华为的AI框架昇思MindSpore已将生态兼容性列为最重要的事情,越来越贴近开发者的使用习惯。

虎嗅了解到,华为内部明确要求将MindSpore的易用性放在首位,要做到让开发者“过去怎么用PyTorch,现在就可以怎么用MindSpore”。针对企业迁移痛点,华为推出专为昇腾打造的“迁移助手”MSAdaptor,在用户界面与PyTorch API 保持一致,实现模型Day0迁移和一键部署。

华为还针对端到端的故障定位和故障快速恢复进行了技术改进。一位华为内部人士向虎嗅透漏,在718B参数的Pangu Ultra MoE训练中,其故障恢复能够由之前的几个小时缩短到“分钟级”。

值得一提的是,华为盘古大模型首先要考虑的问题是帮助关基行业,像矿山、钢铁、电力、交通、能源、医疗、金融、港口等智能化升级,为此华为设立了由中高级专家组成的“小巧灵突击队”,到一线现场支持客户用好昇腾。

在生态方面的建设工作,注定会是漫长的过程,昇腾的生态也在逐步完善,也包括对业界主流生态的兼容。据悉,华为近期将对外公布盘古模型和相关技术代码的开源计划,进一步使能客户自主开发、优化,匹配客户的应用需求和开发模式。

在AI基础设施加速推进的今天,昇腾算力平台,承载的不仅是这家公司的技术野心,更是中国AI产业突破技术限制的希望。这场以整合创新驱动的算力革命,或许正在书写科技竞争的全新范本。

相关推荐

华为突破制裁的密码,藏在“384超节点”中
华为384超节点/910C:供应链环节一线调研纪要
禁令一个月后,华为未来的关键时间节点
黄仁勋公开承认:华为的CloudMatrix 384,技术参数上超越了英伟达
华为没有掌握流量密码 | 观察家
隐藏在平板电脑背后的,操作系统之争
热点精选:卫星互联网+环境保护+电子身份证+国产芯片
华为新机“打脸”制裁?美国“损人不利己”之举终将酿成苦果
被制裁3年!研发投入4484亿,华为稳得住吗?
模型推理推动算力需求百倍增长,国产厂商如何进行AI基建?

网址: 华为突破制裁的密码,藏在“384超节点”中 http://www.xishuta.com/newsview137624.html

所属分类:行业热点

推荐科技快讯