重磅!中国团队发布SRDA新计算架构,从根源解决AI算力成本问题,DeepSeek“神预言”成真?
作者 | 玉盘 AI 团队
审核 | 华卫
“大模型每生成 1 美元价值,需支付 3 美元算力成本”,算力成本挑战已无争议。从软件层面的各类优化方案层出不穷,真正从硬件源头着手的方案却屈指可数,市面上能看到的包括 Groq 在内的新计算硬件也多数在大模型爆发前定型,难以充分匹配大模型本身的需求。

今天,国内团队玉盘 AI 发布《SRDA AI 大模型专用计算架构》白皮书,提出了一种全新的计算架构:系统级精简可重构数据流架构 SRDA (System-level Simplified Reconfigurable Dataflow Architecture),从硬件源头解决当前 AI 算力的核心瓶颈。

与此同时,DeepSeek 于半个月前发表论文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》,从用户视角梳理了当前大模型训练与推理中所面临的 AI 硬件瓶颈,以及对未来 AI 硬件的构想建议。

DeepSeek 从用户角度的不少构想与玉盘 SRDA 在做的事不谋而合,包括 IO 融合、3D 堆叠 DRAM 等,而玉盘进一步提出了更完整的架构设计,或正式拉开下一代大模型专用计算架构的序幕。
软硬两头的交汇或暗示业界已逐渐形成共识,即当前算力已不再是瓶颈,瓶颈在于绝大多数算力浪费在了数据搬运及读写上(互联和内存等 I/O 问题)。SRDA 相关思路是否将在不久的未来颠覆 GPGPU 目前在 AI 场景的垄断地位?
1
当前类 GPGPU 计算架构的困境
硬件架构层面的创新比较少见,人们通常认为国产算力的问题在于制程或封装技术,这种理解源于默认 GPGPU 架构是 AI 大模型的最优架构(GPGPU 架构强依赖先进制程及先进封装)。白皮书认为,GPGPU 是非常优秀的计算架构,但为保证通用性,不会完全针对大模型训练及推理的诸多需求,就像用瑞士军刀切牛排——不是刀不快,而是工具缺乏针对性。
在深入 SRDA 架构细节前,白皮书回顾了目前开发者们普遍面临的难题:
内存与互联带宽不足:H100 每秒可计算 1000 万亿次,但其共享内存架构 + 低内存带宽仅够“喂饱”不足一半的硬件算力,如同几台车抢一个车位。
算力利用率不足:受限于类 GPGPU 架构本身的通信开销及内存瓶颈,芯片的理论算力在实际 AI 负载中往往大打折扣。
网络复杂,大规模集群扩展瓶颈:传统多层网络(节点内高速互联如 NVLink,节点间网络如 InfiniBand/ 以太网)设计复杂,带来带宽层级差异、协议转换开销和管理难题,阻碍了超大规模集群的效能发挥。
功耗过大:以 H100 为例,单卡 700 瓦的 GPU 集群,超三分之一的电量用于数据“搬家”而非计算。
正如 GPGPU 曾广泛用于矿机市场,而后由专用的矿卡芯片替代,站在在今天这个时点,大模型技术需求逐步清晰及收敛,Transformer 等主流架构也已经有明确的市场需求,也给了新的 AI 专用架构机会。
目前多数针对 AI 场景的专用架构(DSA,Domain Specific Architecture)多是在 2023 年大模型爆发前或 2024 年大模型技术收敛前设计的,对大模型的特定需求缺乏充分考虑,很多并没有摆脱 GPGPU SIMT 架构线程间抢占资源、多级共享 Cache、用计算单元处理通讯任务等设计,因此也有和 GPGPU 相似的问题:算力利用率低、依赖先进制程等,依靠后天的软件做算力优化,进而陷入烧钱复刻 CUDA、堆制程等怪圈。
2
下一代 AI 大模型算力芯片的关键要素
白皮书认为下一代 AI 计算架构应具备以下一系列关键特征:
基于 3D 堆叠创新的内存系统设计与超高带宽
一体化融合网络
原生数据流处理能力
先进的低精度计算支持
计算与通信的深度协同与优化
高度灵活的模型映射与可重构性
3
SRDA:系统级数据流 +3D 堆叠内存 +I/O 融合 + 极简可重构
与类 GPGPU 架构“控制流”为核心的思想不同,SRDA 架构的设计哲学是将“数据流”置于核心,从数据 I/O 切入,实现从 AI 芯片到 AI 数据中心系统的整体优化。
数据中心系统级数据流:让计算跟着数据跑
AI 计算,尤其是深度神经网络的训练与推理,本质是大规模、并行化的数据在计算节点间依照特定计算图(Computational Graph)进行流动和转换的过程。传统"控制流"架构(Control-Flow Architecture)下,指令的顺序执行和复杂的内存层级访问常常成为性能瓶颈,导致计算单元空转,以及不必要的数据搬运。
SRDA 架构则将“数据流”(Data-Flow)作为第一性原理,通过硬件设计直接映射 AI 计算图中的数据依赖关系。中间数据在经过优化的、可定制的计算路径上,于计算单元之间点到点直接传输,大幅减少了对内存的依赖和访问次数。这种设计理念从根本上减少了数据移动的距离和频率——当前计算系统中主要的性能和能耗瓶颈之一。

SRDA 还通过 I/O 融合等技术创新,将这种数据流思想不仅应用于芯片,还应用于节点乃至整个集群,实现了系统级的数据流计算范式。
内存架构革命:给每个计算单元配“独享车位”
为彻底攻克内存瓶颈,SRDA 修改整个内存架构,在计算芯片上直接分布式地集成超高带宽、大容量 3D-DRAM 内存,实现内存带宽的极致提升。

其核心思路的突破在于“计算单元内存私有化”:每个计算核心拥有专属的内存区域,数据访问在本地完成,彻底消除了共享总线和内存竞争导致的拥塞 。这与 GPGPU 架构依赖共享内存、多计算核心并发访问易产生拥塞的模式形成鲜明对比 。
颗粒层面,3D-DRAM 本身可实现远超 HBM 的超高带宽,相关技术上国内也一直领先于海外,是内存方面国产方案弯道超车的好思路,SRDA 架构能充分发挥 3D-DRAM 优势,“SRDA+3D-DRAM”或许有望替代“GPGPU+HBM”成为新的 AI 存算王炸组合。
融合互联网络:单层统一,简化集群复杂度
针对传统两层网络的痛点,SRDA 将节点内高速互联(Scale-up)和节点间通信网络(Scale-out)融合成统一的单层网络,显著简化网络拓扑,降低协议转换和管理开销,并能有效减少后端网络端口数量,从而降低部署成本和复杂度。
玉盘将其独有的 I/O 融合互联技术称为 QLink,大有直接超越 NVLink 的意味。

极简可重构:适度灵活,高效开发
可重构性:AI 模型仍在发展(Transformer, MoE, Mamba, DiT, ViT 等),SRDA 允许用户根据模型调整数据流路径、计算单元功能和内存模式,适应未来模型变化。
为 AI 而生 (AI-DSA):SRDA 可重构,但不追求绝对通用(会导致软件栈如 CUDA 般复杂),其剥离通用处理器冗余,聚焦 AI 核心运算,且底层基于开源 RISC-V 指令集,提供简化指令,并降低算子开发难度。
4
SRDA 为开发者带来的核心价值
SRDA 架构旨在为 AI Infra 和 LLM 开发者带来:
更高有效性能:通过基于 3D-DRAM 的分布式内存解决内存瓶颈,通过融合网络优化通信,通过数据流设计减少搬运,显著提升端到端算力利用率 。
更低成本:提升单卡 / 单节点效率,降低功耗,简化网络和软件栈,从而优化总体拥有成本(TCO)。
更高稳定性:融合网络设计及故障隔离能力也将提升大规模集群的稳定性。
灵活的模型与算法适应性:可重构特性使其能灵活支持不断演进的 AI 模型与算法。
更简单的开发与迁移:由于数据流架构与控制流不同,SRDA 舍弃通用性的同时,也不再需要类 CUDA 那样复杂的软件库。
与 DeepSeek 论文的以点带面不同,玉盘 SRDA 架构白皮书提出了相对完整的架构方案,特别是对 I/O 瓶颈的针对性设计,为 AI 算力芯片的发展路径提供了系统性的思路。
对身处 AI 浪潮之中的开发者而言,SRDA 所倡导的系统级数据流的理念和技术路径值得关注,近期我们确实也开始频繁看见“数据流”思想。或许在不久的将来,我们就会看到包括玉盘在内的更多 AI 芯片公司开始采用类 SRDA 架构。
发布于:浙江
相关推荐
倪光南的神预言成真!倪院士称开源将引发全球芯片变革,RISC-V 崛起或将打破ARM、X86几十年垄断
DeepSeek的545%利润率,是对算力的核弹吗?
DeepSeek算力需求暴降,为什么全球算力竞赛反而更疯狂了?
DeepSeek什么来头,何以震动全球AI圈?
DeepSeek技术深入千行百业,驱动算力产业加快发展
英伟达GTC上,“皮衣黄”也来蹭DeepSeek热度了
DeepSeek没能让算力焦虑消失,硅谷四巨头全在加钱买算力
DeepSeek推动AI平权,国产算力迎来价值重估
“DeepSeek R2+昇腾”王炸组合来袭!华为算力独家供应商,坐等起飞!
自动驾驶芯片的算力焦虑,「存算一体」能解决吗?
网址: 重磅!中国团队发布SRDA新计算架构,从根源解决AI算力成本问题,DeepSeek“神预言”成真? http://www.xishuta.com/newsview137134.html
推荐科技快讯

- 1问界商标转让释放信号:赛力斯 95584
- 2报告:抖音海外版下载量突破1 24510
- 3人类唯一的出路:变成人工智能 24043
- 4人类唯一的出路: 变成人工智 23412
- 5移动办公如何高效?谷歌研究了 23168
- 6滴滴出行被投诉价格操纵,网约 10906
- 72023年起,银行存取款迎来 10627
- 8五一来了,大数据杀熟又想来, 9641
- 9网传比亚迪一员工泄露华为机密 8913
- 10“涉黄”擦边新闻不断,上门按 8720