首页科技快讯重磅！中国团队发布SRDA新计算架构，从根源解决AI算力成本问题，DeepSeek“神预言”成真？

重磅！中国团队发布SRDA新计算架构，从根源解决AI算力成本问题，DeepSeek“神预言”成真？

来源：晰数塔互联网快讯时间：2025年06月09日 17:47

作者 | 玉盘 AI 团队

审核 | 华卫

“大模型每生成 1 美元价值，需支付 3 美元算力成本”，算力成本挑战已无争议。从软件层面的各类优化方案层出不穷，真正从硬件源头着手的方案却屈指可数，市面上能看到的包括 Groq 在内的新计算硬件也多数在大模型爆发前定型，难以充分匹配大模型本身的需求。

今天，国内团队玉盘 AI 发布《SRDA AI 大模型专用计算架构》白皮书，提出了一种全新的计算架构：系统级精简可重构数据流架构 SRDA （System-level Simplified Reconfigurable Dataflow Architecture），从硬件源头解决当前 AI 算力的核心瓶颈。

与此同时，DeepSeek 于半个月前发表论文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》，从用户视角梳理了当前大模型训练与推理中所面临的 AI 硬件瓶颈，以及对未来 AI 硬件的构想建议。

DeepSeek 从用户角度的不少构想与玉盘 SRDA 在做的事不谋而合，包括 IO 融合、3D 堆叠 DRAM 等，而玉盘进一步提出了更完整的架构设计，或正式拉开下一代大模型专用计算架构的序幕。

软硬两头的交汇或暗示业界已逐渐形成共识，即当前算力已不再是瓶颈，瓶颈在于绝大多数算力浪费在了数据搬运及读写上（互联和内存等 I/O 问题）。SRDA 相关思路是否将在不久的未来颠覆 GPGPU 目前在 AI 场景的垄断地位？

当前类 GPGPU 计算架构的困境

硬件架构层面的创新比较少见，人们通常认为国产算力的问题在于制程或封装技术，这种理解源于默认 GPGPU 架构是 AI 大模型的最优架构（GPGPU 架构强依赖先进制程及先进封装）。白皮书认为，GPGPU 是非常优秀的计算架构，但为保证通用性，不会完全针对大模型训练及推理的诸多需求，就像用瑞士军刀切牛排——不是刀不快，而是工具缺乏针对性。

在深入 SRDA 架构细节前，白皮书回顾了目前开发者们普遍面临的难题：

内存与互联带宽不足：H100 每秒可计算 1000 万亿次，但其共享内存架构 + 低内存带宽仅够“喂饱”不足一半的硬件算力，如同几台车抢一个车位。

算力利用率不足：受限于类 GPGPU 架构本身的通信开销及内存瓶颈，芯片的理论算力在实际 AI 负载中往往大打折扣。

网络复杂，大规模集群扩展瓶颈：传统多层网络（节点内高速互联如 NVLink，节点间网络如 InfiniBand/ 以太网）设计复杂，带来带宽层级差异、协议转换开销和管理难题，阻碍了超大规模集群的效能发挥。

功耗过大：以 H100 为例，单卡 700 瓦的 GPU 集群，超三分之一的电量用于数据“搬家”而非计算。

正如 GPGPU 曾广泛用于矿机市场，而后由专用的矿卡芯片替代，站在在今天这个时点，大模型技术需求逐步清晰及收敛，Transformer 等主流架构也已经有明确的市场需求，也给了新的 AI 专用架构机会。

目前多数针对 AI 场景的专用架构（DSA，Domain Specific Architecture）多是在 2023 年大模型爆发前或 2024 年大模型技术收敛前设计的，对大模型的特定需求缺乏充分考虑，很多并没有摆脱 GPGPU SIMT 架构线程间抢占资源、多级共享 Cache、用计算单元处理通讯任务等设计，因此也有和 GPGPU 相似的问题：算力利用率低、依赖先进制程等，依靠后天的软件做算力优化，进而陷入烧钱复刻 CUDA、堆制程等怪圈。

下一代 AI 大模型算力芯片的关键要素

白皮书认为下一代 AI 计算架构应具备以下一系列关键特征：

基于 3D 堆叠创新的内存系统设计与超高带宽

一体化融合网络

原生数据流处理能力

先进的低精度计算支持

计算与通信的深度协同与优化

高度灵活的模型映射与可重构性

SRDA：系统级数据流 +3D 堆叠内存 +I/O 融合 + 极简可重构

与类 GPGPU 架构“控制流”为核心的思想不同，SRDA 架构的设计哲学是将“数据流”置于核心，从数据 I/O 切入，实现从 AI 芯片到 AI 数据中心系统的整体优化。

数据中心系统级数据流：让计算跟着数据跑

AI 计算，尤其是深度神经网络的训练与推理，本质是大规模、并行化的数据在计算节点间依照特定计算图（Computational Graph）进行流动和转换的过程。传统"控制流"架构（Control-Flow Architecture）下，指令的顺序执行和复杂的内存层级访问常常成为性能瓶颈，导致计算单元空转，以及不必要的数据搬运。

SRDA 架构则将“数据流”（Data-Flow）作为第一性原理，通过硬件设计直接映射 AI 计算图中的数据依赖关系。中间数据在经过优化的、可定制的计算路径上，于计算单元之间点到点直接传输，大幅减少了对内存的依赖和访问次数。这种设计理念从根本上减少了数据移动的距离和频率——当前计算系统中主要的性能和能耗瓶颈之一。