对话阶跃姜大昕:首次开源基座模型,回顾创业两年半
“现在多模的理解和生成还是分开的,但未来一定会走向统一。”
文丨王与桐
编辑丨程曼祺
半年沉寂后,国产大模型之战重归火热。
现在打开 Hugging Face,大模型榜单前十全部由中国模型占据。月之暗面、阿里通义、阶跃星辰、智谱在一个月内接连开源最新基座模型 K2、Qwen3、Step 3 和 GLM-4.5。
其中,刚刚在 7 月 31 日正式上线的 Step 3 是阶跃首次开源的主力基座模型。这是一个采用混合专家(MoE)架构、总参数量 3210 亿、激活参数量 380 亿的多模态推理基座模型。
自创立起,阶跃星辰就选择了 “路径更重” 的打法——重押多模态,多线并进:迄今,阶跃已发布 26 个模型,在中国大模型创业公司中数量最多,其中 20 个模型与多模态的理解、生成或推理相关。
有人质疑多线作战分散资源与精力,姜大昕却认为必须如此,因为他和阶跃相信多模态生成与理解的统一,才能走向 AGI—— AGI 不仅能描述语言,还要能模拟、推演物理世界中的动作与变化。
“如果你只想让它通过图灵测试,那语言足够了;但如果你认为它要与人的智能相提并论,那就一定要有视觉、感知、空间理解。”
已经做到微软全球副总裁,再开始创业,对姜大昕而言也是 “必须” 的选择。他不是那种 “命定的创业者”,创业本身不是目的和他的渴求,AGI 才是。
2023 年初,博士毕业后,一直在微软工作 16 年的姜大昕曾递交一份 10 页的技术文档,试图说服微软自研大模型,但公司选择了扶持 OpenAI。如果留下,他认为自己将与 AGI 绝缘。
首次开源基座模型的同时,阶跃近期联合华为昇腾、沐曦、壁仞科技、燧原科技、天数智芯、无问芯穹、寒武纪、摩尔线程、硅基流动等近十家芯片及基础设施厂商成立模芯生态创新联盟。在当前国产 GPU 实际推理体验普遍不及纸面指标的背景下,Step 3 在国产卡上有较高质量的适配表现。
在 Step 3 发布前,我们对话了姜大昕,他谈论了多模态统一的技术难度、视觉理解与生成的融合路径、自回归与 diffusion 的结合趋势。
“真正的聪明人会尊重彼此,而不是 PK 谁更厉害”
晚点:您 2023 年创立阶跃之前的 16 年一直在微软工作,从一个看起来很稳定的长期状态到创业,这个跳跃怎么发生的?
姜大昕:我以前就常被问,常识和推理什么时候能实现?我原本的回答是 20 年后,但大模型让这一切提前了 20 年。
2023 年初,我给微软管理层写过一份 10 页的文档,想自研大模型,但当时公司的选择是优先扶持 OpenAI。如果我还留在微软,就只能看着 AGI 跟我无关了。
晚点:创业是您自己的想法,还是来自周围朋友的建议?
姜大昕:是我自己的想法。2022 年底我第一次用上 GPT-4,整个人被震到了。我问它 “你多大”,它告诉我今天是几月几号,我的训练是哪天完成的,所以我现在多大。它不仅理解 “多大” 的意思,还能推理、能计算。
过去的 AI,不是答错就是设定死,比如永远说 “16 岁”。但这次我真感觉它 “懂” 了。我又问 “Can I walk in the cloud?” 它说不行,还解释因为云是水蒸气。然后又能识别出 “云中漫步” 是比喻,这句话还不是抄的,是它自己生成的。那一刻我觉得,它不是个搜索引擎,是另一种智能。
晚点:阶跃是怎么吸引来朱亦博、张祥雨这种技术大牛的?
姜大昕:决定创业之后,我们就要找人,微软的老同事就建议我跟张祥雨、朱亦博聊聊,看他们是不是有兴趣。之前我和张祥雨交集不是很多,但我们都在微软亚研院工作过,听说过彼此。我们创业第一天就知道系统很重要,所以就想找朱亦博。我觉得朱亦博肯定不是被我折服,他应该是被张祥雨折服了。
晚点:阶跃的核心技术研发团队相对稳定,怎么做到的?
姜大昕:算法、数据、系统是人工智能的三要素,我们这三方面都有最顶尖的人:朱亦博管系统,张祥雨管算法,数据是我在微软做搜索时的同事焦斌星。三方都要顶尖,才能互相吸引,才能留得住。好的技术人才,也能吸引更多一线的人才。
晚点:这么多聪明人在一起,对管理来说也是不小的挑战。
姜大昕:我觉得核心是考验 CEO 的人才审美。一般聪明人 ego 都不小,但真正聪明的人,遇到同样聪明的人会很尊重彼此。比如祥雨说的话,斌星和亦博都会认真听,反过来也一样。大家更像是互补长处、劲往一处使,而不是互相 PK 谁更厉害。
“AGI 一定要有多模态”
晚点:你们有一个外号是 “多模态卷王”,几乎每个月都发布模型。你们是怎么保持这样的节奏的?Step 3 你们准备了多久?
姜大昕:Step 3 我们准备了将近半年的时间,做了很多系统层面优化。阶跃多模态的布局非常完整,有图像、视频、音乐、语音等多条线,每条战线都是经过几个月或者半年的积累才产生新的迭代。如果同时看所有模态,会觉得我们发布的节奏很快,每一两个月就有新成果出来。
晚点:过去,行业里有一部分从业者认为,相对多模态,在语言上投入更多精力、算力和资源,对智能的提升更快。但你们从 2024 年初第一次亮相开始,就在讲 “多模生成和理解的统一”,这背后是什么思考?
姜大昕:区别在于大家对 AGI 的理解。如果认为 AGI 就是图灵测试,那确实不用多模态。GPT-4.5 号称通过了图灵测试,完全用符号语言定义人的智能。
如果认为 AGI 是来类比人的智能,那一定要有多模态,因为人的智能除了语言以外,应该是多维度的,还有应用智能、空间智能、视觉智能,这些单单通过语言是学不出来的。
同时,绝大多数应用都希望模型能看、能听、能说,能很自然地和人类交互,能理解人所处的环境,这都会用到多模态能力。
晚点:阶跃迄今发了 26 款模型,其中 20 款跟多模态相关,每个模态里,又常常分成生成、理解不同的模型。作为资源有限的创业公司,同时做这么多模型是个好选择吗?
姜大昕:如果要做到理解生成一体化,那就得这些都做。
文本不存在生成和理解分开的问题,文本天生就是理解、生成一体化的模型:你给一篇文章,让一个模型去做阅读理解,这是一个典型的理解问题,它用的是 GPT 模型;你给它一个题目,让它去生成一篇文章,这是一个生成问题,用的还是 GPT 的能力。
但是在视觉中,大家还没有找到一个办法能够一体化,很难说理解和生成谁比谁更重要。在我看来,多模的路径会和语言一样,先去做一体化,之后做大规模的预训练,再做推理。
视觉新趋势是 GPT-4o,能生成吉卜力风格的图片,很好玩,并且 GPT-4o 能够做连续、多轮的编辑。虽然 OpenAI 没说是怎么做的,但我觉得是在理解生成一体化上迈进了一大步,否则做不出这个效果。
晚点:同时做多个模型,那资源、精力具体怎么分配?
姜大昕:这对于创业公司的资源要求确实高,所以能做出这件事的公司一定不多。
我们的做法是,某段时间可能觉得某个方向比较有希望,就多放点资源,稍微冲一冲;冲到一定程度了,就看下一个。一段时间内,有领跑和陪跑。
晚点:在视觉上,实现一体化的技术路线有哪些?OpenAI 透露,GPT-4o 的文生图能力用到了自回归的方法。
姜大昕:理解生成一体化,目前有两派做法,一派是强行离散,另一派分布模拟。
强行离散,最直接的做法就是仿照语言,强行把高维的东西映射成离散的 token,完全照语言这条路走下去。语言是一个相对来说还比较低维的离散空间,一万多或者几万的维度;而视觉是高维的连续空间,非要用一个低维的离散空间(表达),那一定会有信息损失。所以目前看到的所有离散化的效果,都没有那么好。
先不说视频,先说图片,图片是 1024×1024,比语言的维度要高很多,并且是连续的。如果我们再考虑视频,更是复杂。
所以语言用自回归就可以实现了,视觉做不到,视觉的分布太复杂。
第二种基本上就是用 diffusion 这种方法。而且一般一次分布太复杂,没有办法用简单的一次分布去模拟它,所以大家一般用连续多次,只不过采样的方法越来越高级。因为 diffusion 很难去照顾到前面很长的 context,它不是一步一步来的,而是 “啪” 一下全部出去。
现在大家又回过头来讨论,这两种做法能否结合?能不能把自回归和 diffusion 结合起来?这种思路近几个月很热。
晚点:生成、理解一体化的好处是什么?
姜大昕:生成控制理解,理解监督生成。
比如,一个视频里老师在黑板写字,Sora 可以模拟手是怎么动的,粉笔和黑板是怎样接触的,但是老师写了一半停下来了,后面会写什么?这个部分是要理解去控制的。
反过来,我怎么知道模型是否真的理解了。Feynman 说,“What I cannot create,I do not understand”。即除非我能生成、我能创作,否则我很难说我是真正理解。
晚点:这和语言模型的逻辑其实是一致的。
姜大昕:对,语言模型就是这样的。语言模型不停的做 predict next token,使其能够很好地理解,所以 GPT 的理解能力比 Bert(谷歌 2018 年提出的预训练语言模型) 上升了不止一个数量级。我们一直在寻找视觉领域怎么能 predict next frame。
视频的 “frame” 是指图片。如果是一张图,就是 predict next patch,一组像素,但是图片没有太多的 context,所以很难产生像语言那样长序列的压缩效果,这也是为什么大家做很多很多图片的预训练,发现它并没有很多智能。
如果真的有本事 predict next frame 做出来一小时的视频,那很多物理规律会在 predict 过程中建模的。
晚点:从多模理解的生成统一到走向世界模型,会经历哪些阶段?
姜大昕:AGI 最终是世界模型。
模型能够完全复刻一个世界所需要的步骤,理解、预测、执行分步。
先是模拟,predict next frame,再到探索,把动作加进去,能够预测接下来的状态,以及随之而来的奖励是什么。它不是一个具体的数,它是一个分布。这就是对世界模型最朴素的一个描述。
人实际上就是不停地在做预测,那世界模型也要能预测。我的手去动一个杯子之前,大脑就能模拟出推一下杯子之后可能会水洒了、杯子掉地上,然后我弯腰捡起来,这就是动作导致的 predict next state。
晚点:这个和大家讲的 VLA (Vision-Language-Action)模型的关系会是什么?
姜大昕:现在大家理解的 VLA,是做到了 predict action。但实际上我认为 VLA 应该是给了视觉之后,有 action 的分布,每一个 action 它会产生什么 state,产生什么 reward ——这才能叫 VLA。
晚点:目前视觉模型还没做到一体化,你怎么看这种 “先分开、再融合” 的过程?
姜大昕:现在视觉不是堵在这个点上不能往后走了。理解和生成分开,分别在往前走,但就是还没合起来。
这两件事情分开走也没问题,到某一个节点,也许就水到渠成了。现在就缺一层窗户纸,看谁能真正找到一个办法,把它合起来。
我之前也说过,Sora 出来时我们有些失望,因为 4V 是理解方向的,下一步应该是理解生成一体化,但是 OpenAI 出了一个生成模型。
这对我们来说有两点启发:一,这件事情非常难,他们也没做出来;二,他们现在开始看两者之间能不能互相增强。比如怎么找到 Sora 的训练数据?可能是拿 4V 去打标的。Sora 生成的数据,能不能再帮 4V 去做理解?我觉得 OpenAI 内部可能也做了这样的事情。生成和理解相辅相成,可以认为像太极一样在转。
晚点:多模理解生成统一,你觉得你们 2025 年会实现吗?
姜大昕:我是期待有一个大的 jump 出来,能让大家觉得这件事情简单。现在大家看到了一点光,以前不敢做,现在 GPT-4o 说可以做。
有时就是这样的,你不知道什么时候会突然出一个什么东西。目前我们看到的三个大的 jump,ChatGPT 算一个,Sora 算一个,o1 算一个,下一个我希望是理解生成一体化。
“将来也许所有的终端都可以变成一个 Agent”
晚点:今年冒泡鸭做了调整,跃问也更名为阶跃 AI。为什么会这么调整?
姜大昕:早期我们基于当时的模型能力进行了一些产品探索。2025 年,随着多模态和推理能力的成熟,我们产品进行收敛,聚焦 Agent 方向。“跃问” 改名为 “阶跃 AI”,意味着它从 Chat 类的产品到 Agent 能力的转变。
晚点:你们今年重点是和手机、汽车结合智能终端 Agent ,以及满足行业需求的垂类 Agent,为什么会选这两个方向?
姜大昕:这背后的逻辑是,硬件很重要。第一,很多终端是用户感知和体验的延伸。比如说我们的手机,最近的一些 AI 眼镜或者是耳机,它可以认为是人体器官的延伸,它可以搜集我们所处的环境,能够帮助模型更好地理解用户的上下文。比如 PLAUD 就是人耳的延伸,用户带着它到处跑,它能随时随地收集我们的 context,然后对信息加工,完成用户让它完成的任务,这是非常自然的过程。
第二,很多的智能终端设备,能帮你完成任务。比如说你过去没法通过自然语言操作一个有很多功能的微波炉,但如果它接入多模态模型,就变成一个 Agent,你可以跟它说 “我要蒸个鸡蛋”,它就会自动去做。
晚点:这种和硬件结合的 Agent,和大家今年讨论的主要在 Web 端、移动端帮你做白领工作,比如 PPT、写报告的 Agent 产品形态不太一样?
姜大昕:什么是 Agent?大家也没有形成统一的定义,我也看到过有非常冗长的对于 Agent 的定义,方方面面滴水不漏。我自己喜欢简单的描述,即 “它能够自主地帮人类完成复杂的任务”。
咬文嚼字一下,什么是 “自主”?一个自动,一个主动。
“自动” 是能独立完成多步任务,尽可能少的或者不需要人类去干预;“主动” 是能够理解用户的环境、理解用户的上下文,从而主动地发起任务。比如开会时,老板突然说了一点事先没有准备的话题,Agent 可以默默地把所有的相关材料准备好,并且 summarize。
如果类比到人,可能我们对 Agent 更高级的期许就是 Agent 应该眼里有活。
晚点:Agent 概念 2023 年之前就有了,为什么在 2024 年底至今的阶段越来越受到关注?
姜大昕:要做到 “自动”,就要有相对比较长的链条,支撑自动完成且不出错,需要比较强的推理能力。所以模型推理能力要达到一定的门槛,才能做这件事情。
“主动” 是理解用户的环境、理解上下文,就少不了多模态。
那 Agent 为什么会在今年火爆?2024 年下半年 GPT-4 出来,多模态融合有相对比较大的进步;从 9 月份开始,OpenAI o1-Preview 出来,一直到 DeepSeek R1 出来,模型推理能力得到了非常大的提高。两个进展出现之后,Agent 完成度和用户满意度会达到一个新的点。这是为什么大家突然觉得 Agent 可做。
晚点:回到你们对 Agent 的设想,手机、汽车、机器人,未来所有终端都会需要 AI Agent 的能力吗?它们共享同一个 Agent 吗?这是一个怎样的未来?
姜大昕:Agentize every hardware,这是我自己造的词,就是把没有生命的、不知道怎么跟人类交流的终端设备变成一个 Agent,变成你的伙伴。硬件本身是很长尾的,除了手机,很多家电、可穿戴设备,这些都可以变成 Agent。
我的另一个判断是,未来还有做生态的机会,需要有一个跨设备的平台让人操控各类硬件。
垂类 Agent 我们是生态打法,选择和头部合作伙伴深度合作。比如金融领域,我们和界面财联社成立财跃星辰,专门来做金融领域相关布局。
晚点:你们智能终端的 Agent,更多是 2B2C(服务对接消费者的企业)模式,已经跟 OPPO、TCL、智元机器人、吉利汽车等方面合作,可以讲讲这么做的逻辑吗?
姜大昕:我们希望跟合作伙伴一起打造产品级的收入。车和手机,是现在出货量比较大的终端,IoT 和具身是未来可能出货量比较大的终端。我们希望和终端合作,做个性化的 AI 助手。
晚点:跟硬件厂商合作,你们现在的商业模式是什么?收取一次性的开发、部署费用,还是按销量获得 license(专利授权) 费用?还是按模型调用量收费?
姜大昕:我们当前和终端的合作模式比较紧密,有多样的收费方式,并且是可持续的。
现在还是生态演变的早期,未来整个产品平台会有非常多演变的机会。license 未来也会探索,甚至有可能用户订阅了以后我们分润。商业模式还有待探讨,我们也会根据发展情况随时调整。
晚点:手机上有很多 App,如果都被 Agent 化了,AI Agent 变成流量入口了,手机厂商乐意吗?
姜大昕:我目前没有答案。手机厂商、模型厂商、APP 之间生态到底怎么合作?它们的互动方式是什么样的?我觉得还是需要一些时间来探索的。
晚点:手机厂商可能会怎么想这个问题?
姜大昕:一方面手机厂商很兴奋,觉得这是改变生态的机会;但另一方面他们也很克制,因为需要考虑改变带来的影响。中间有个博弈的过程。
“我们 I 人天然就喜欢在二楼 watch over the balcony”
晚点:你的一天一般会怎么度过?
姜大昕:我一般来公司比较早,8 点到 10 点半基本没人打扰我,我会自己静下心来看一些需要 deep think 的东西。比如论文,因为我发觉论文不看,会影响自己的判断。也会看一些公众号,包括《晚点》。
等大家都来公司了,我会跟他们开会,问问进展。
晚点:你会用 AI 来帮你看论文吗?
姜大昕:会,可以随时随地问。我自己也会写一点小的 AI 工具玩一玩,比如帮我把播客扒下来转文字,因为我看的速度比听的速度快很多。
我以前更多是 from books 和 paper,创业之后,现在我越来越多 from others,因为我发现时间很少,很多事也不用那么 deep:光我一个人 deep 也没用;我再 deep 也 deep 不过张祥雨和朱亦博,甚至是很多一线的同学。
但我要知道得比较宽,所以我就把他们一个个喊来,给我各种各样的 input。如果当下我没搞懂,我可能第二天早晨花点时间 deep 一下。
晚点:你在微软时也带 400 多人团队,和你现在创业带团队的区别是什么?
姜大昕:大部分挺像的。跟原来不一样的是要做很多抉择。教员说过:“一把手只干三件事,定方向、搭班子、带队伍。” 以前搭班子和带队伍经常做,但不需要我太多做决策,CEO 就是每天都要做决策。
晚点:做决策意味着什么?有人说工作可以是有限责任,但是创业一开始就是无限责任。
姜大昕:我理解的做决策就是你要做什么,不做什么,尤其是你不做什么。因为太多东西你想做,你也说我们做得很多,其实那已经是我们决定了很多不做的。
晚点:有哪些是你在创业之初没有想到,后来发现还挺难的事?
姜大昕:现在做 CEO,需要去宣传。这是我原先不太想做,现在也不太想做的,并且我觉得我做得不是特别好。
我读 Ph.D 时,我老板跟我讲,你怎样才能毕业?就是你要学会 presentation,这包括两个,一个是你要能写 paper,第二个是你要能做 talk。
技术 talk 相对比较好讲,它有一个套路。你第一件事情要说为什么这件事情很重要,别人才有兴趣往下听;第二件事去说这件事情很难,还要讲一个小故事,我一开始是怎么做的,但后来发现不对,我的 insight 是什么;最后一件事,你要说不仅我自己好,还要带动大家一起好,所以你一定要听我的 talk。
我是一个 well-trained 的 Ph.D,但我发现 CEO 的 presentation 和 Ph.D 的 presentation 不一样。相同点是要讲一个故事;但是 Ph.D 讲的是技术的故事,CEO 要讲的是商业的故事,这是不一样的。
晚点:告诉大家为什么这件事很重要,倒是很像商业的 talk。
姜大昕:这两者之间有点是通的。但是我是 I 人,现在还在适应,怎么把商业 talk 讲得更好。
晚点:这可能是 I 人要成长的地方。那 I 人做 CEO 有什么优势?
姜大昕:I 人的优势是,会去 listen,会去 observe,我觉得这对一个 CEO 来说还是蛮重要的。当然也要去展示,但是在 output 之前要先有 input。
我在微软经过一次培训,一个观点我印象很深,他说一个管理者的角色是 watch over the balcony。在欧洲,很多人是要在一楼的舞池里跳舞,作为 CEO、管理层在下面跳,一定很风光,但你看不到舞池里谁跳得不对。你可以是全场跳得最好的人,但不要陶醉于此。
晚点:E 人更容易下场跳舞,I 人则能看到舞池里谁跳得不对。
姜大昕:我们 I 人天然就喜欢在二楼 watch over the balcony。
题图来源:阶跃星辰
相关推荐
对话阶跃星辰姜大昕:我们就是“多模态卷王”,这便是阶跃冲击AGI的方式
阶跃星辰姜大昕:智能终端Agent将开启AI新纪元
独家丨前微软 NLP 大牛姜大昕创立新公司「阶跃星辰」
两款开源模型曝光量突破千万,阶跃星辰将继续开源图生视频模型
微软全球合伙人姜大昕被曝大模型创业
阶跃星辰创始人、CEO姜大昕:期待AI新物种在千行百业加速涌现
大模型六小虎,创业小败局?
阶跃星辰的100天,大模型的“后发先至”
阶跃发布会划重点:全新基模推理效率可达DeepSeek 300%、芯片大佬站台、神秘资方签约
年收入破 10 亿?阶跃星辰的客户到底是谁
网址: 对话阶跃姜大昕:首次开源基座模型,回顾创业两年半 http://www.xishuta.com/newsview139970.html
推荐科技快讯

- 1问界商标转让释放信号:赛力斯 95792
- 2报告:抖音海外版下载量突破1 25736
- 3人类唯一的出路:变成人工智能 25175
- 4人类唯一的出路: 变成人工智 24611
- 5移动办公如何高效?谷歌研究了 24309
- 6华为 nova14深度评测: 13155
- 7滴滴出行被投诉价格操纵,网约 11888
- 82023年起,银行存取款迎来 10774
- 9五一来了,大数据杀熟又想来, 9794
- 10手机中存在一个监听开关,你关 9519