世界太小,不够世界模型们用了
世界模型,已经像这个世界一样混乱了。
OpenAI指着Sora生成的视频说,这就是“世界模拟器”;杨立昆(Yann LeCun)指着Sora,说它是像素幻觉,真正的世界模型应该是“预测未来的抽象大脑”;谷歌DeepMind称,Genie3就是一个“可交互的通用世界模型”;而李飞飞说,“空间智能”才是正解。
现实世界是唯一的、客观的,但AI圈里似乎人人都在制造属于自己的“世界模型”。
尽管定义南辕北辙,但这群吵得不可开交的大佬们,在一个基本判断上达成了共识:大语言模型早晚到头,世界模型才是通往AGI的必经之路。
大语言模型在GPT-3.5之后经历了参数的膨胀,而世界模型在技术路线收敛之前,就先经历了概念的通货膨胀。
世界模型是个筐,啥都往里装
“世界模型”的混乱,根源在于它是一种目的,指的是让AI具备理解外部世界规律,预测世界变化的能力,而非具体的技术路径。
最先混乱的就是概念。
关于世界模型的思想,最早可追溯至1943年认知科学家Kenneth Craik提出的“心智模型(Mental Model)”,即大脑通过构建外部世界的微缩模型来进行预测,换句话说,我们脑中有一个心智模型,不仅能处理当前看到的信息,还能预测“如果我这样做,世界会变成什么样子”。
虽然该理论在20世纪90年代就被引入强化学习了,但真正让它在现代AI领域拥有姓名的,是Jürgen Schmidhuber等人在2018年发表的奠基性论文《Recurrent World Models Facilitate Policy Evolution》。这篇论文首次系统定义了神经网络世界模型的框架,那时它还是一个由视觉组件(VAE)、记忆组件(RNN)和控制器构成的具体架构,在简陋的赛车游戏和二维类射击游戏里训练。
七年过去,随着大语言模型的爆发,对通用人工智能的渴望让这一概念在近两年像“线面”一样繁殖了。
Yann LeCun在2022年提出了以世界模型为核心的“自主智能”,强调通过模块化设计和自监督学习获取抽象表征,并在2023年、2024年先后推出了I-JEPA、V-JEPA预测模型。
李飞飞在2024年提出了“空间智能”理念,创办World Labs,又新发布了Marble,主张世界模型必须具备生成可交互3D环境的物理一致性能力,“对我来说,空间智能是创造、推理、互动、理解深刻的空间世界的能力,无论是二维、三维还是四维,包括动态和所有这些。”
甚至连OpenAI前首席科学家Ilya Sutskever提到的“压缩即智能”,本质上也是认为只要能无损地压缩预测下一个token(无论是文本还是像素),模型内部就构建了一个关于世界的映射。
一个抽象的概念,衍生出了更多抽象的概念。
若剥离这些定义上的争论,从技术方向来看,当前世界模型主要分为两大流派,分别对应了两种截然不同的世界观:表征派(Representation)与生成派(Generation)。
Yann LeCun就是“表征派”,这是一条不产生画面的极简主义路线。
类比人脑中的心智模型(Mental Model),我们对世界的预测和行动,往往是一种直觉,不是物理公式或者具体的画面。基于此,LeCun的世界模型是一个深藏在系统后端的“大脑”,它只在表征处理后的潜在空间里运作,预测的是“抽象状态”。

在这篇推文中,LeCun明确定义了一个世界模型需要同时输入四个变量,对先前世界状态的预估s(t),对当前的观察x(t),当前的动作a(t),一个潜在变量z(t),结合四个变量来预测下一时刻的世界状态s(t+1)。
这个定义有两个关键点,一是世界模型预测下一刻的“状态”而不是画面,二是能针对连续的动作交互进行因果推断。
比如一辆车开过来,它不会在脑海里画出车牌号和反光,只会计算出“障碍物靠近”这一状态。这种模型不为了给人看,只为了给机器做决策,它追求的是逻辑上的因果推演,而非视觉上的逼真。LeCun提出的I-JEPA(联合嵌入预测架构)和V-JEPA,都摒弃了生成式AI“预测每一个像素”的做法,毕竟现实世界充满了不可预测的噪音(比如树叶的纹理),AI不应该浪费算力去生成这些细节。
第二大流派则是目前声量最大的“生成派”,和Yann LeCun最核心的区别就在于,他们要重建、模拟视觉世界。
这一派常常引用一句来自物理学家Richard Feynman的名言:“What I cannot create, I do not understand. —— 我若无法创造,便不能理解。”也就是说,只要模型能生成对的世界,就证明它懂了世界的物理规律。
2024年初,OpenAI在介绍Sora时就提到,它是一个世界模拟器。OpenAI认为,只要数据量足够大,模型就能通过预测下一帧像素,涌现出对物理规律的理解。通过学习数十亿的视频片段,它记住了“人走路时腿会交替”、“玻璃杯掉落会破碎”的概率分布。
Sora作为世界模型的争议很大,最直接的一点就是它无法回应LeCun对于动作与世界状态的因果律——如果模型只能像放电影一样生成视频,而不能回答“如果我踢了这个球,它会怎么飞”这样的动作交互,那么它可能只是记住了“球飞行的轨迹概率”,而不是理解了“力学定律”。
那么,如果这个视频生成能够根据用户的动作输入,实时预测下一帧呢?
于是,生成派衍生出了更进一步的形态:互动式生成视频(Interactive Generative Video),例如Genie3。
和Sora不一样,IGV的区别在于实时性、可交互性,也就是有了动作(Action)。谷歌 DeepMind 发布的 Genie 3,将其明确定位为「通用目的世界模型」。它允许用户进入场景并与之互动,支持生成 720p 分辨率、24fps 帧率的实时画面。用户可以自由导航,比如以第一人称视角驾驶或探索复杂地形。这意味着模型不仅理解画面,还理解了动作与环境变化的因果关系,尽管目前这个动作仅限于方向按键的上下左右。

最后,则是李飞飞所主张的“3D空间智能(Spatial Intelligence)”,以World Labs发布的Marble为最新代表。
如果说前两者是在处理视频流,那么Marble则是试图从底层构建一个持久的、可下载的3D环境。
这条路线的技术底座更接近于“3D高斯泼溅(3D Gaussian Splatting)”。它不依赖传统的网格建模,而是将世界表征为成千上万个漂浮在空间中的彩色模糊小斑点(高斯体)。通过这些微粒的聚合,模型能渲染出精美的三维画面,并允许用户通过提示词生成、利用内置编辑器自由改造,支持一键导出到Unity等引擎中。
尽管Marble现在离李飞飞所提到的空间智能还很远,但可以看出她认为达到空间智能的第一步,先要建立一个高精度的物理准确的3D空间。我们可以总结一下,区别于Sora,Marble生成的是一个符合物理规律的3D世界,区别于Genie3,Marble不是实时生成的世界,但它的精度和还原度更高。

但这些路线的成果,都没有达到各自所期待的世界模型的模样,甚至彼此间吵得不可开交,也都有一批拥护者,而这也导致“世界模型”的概念外延被无限扩大。
如今,凡是涉及环境理解与模拟的上下游工程,不管是具身智能、自动驾驶、游戏视频等结构化的垂直领域,还是生成式视频、多模态模型、视频理解、3D模型等技术,甚至做视觉信息压缩的DeepSeek OCR,全都主动或者被动地和世界模型挂上了钩。
世界模型越来越像一个筐,啥都能往里装了。
有泡沫也有野心,世界模型是一种“反LLM中心”叙事
如果仅仅是技术路线的不同,不足以解释为何“世界模型”会在今年会井喷。热潮背后,交织着资本的焦虑、技术的瓶颈以及对AGI的渴望。
我们必须先承认,这里面有巨大的泡沫成分。
在创投圈,叙事往往比代码更值钱。当“大语言模型”的竞争格局已定,OpenAI、Google等瓜分了基础模型的天下,后来者和垂直应用开发者急需一个新故事来打动投资人。
“视频生成模型”听起来就是一个工具软件,天花板有限;但一旦改名叫“世界模型”,瞬间就上升到了AGI的高度。
这也是当下AI时代一个有趣的现象:科研人员大规模下场创办公司,学术与商业发生了重叠。
在纯粹的科研世界里,所有的创新都必须建立在严谨的公理之上。如果你要解决一个问题(如实现AGI),你首先必须精准地定义这个问题。然而,当 Lab 变成了 Company,学术大佬们变成了CEO,这种原本局限在期刊里的“定义之争”,就被抛到了商业世界。
在科研中,不同路线可以共存;但在创业公司中,资源是有限的,如果 A 定义是对的,B 公司的几十亿投入可能就打了水漂,一个定义的差异,对应的却是数以亿计的算力投入方向,上下游产业链的备货,投资人的价值重构。
而当我们抛开定义争夺和炒作,世界模型的兴起,也像是一场“反LLM中心主义”的运动。
整个AI行业对大语言模型(LLM)产生了一种集体性的技术焦虑。这种焦虑源于LLM的先天缺陷:它是“离身”(Disembodied)的。LLM是在纯文本的符号系统中训练出来的,它知道“苹果”这个词和“红色”、“甜”经常一起出现,但它从未真正“看见”过苹果,也无法理解苹果掉在地上的重力加速度,更别提随着数据规模的扩大,AI提升的边际效益正在递减。
无论是Ilya Sutskever在离职OpenAI后强调的“超越大模型”,还是李飞飞提出的“空间智能”,核心都在于一点:AI需要从学习“人类说的话”,转向学习“世界发生的事”。行业正在从单纯的文本处理,转向对物理现实的模拟与交互,因为大家都意识到,通往AGI的最后一块拼图,不在互联网的文本数据里,而在真实的物理世界中。
只是希望在世界模型真正出现之前,这个词不要先被玩坏了。
相关推荐
为什么Sora不是世界模型?
“世界模型”能改变世界吗?
停滞的原子世界和狂奔的比特世界
英伟达开源物理引擎Newton可用了!发推理模型、世界模型,全力加速机器人研发
世界模型,是否正在逼近自己的「ChatGPT时刻」?
为什么Sora不能成为世界模型?
为什么在2025年,大厂必须下注世界模型?
李飞飞世界模型大更新, 实时生成3D 世界,只要一块GPU
李飞飞的世界模型,大厂在反向操作?
李飞飞和LeCun的世界模型之争
网址: 世界太小,不够世界模型们用了 http://www.xishuta.com/newsview144932.html
推荐科技快讯
- 1问界商标转让释放信号:赛力斯 95792
- 2报告:抖音海外版下载量突破1 25736
- 3人类唯一的出路:变成人工智能 25175
- 4人类唯一的出路: 变成人工智 24611
- 5移动办公如何高效?谷歌研究了 24309
- 6华为 nova14深度评测: 13155
- 7滴滴出行被投诉价格操纵,网约 11888
- 82023年起,银行存取款迎来 10774
- 9五一来了,大数据杀熟又想来, 9794
- 10手机中存在一个监听开关,你关 9519
