首页科技快讯李飞飞的世界模型，大厂在反向操作？

李飞飞的世界模型，大厂在反向操作？

来源：晰数塔互联网快讯时间：2025年06月06日 14:22

A16Z 两位合伙人 Martin Casado 和 Eric Torenberg 对李飞飞进行一次深度访谈。

网上搜索，会看到片段式的观点，整体比较跳跃，难以系统理解。因此，我吸收后，重新梳理脉络，试图汇报给关注空间智能、世界模型的朋友听听：

李飞飞到底在关注什么？她创办的新公司 World Labs，究竟想做什么？这是否预示着 AI 发展的一个新方向？

一

很多人不知道这家公司，2024年，著名人工智能专家、斯坦福大学教授李飞飞创办了初创公司 World Labs；这家公司正在探索一个极具前瞻性的方向：开发具备“空间智能”的下一代 AI 系统。

短短三个月内，World Labs 完成两轮融资，累计筹集资金约 2.3亿美元，估值迅速突破 10亿美元，成为 AI 领域最新的独角兽企业。

投资方阵容也非常的强大，包括 a16z、Radical Ventures、NEA、英伟达 NVentures、AMD Ventures 和 Intel Capital 等科技与风投界的重量级玩家。

这些投资机构，国内市场有些你可能没听过，不过，不重要；关键是：李飞飞首次在这场 A16Z 的访谈中，公开讲述了 World Labs 创立背后的理念构建、研究方向和她的宏大愿景。

那么，她到底说了什么？首先，她回答了一个很尖锐的问题：AI 是否正在从语言模型迈向世界建模？

李飞飞说，是的。

自己不是特别迷恋大语言模型。因为自己以前做过法律工作，那段经历让她意识到：光靠说话和写东西，很难真正理解这个世界。

但这并不意味着，语言模型不重要。

像 GPT、BERT 这些大模型取得的进步，反而让她更加确信：我们正在走向一个更高级的 AI 阶段：这个世界不再只是靠文字描述出来的，是可以被 AI 真正“看到”、“理解”和“重建”的三维空间。

她还引用了马丁（Martin Casado）一个观点：

人类之所以聪明，不只是因为我们会说话，更重要的是我们会“看”，会“动”，会“操作”这个三维世界。

谈到这里，她举例子说：

DNA 的结构（双螺旋），是典型的三维结构。如果你只靠文字去想象它长什么样，根本想不明白，只有当你真的把它“建出来”，才能理解它的美和复杂性。

还有碳分子，那个富勒烯，长得像个足球一样的结构，也得靠空间上的想象和建模才能搞清楚。

所以，语言模型虽然重要，但它是一个压缩过的信息版本；远远不能代表真实世界的全貌。真正的智能，要能理解和构建这个三维世界才行。

二

既然这样，我们不禁要问：世界模型为什么这么重要？

李飞飞说，很多人第一次听到这个词，觉得有点抽象、很高深。你可以把它理解成：AI 对现实世界的三维理解能力。

什么意思呢？

就像我们人一样，会说话、会思考，会看、会动、能感知这个世界的空间结构。

你看一张桌子，知道它是平的，知道上面有什么东西，还能绕过去、搬起来、放东西上去……这些动作背后，是大脑在构建一个对这个世界的“模型”。

而所谓“世界模型”，是 AI 在尝试做这件事：把视觉、空间感、动作等多个维度的信息结合起来，真正模拟出一个接近真实的世界。

她打了个特别形象的比方：

游戏里的场景生成。游戏设计师不会直接写一段话告诉你“这里有一座山、一条河、一座桥”，而会在游戏引擎里把这些元素真的“建出来”，让你可以走、可以跳、可以绕路。

AI 的世界模型，在试图做类似的事：要“理解”它的形状、位置、与其他物体的关系，甚至它的动态变化，并能预测和操作它。

接着她说了一个特别有意思的设想：

如果一个机器人只能看到二维画面，那它就像是在一个纸片世界里生活。它不知道前面的东西是近还是远，也不知道自己能不能穿过那扇门；只有当它有了三维的理解，才能真正开始在这个世界中自由行动。

所以，世界模型并不仅是技术概念，它是在回答一个更根本的问题：AI 怎样才能真正理解物理世界。

这也正是李飞飞强调的一点：

语言是高度压缩的信息，但它丢失了很多细节。要还原真实世界，必须要有空间建模的能力；换句话说，世界模型，才是 AI 实现“通用智能”的关键一步。

说到这儿，她还分享了一个亲身经历：

五年前，角膜受伤，好几个月失去了立体视觉。结果她发现，自己连开车都变得特别困难；明明知道自己车有多大、路边的车停得多近，但就是判断不了距离，不得不开得特别慢，生怕蹭到别人。

她说：那一刻才真正体会到，人类对世界的理解，是多么依赖空间感；这也让她更加确信，AI 如果没有这种空间理解能力，那就永远只能停留在“看得见”但“看不懂”的阶段。

二

理论终究要落到实处。问题是，构建一个世界模型，要哪些技术？

李飞飞说，要让 AI 真正理解、重构三维世界，是一个非常复杂的过程，目前来看，有几个关键的技术方向正在被重点探索。

首先，是从二维图像到三维重建的能力。

通俗点讲，你给 AI 几张照片，它能还原出一个立体的世界。比如，你从不同角度拍几张桌子的照片，AI 就能推断出这张桌子在空间里是怎么摆放的，甚至能“补全”你看不到的那一面。

这项技术叫 NeRF，全称是 Neural Radiance Fields，听起来有点学术，你可以把它想象成一个“会魔法的相机”；它就像你在拼图，给它几块碎片，它就能猜出整幅画面是什么样子的。

有了这个还不够。

NeRF 虽然重建得准，但它有个问题：计算量太大，运行起来很慢，不适合实时应用。于是，另一个技术就出现了，叫做高斯平面表示法。

什么是高斯平面表示法（Gaussian Splatting）？

简单讲：把空间中的每一个点看作是一个个小圆球，然后通过小球的位置和颜色，来快速描绘出整个场景的样子。

你可以想象一下，小时候玩的积木，每个积木都很小，但放在一起就能搭出一座房子。只不过这里的“积木”，是可以自由变形、移动的小光点。

这个方法的好处是速度快，渲染效率高，特别适合用来做实时交互，比如游戏、VR 或者机器人导航。

不过，这还不是全部。

还有一个特别火的技术，也在为世界模型提供支撑，那就是常听说的扩散模型（Diffusion Models）。

扩散模型最开始用于图像生成，比如你现在看到的很多 AI 绘画工具，背后都有它的影子；但它的能力不止于此。它也可以帮助 AI 更好地理解和生成三维空间内容。

举个例子：假如你有一张模糊不清的照片，扩散模型可以通过不断“去噪”的方式，逐步还原出清晰的画面。同样的道理，它也能帮 AI 把一些粗糙的空间数据变得更精细、更真实。

当然，除了模型本身的技术突破之外，还有一点也很重要：多视角的数据融合。

也就是说，AI 不应该只靠一张照片或者一个镜头看世界，而是要像人一样，能从多个角度观察同一个物体，再综合判断它的形状、位置和运动方式。

这就像，你站在房间的不同位置看一个杯子，每次看到的角度不一样，但你的大脑会自动把这些信息整合起来，形成一个完整的认知。

AI 也要做到这一点，才能真正理解它所处的环境。所以你看，技术是在一步步地让 AI 拥有类似人类的空间感知能力。

不过，这些都还是基础能力。

如果我们想让 AI 不仅看得见、建得出，还能预测这个世界的变化，那就还得引入另一个重要的方向：物理仿真与动态建模。

也就是说，不只是知道一个物体现在在哪里，还要能推测它接下来会怎么动，比如：风一吹树叶会摇摆，门被推开之后会弹回来，或者一个球滚下楼梯时会发生什么。

看似简单的常识，对 AI 来说都是巨大的挑战。

所以，构建一个世界模型，要多种方法协同工作，包括 NeRF、高斯表示法、扩散模型、多视角融合，以及物理建模等多个方向的共同推进。

听完后，我才明白，原来 AI 要理解这个世界，得像人一样，能从多个角度观察、拼接信息、推理关系、预测变化，这背后是一整套复杂的技术组合拳。

三

既然 AI 已经开始理解三维世界，那能力能落地吗？它现在已经使用了吗？

李飞飞说：是的。应用场景远比我们想象得多。

比如，游戏行业；很多游戏公司，不再靠程序员一行行写代码来建模场景了，直接让 AI 根据几张照片或者一段视频，自动生成一个逼真的三维世界。

再比如建筑行业。

以前设计师画一张效果图，可能要几天时间来建模渲染，现在借助世界模型的技术，AI 可以在几分钟内生成整个空间的立体结构，甚至还能模拟阳光从不同角度照进来时的效果。

还有机器人领域；如果一个机器人只有二维视觉，那就像是在一个纸片世界里生活，根本不知道前面的东西是近还是远，能不能穿过那扇门。

还有吗？当然。

数字孪生，也在为现实世界建立一个虚拟剧本；一座工厂、一栋大楼，甚至是一座城市，都可以通过 AI 建立出一个对应的数字世界，用来做预测、测试和优化。

比如：我们可以先在这个虚拟世界里模拟一场火灾疏散，看看哪里会出问题，然后再去现实中改进，而不是等到事情发生了才补救。

另外，她特别提到的方向是创意产业。

创造力本质上是视觉化的。很多艺术家、设计师、建筑师的灵感，是来自于他们对空间的理解和想象，而当 AI 也能拥有这种能力时，它就不仅仅是工具，而是创作者的伙伴。

所以你看，应用不只是停留在技术论文里，它们正在悄悄地改变很多行业的运作方式；李飞飞也提到，这就像是一场新的生产力革命：

过去我们靠语言描述世界，现在我们能让 AI 直接“看到”并“重建”这个世界。

四

看来世界模型应用前景比较广阔，那离真正的广泛应用还有多远？目前还面临哪些挑战？李飞飞说，方向是对的，目前还有不少难题没有解决。

关键有三点。第一是数据问题。

你要让 AI 理解三维世界，它得看到足够多的真实场景，还要有深度信息、空间结构、光照变化等等。

换句话说，AI 要“看懂”这个世界，前提是你得给它提供足够清晰、足够全面的“教材”。但现在这些数据要么很难获取，要么成本太高。

其二，算力还是个大问题。

现在的很多技术，比如 NeRF 或者高斯表示法，效果不错，但对计算资源的要求非常高；跑一个模型要花很长时间、要很贵的显卡。这在实验室里可以接受，但要大规模落地应用，显然不太现实。

还有一个挑战是泛化能力。什么意思呢？

现在大多数 AI 模型只能在特定环境下工作得很好，一旦换到陌生的场景中，就容易“看不懂”、“认错人”或者“走错路”。

就像你训练一只狗只认红色球，结果换了蓝色球，它就不认识了一样；AI 也一样，它需要更强的适应性，才能真正走进千家万户。

另外，光靠某个厉害的算法还不够，得把硬件、软件、数据、应用场景全都打通才行；这不是一个人、一家公司能完成的事，而是需要整个行业共同推动的一场变革。

所以，虽然世界模型的方向没错，前景也很诱人，但现在更像是刚起步的新手，离真正的成熟和广泛应用，还有一段不短的路要走。

既然世界模型还在路上，那凭什么你们（World Labs）能推动它往前走？

李飞飞说，要一个能融合多种能力的团队，而这也是她创办 World Labs 的初衷之一。

目前团队成员来自五湖四海，包括计算机视觉专家、图形学研究者、扩散模型开发者，还有做物理仿真和机器人控制的人才。

她还提到，AI 发展到现在，已经不是“单打独斗”就能突破的。过去是一个人写出一个算法就火了，现在要做世界模型这种系统工程，必须要有不同背景的人一起干。

她举了个例子：

团队里有一位叫 Manu 的研究人员，在 NeRF 和高斯表示法方面有很深的积累；另一位同事叫 Christophor，在扩散模型和生成式 AI 上也非常有经验。

他们不是在复制别人做过的事，是在探索一条全新的路，这条路没有现成的地图，只有靠大家边走边画。

也正是因为这样，她更加确信：未来的 AI 研究范式，正在从“单一学科”走向“多学科融合”，从“个体英雄”走向“集体智慧”。

五

有这样一个多元背景的团队，也意味着在看待 AI 的方式上，会有更多元的视角。

李飞飞作为一个科学家、创业者，同时也曾经从事过法律工作，她也谈到一些关于 AI 和人文之间的关系、AI 和教育之间的影响、以及它如何和法律、伦理这些社会系统一起演进的看法。

她说：在过去很长一段时间里，大家一提到 AI，就想到技术本身，类似于怎么训练模型、怎么提升准确率、怎么优化算法。

但其实，真正决定 AI 能走多远、走多稳的，不只是技术，还有它和社会之间的关系。

拿教育来说：很多学校教 AI 的方式，还停留在“教学生怎么写代码”、“怎么调参”的阶段。她认为，未来的 AI 教育，应该更注重培养学生的批判性思维和社会责任感。

因为 AI 不只是工具，它会影响人的决策、改变社会结构、甚至重塑就业形态。

因此，我们要培养的不只是会写模型的人，更是能思考这个模型该不该被训练、它的影响是什么的人；换句话说，AI 教育不能只教“怎么做”，还要教“为什么做”和“应不应该做”。

对于法律方面，她认为：AI 正在越来越多地参与到现实世界的判断中。比如：说招聘筛选、信用评估、甚至司法判决。那问题就来了：如果 AI 做出了错误的决定，谁来负责？

是开发者？使用者？还是 AI 本身？或许，我们必须提前为 AI 设计好规则边界，否则等到出问题了再补救，可能就来不及了。

最后，她还谈到一个特别有意思的点：很多人觉得 AI 是冷冰冰的数学和算法，她觉得，AI是人类价值观和技术能力的结合体；我们造出什么样的AI，反映的就是我们想成为什么样的社会。

所以，AI 发展到今天，它要哲学家、历史学家、社会学者、教育者、立法者的共同参与。

既然AI是整个社会系统的一场变革，那我们忍不住要问：李飞飞眼中的“空间智能”和“世界模型”，最终会走向哪里？对未来 AI 发展，又抱有什么样的愿景？

她说，内心有很多很多想法，早在做计算机视觉研究的时候就埋下了种子。

那时候就在想：

如果有一天，AI 真的能理解这个三维世界，它会怎么用这种能力？是仅仅用来玩游戏、建地图，还是可以做得更多？

她相信，未来AI 不只是“看得到”，还要“看得懂”；不只是“重建世界”，还要“参与世界”；不只是“执行任务”，还要“与人协作”。

换句话说：AI 终极目标，不是替代人类，而是成为人类在物理世界中的智能延伸。

她打了个比方：就像眼镜让我们看得更清楚，轮椅帮助我们移动得更远，而 AI 将成为我们理解和操作这个世界的新工具。

比如：

医疗领域，AI 可以帮助医生更准确地判断手术路径；在建筑行业，它可以协助设计师快速搭建虚拟模型。

教育中，它可以成为一个能“走进去”的知识空间，让学生真正“看到”分子结构、历史场景、甚至宇宙演化；这不是科幻，而是正在发生的技术演进。

关于 AGI，她也提到一个很关键的观点：

我们今天讨论的世界模型，是未来通用人工智能（AGI）的第一步；真正的 AGI，不只靠语言或文字来理解世界，而是要有空间感知、动态推理、交互能力和创造能力。

这些，才是世界模型所代表的方向。

所以，空间智能、世界模型，不仅是一场技术探索，更是一次关于人机关系、社会进步、以及未来生活方式的重新定义。

从语言到世界，从二维到三维，李飞飞所描绘一个 AI 更懂人、更贴近现实、更能与我们一起生活和工作的时代。

这一切，听起来宏观，实现起来难吗？

从上往下看，确实不容易。如果我们换个角度，从下往上看呢？在中国，像字节、腾讯、阿里、百度这些领先的企业，已经在尝试给自己的 AI ToC 产品加上一双眼睛。

当AI开了天眼之后，会不会倒逼空间智能的加速呢？换句话说，与其构建，不如先让AI先读懂世界，何尝不是一种选择？有意思的问题，我还在观察。

你怎么看？

资料参考：

[1]. a16z. (2025， June 4). How Fei-Fei Li is rebuilding AI for the real world ；YouTube：https://youtu.be/fQGu016AlVo?si=RRZe7RbVsjr3EPHF

本文来自微信公众号：王智远，作者：王智远

李飞飞的世界模型，大厂在反向操作？

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

饿了么口碑：今年计划招5000名员工、增80万骑手

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包

李飞飞的世界模型，大厂在反向操作？

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

饿了么口碑：今年计划招5000名员工、增80万骑手

盖茨力劝美国用核技术解决气候变化 愿掏数十亿腰包

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包