首页科技快讯马斯克预言30万亿美元的特斯拉机器人，怎么现在还是“手残”

马斯克预言30万亿美元的特斯拉机器人，怎么现在还是“手残”

来源：晰数塔互联网快讯时间：2025年07月30日 17:10

本文来自微信公众号：APPSO （ID：appsolution），作者：发现明日产品的，原文标题：《马斯克预言 30 万亿美元的特斯拉机器人，怎么现在还是「手残」》

特斯拉从来就不是一家车企，至少在马斯克心里不是。

他始终把特斯拉看作一家AI/机器人公司，而旗下人形机器人Optimus更是被视作继自动驾驶之后撬动下一个万亿美元市场的支点。在近期举办的「X Takeover」活动上，他也再次描绘了这项技术的远景：

「Optimus的潜在市场规模可能达到200亿甚至500亿台……假设每年生产10亿个，每个售价3万美元，年收入可能达到30万亿美元。」

这段话承载的愿景足够宏大，足以改变外界对特斯拉的市场估值，甚至重新定义「劳动力」本身，据《科创板日报》消息，目前美国工厂正在实测特斯拉第三代人形机器人，预计将在今年面向中国C端市场推出，将进入家庭等消费场景，如果不跳票，2026年起将正式量产，五年内计划实现年产100万台。

然而，话不能只听一半，擅长讲故事的马斯克确实屡屡兑现预言，但在人形机器人这条技术路径上，现实的复杂性远超想象。而这种复杂性，首先就以最残酷的方式体现在生产线上。

特斯拉人形机器人工厂里，那些被雪藏的「残次品」

在今年3月的全员大会上，马斯克意气风发地立下军令状：2025年内至少要生产5000台Optimus，2026年更要达到前者十倍的年产量。他甚至放话称，如果2030年月产量到不了10万台，他会感到非常「震惊」。

理想很丰满，现实很骨感。上周末，据外媒The Information援引两位知情人士消息称，目前特斯拉制造的机器人数量仅有数百台，离千台起步的目标尚有不小的差距。

在几天前的财报电话会议上，当有分析师询问Optimus在未来两三年是否会带来实际营收时，马斯克也罕见地打起了太极：「对预测五年后的情况至少有中等信心，但一两年之后，很难说。」不过，他仍坚持认为，到2030年，特斯拉每年将能够生产超过100万台人形机器人。

目标指向星辰大海，脚下却依然泥泞不堪。报道称，自从马斯克从政坛回归到自己的舒适区（商界）后，他明显加大了对Optimus的投入，但机械手的技术瓶颈却是横亘在人形机器人面前一座难以逾越的大山。

据知情人士称，目前特斯拉仍在持续打磨新版机械手，尚未进入量产阶段。部分基本完工的Optimus模型由于缺少手部或前臂部件，仍被闲置在内部设施中，无法投入使用。

上周，特斯拉全球首家超级充电站餐厅在美国洛杉矶开业，Optimus向现场顾客递送爆米花成了餐厅的热门打卡地点，马斯克随后发文表示，Optimus将在明年「转正」为送餐员，直接将爆米花送到用户车里。

马斯克自然是有野心，他不希望Optimus只是在工厂完成搬运、拧螺丝等重复性工作，还应该能够演奏钢琴等乐器，最终走入千家万户，而这一切都依赖于一双能够精细操作、反馈灵敏的「手」。

在帕洛阿尔托的工厂中，特斯拉大约同时测试了50台Optimus，这些机器人在人工监督下进行行走、拾取等基础操作。但即便如此，在公开演示中仍问题频出。

一位参与者回忆，为准备去年10月的Robotaxi发布活动，数百名员工曾在洛杉矶华纳兄弟影业园区连续调试数周，却还是上演了机器人打翻饮料的名场面，这让现场多位高管深感沮丧。

技术瓶颈之外，特斯拉机器人团队的稳定性也波动不断。上个月，在特斯拉任职九年的Optimus工程主管米兰·科瓦奇宣布离职，并特地发布声明强调对马斯克和团队的支持「坚定不移」。但这番此地无银三百两的表态，反而加深了外界对项目内部状态的猜测。

有趣的是，马斯克在Optimus项目初期曾向团队坦言，推动人形机器人开发的部分初衷就是为了留住人才，在他看来，当自动驾驶技术趋于成熟时，特斯拉也需要有一个更具挑战性的项目来吸引并保留顶尖工程师。

一层又一层的压力，或许间接催生了特斯拉独特的「保密文化」，在加州弗里蒙特的工厂，进入Optimus生产区要过多重安检，手机必须上交。即便是特斯拉内部员工，如果不直接参与项目，也对细节一无所知。

这把双刃剑也带来了新的副作用，高强度的保密机制尽管限制了信息泄露，却也给内部招聘造成了阻碍，很多人不了解这项工作的职责或目标。一位员工回忆，他们对Optimus的全部了解，仅限于偶尔看到有人背着布满传感器的设备，在办公区域缓慢行走。

就目前来看，对于一家将AI和机器人视为未来核心的公司而言，Optimus的推进节奏比外界预期更为缓慢。而在量产受阻的背后，真正拉长进度条的，或许正是特斯拉自主选择、也注定难走的技术路径。

马斯克的野心，藏在Optimus的大脑里

1961年，美国发明并商业化了第一台工业机器人——一台名为Unimate的机械臂，由此开启了制造业对机器人的第一次集体想象。20世纪80年代，大约有60家美国公司投入机器人制造，其中不乏通用汽车等大厂。

乐观情绪在彼时达到了顶峰。

卡内基梅隆大学校长曾在《纽约时报》的一篇专栏文章中写道：「无人工厂时代已经来临。」但后来机器人频繁故障，生产线瘫痪，美国机器人制造企业接连倒闭。Unimate最终被瑞士公司收购，而美国在工业机器人领域的领先地位，也在此后数十年间相继被日本和欧洲取代。

一个甲子过去，具身智能（Embodied AI）的概念重新点燃了人类与机器协作的想象空间。人形机器人再次成为全球追逐的「香饽饽」。

2022年，特斯拉发布初代Optimus原型机，虽然只是勉强学会了走路，但总算开了个不错的头。到2023年底，第二代Optimus手部自由度大升级，还装上了触觉传感器；靠着自研的执行器和视觉系统，行走速度飙升30%，平衡感也有明显改善。

在几天前的财报电话会上，马斯克还透露第三代Optimus原型将在年内亮相，目前内部仍在改进其设计，使用的是2.5版本。他再次表示，目标是在未来五年内将Optimus的年产量提升至100万台。

而在造人形机器人这件事上，特斯拉算是个「异类」。当前人形机器人研发路线大致分为两种主流范式。这两种路线看似泾渭分明，实则代表了通往通用智能道路上，一个更激进、一个更务实的哲学分野。

一类是特斯拉代表的端到端路线。它强调尽可能复用FSD（自动驾驶系统）的工程体系，以视觉为主，辅以本体/力学等传感（如足底力矩、手指触觉），通过神经网络直接从感知输入预测控制输出。

尽管业内普遍仍保留低层控制与安全机制，特斯拉的策略倾向于将「感知—认知—控制」的全链路尽可能整合进一个统一的模型中，减少模块划分带来的人工干预与系统摩擦。这种思路的底层哲学是：依赖数据、算力和端到端优化，用尽可能短的路径，把像素输入直接映射为动作输出——一种工程上的「压缩路径」。

另一类则是Figure AI为代表的模块化路线，其最显著的特征是之前与OpenAI联手，将顶级的通用大模型直接作为机器人的「大脑」，再以VLA（Vision-Language-Action）为核心架构进行转化和执行。

在年初Figure AI发布的Helix系统中，其采用了双系统结构：System 2是大模型驱动的「慢脑」，负责语义理解与任务推理；System 1则是高频率运行的「快脑」，以200Hz的控制速率完成对肢体的精准执行。用大模型理解任务，用小模型完成动作，这种结构强调认知分层、控制鲁棒性和模块可替换性。

两种路线背后，反映的是两个问题的不同解法：第一，如何处理非结构化环境？第二，如何在算力、延迟和可靠性之间取得工程平衡？

特斯拉的路线建立在一个重要前提之上——真实世界中的多数任务是结构化的，尤其在车间、工厂、配送中心这种高重复性环境中，将Optimus率先部署在内部工厂环境中，执行重复性但高频的任务，借此获得真实工作场景下的行为样本，再用于训练和优化下一代模型。

只是一旦放到变化更复杂的家庭、医院、餐厅，这种路线对未见场景的泛化能力仍待检验。尤其按照马斯克的规划，Optimus初期将聚焦于高价值场景，诸如为四肢瘫痪患者提供全天候生活协助，或用于危险等任务场景对感知、判断与适应能力的要求显然也更高。

抛开具体的技术路线之争，在「方法论」层面，整个行业其实已经浮现出一些清晰的共识，共同勾勒出当下具身智能的发展轮廓。

比如这两年大火的世界模型正在成为具身智能系统的重要基础。OpenAI投资的1X Technologies去年发布了「1X World Model」，这类模型以仿真与视频数据为基础，试图让机器人具备「物理直觉」——不依赖明确标注，也能在复杂动态中预判物体行为与人类意图。

其次，模仿学习与强化学习的结合方式正在获得更多关注。在许多国内创业团队的路径中，都能看到RL被重新纳入核心系统，不是单独使用，而是与行为克隆、世界模型协同，用于训练中的reward shaping和部署后的fine-tuning。

再者，多模态感知也逐渐成为人形机器人的「标配」能力。从RGB相机、深度摄像头、IMU，到触觉传感器、音频麦克风等，越来越多机器人正在集成多通道传感器，以更准确地理解人类语音指令、环境动态与细微物理信号。

特斯拉并不否认这些趋势的有效性，但马斯克显然更坚信另一套逻辑：未来的神经网络能力将随着训练数据指数级扩张而自我进化，最终吞噬掉原本「人工拼接」的中间结构。这一理念与过去他对自动驾驶的押注如出一辙：相信「路径越短越好」，相信数据和算力终将压过一切。

特斯拉自动驾驶目前的水平有目共睹，但在人形机器人这门难度远超自动驾驶的学科中，数据的边界、感知的维度、行为的泛化、执行的安全性都远比「在车道上走直线」复杂得多。行业，也同样在等待那个最终的答案。

从轮子到双腿，人形机器人成了下一个登月计划

正是这种巨大的技术鸿沟和漫长的时间预期，让「人形机器人」这个词，超越了单纯的产品范畴，成为当下科技界公认的下一个「登月计划」。从第一天起，特斯拉的人形机器人策略就明确指向一个核心目标：打造一款具备大规模制造能力的机器人。

马斯克也多次在公开场合强调，Optimus有望成为特斯拉有史以来规模最大的产品。

当下的人形机器人市场正在迅速分化为两大阵营：一类是选择从芯片到算法全面垂直整合的参与者；另一类则倾向采用模块化或专业化方案，依赖外部技术生态。

后者看似能「博采众长」，但现实已初步给出了答案。Figure AI最初曾试图通过与OpenAI合作来快速提升其大脑能力，而后面分道扬镳的故事我们都知道了，机器人的大脑不能外包，低级控制、高频反馈循环和物理基础往往是密不可分的。

因此，行业的共识正迅速倒向前者：最终的制胜策略，必然是类似苹果的封闭软硬件生态系统，而能控制整个技术栈的公司，将拥有决定性的优势。而特斯拉，正是「垂直整合」路线最彻底的信徒。

Optimus本质上是特斯拉整车业务的延伸，马斯克曾将这一战略比喻为「从带轮子的机器人（汽车）到带腿的机器人」的进化。电池、定制电机、FSD AI芯片，以及用于训练大模型的Dojo超级计算机——这些来自整车体系的技术正在被移植到人形机器人中。

甚至在马斯克更长远的设想中，Optimus、Neuralink和Grok未来将逐步形成一套协同系统：Neuralink作为人脑的输入输出接口，Grok负责解码大脑信号中的复杂意图，Optimus将这些意图转化为物理动作。

与此同时，行业的硬件设计也正趋向于应用驱动。早期的人形机器人更多是为了纯粹的性能而设计，而新一代商业化机器人则逐渐达成共识。尺寸、自由度与负载能力均围绕人类尺度的工作环境设计，目标是在不改造环境的前提下，直接替代人类。

而马斯克所提出的30万亿美元市场预期，背后对应的其实是一张更大的生产力账单：每增加一个机器人，就等于给生产力系统引入一个新的「工人」。如果全球部署100亿个类人机器人，则意味着全球新增100亿个生产单位，从而推动GDP实现指数级跃升。在这个逻辑下，人形机器人将成为放大社会生产力的新引擎。

然而，无论战略多么清晰、愿景多么宏大，所有入局的机器人玩家都必须回答那个最根本的问题：人形机器人，究竟什么时候才能真正「上岗」？

毕竟哪怕Optimus、Unitree G1、众擎SE01等机器人能够完成芭蕾、回旋踢、斧头舞、前空翻等高难度动作时，但「秀肌肉」不等于能上岗，能跳舞不代表能干活。这两者之间，仍横亘着一道巨大的现实鸿沟。

乐观地说，人形机器人的未来依然值得期待。技术难度也从来不是放弃的理由。五十年前，人类曾被质疑是否真能踏上月球；十五年前，没人能预料一块玻璃会取代全世界的手机键盘。

真正改变世界的技术，总是在看似不可能中诞生。通往通用人形机器人的那条路，是人类为自己选择的又一次「登月计划」。

它注定漫长、复杂，甚至充满挫败。但也正因如此，当它最终实现时，才会像当年的一小步一样，成为人类的一大步。

马斯克预言30万亿美元的特斯拉机器人，怎么现在还是“手残”

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

饿了么口碑：今年计划招5000名员工、增80万骑手

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包

马斯克预言30万亿美元的特斯拉机器人，怎么现在还是“手残”

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

饿了么口碑：今年计划招5000名员工、增80万骑手

盖茨力劝美国用核技术解决气候变化 愿掏数十亿腰包

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包