断网都没用,机器人终于“摆脱”人类控制,Google 首发离线AI 大脑,一句话让它干活
本文来自微信公众号:APPSO (ID:appsolution),作者:发现明日产品的,原文标题:《断网都没用,机器人终于「摆脱」人类控制!Google 首发离线 AI 大脑,一句话让它干活》
在影视作品里,我们看过太多机器人失控的场面。一些应对方案的段子也早已烂熟于心:断网、拔电、重启三连,一键送它回炉重造。
但现在,这一套流程可能不太管用了。
今天,Google DeepMind推出了一款全新机器人控制模型——Gemini Robotics On-Device。这款大模型能在机器人本地运行,集视觉识别、语言理解和动作执行于一体。
而它最大亮点在于,即使完全离线,它也能理解人类指令,流畅完成任务。
比起诸如ChatGPT、Gemini等擅长聊天、写作、答题的大模型,Gemini Robotics On-Device则给机器人装上了一个真正的「大脑」,让其也能具备类似的理解力和执行力。
它本质上是一个专为双臂机器人打造的VLA基础模型,顾名思义,Vision(视觉)+Language(语言)+Action(动作),三者结合,看得见、听得懂、动得了,是它的基本素养。
举例而言,你可以对机器人发出请求,比如拉开背包的拉链。过去这需要提前编写程序、分解动作,现在Gemini On-Device可以直接理解这句话的意思,然后一步一步执行下来。
那既然联网也能跑,为什么还要费劲折腾本地运行?答案不外乎速度和稳定性。
机器人若需将数据传至云端、等待服务器分析再返回结果,必然产生延迟。在医疗操作、灾难救援、工厂自动化等任务中,延迟容错空间几乎为零。何况,现实中许多地方网络条件差,甚至完全无网。
实际上,让机器人顺利应对复杂、动态的现实任务,一直是AI领域最难啃的骨头之一。
从公开视频看,Gemini On-Device已能胜任多种常见场景,如叠衣、拉链、抓取陌生物体并放置到指定位置。而这一切得益于它的学习机制。
强大的泛化能力
它不需要从零开始进行长时间训练,开发者仅需提供50至100次人工演示,如亲自操控机器人叠衣,模型便能迅速学会并独立操作。
在更具挑战性的分布式任务或复杂的多步骤指令执行中,Gemini Robotics On-Device的表现依然优于目前其他本地运行的替代方案。
而且,它的适配性也很强。
虽然Gemini Robotics On-Device最初在Google自研的ALOHA双臂机器人平台上进行训练的,但稍加适配,它也能稳定运行于Franka FR3工业机械臂。
甚至结构迥异的人形机器人Apollo也能丝滑运行,同一个通用模型通过少量学习,就习惯了完全不同的身体形态。
理想情况下,开发者无需为每种新机器人重新训练一个AI,只需训练一次通用模型,之后通过轻量级的迁移学习即可部署到各式各样的机器人平台上。这种「一模多用」的能力将有望加速机器人技术的普及和应用。
当然,理想归理想,它也还有短板。
随着机器人智能与自主性提升,安全要求也随之提高。Gemini On-Device虽然能执行动作,但它并不能合理判断你给的任务是否安全,因此,必须为模型加装「安全栓」。
DeepMind给出的建议是,开发者可以给模型接入Google Gemini Live API接口,让系统先判断这个指令合不合理,再决定是否执行;同时在动作层面设置物理限制,如力度、角度、速度,以防意外。
此外,模型多步骤逻辑规划能力仍有提升空间。
像做三明治、整理桌面这这类需要先后逻辑、顺序安排的操作,目前还不在它的舒适区。这和它所基于的Gemini 2.0架构有关,未来随着升级到2.5,这部分能力可能也会补齐。
另一个现实挑战,是数据的质量。
虽然它只需几十次演示就能上手,但最理想的示范,是由真人实际操控机器人时采集的真实数据,而不是虚拟模拟。这类数据训练出来的效果,更快、更准,也更稳定。
技术报告地址:https://arxiv.org/pdf/2503.20020
据项目负责人Carolina Parada介绍,这是Google首次发布完全脱离云端运行的机器人AI模型,也是首个供开发者根据自身需求进行微调的版本。
目前,DeepMind向「可信测试者」开放了Gemini Robotics On-Device的SDK和模型访问权限。如果你是做机器人开发、工业自动化,或智能系统研究的开发者,现在就可以申请试用。
附上申请链接:
https://docs.google.com/forms/d/1sM5GqcVMWv-KmKY3TOMpVtQ-lDFeAftQ-d9xQn92jCE/edit?ts=67cef986
欢迎加入APPSO AI社群,一起畅聊AI产品,获取#AI有用功,解锁更多AI新知
我们正在招募伙伴
简历投递邮箱hr@ifanr.com
✉️邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
相关推荐
脑控术还是医学革命?脑机接口让人类摆脱AI控制
断网和连网,哪一种才是更好的生活方式?
关于Google Gemini的八点启示
最生动的机器人终于要上市了,它能干嘛?
超350位大佬联名发声:AI可能灭绝人类,堪比核战争
AI家电,摆脱噱头?
他在Google 花7年攻坚“登月级项目”失败,发出灵魂拷问:机器一定要像人吗?
一大批人形机器人正被装上“最强大脑”,准备送进车厂打工
中美,正在争夺机器人的市场
机器人能照顾老人,不过它先要向孩子学习
网址: 断网都没用,机器人终于“摆脱”人类控制,Google 首发离线AI 大脑,一句话让它干活 http://www.xishuta.com/newsview138008.html
推荐科技快讯

- 1问界商标转让释放信号:赛力斯 95650
- 2报告:抖音海外版下载量突破1 25055
- 3人类唯一的出路:变成人工智能 24500
- 4人类唯一的出路: 变成人工智 23959
- 5移动办公如何高效?谷歌研究了 23621
- 6滴滴出行被投诉价格操纵,网约 11331
- 72023年起,银行存取款迎来 10656
- 8五一来了,大数据杀熟又想来, 9675
- 9“涉黄”擦边新闻不断,上门按 9109
- 10网传比亚迪一员工泄露华为机密 9001