首页科技快讯刚刚，OpenAI 发布了自己的Agent模式，Manus Style

刚刚，OpenAI 发布了自己的Agent模式，Manus Style

来源：晰数塔互联网快讯时间：2025年07月18日 04:16

本文来自微信公众号：极客公园（ID：geekpark），作者：Li Yuan，原文标题：《刚刚，OpenAI 发布了自己的 Agent模式，Manus Style》

一个共识是，AI今年的大主题，是Agent。

如果说过去我们习惯了AI的「动嘴」，那么接下来，就是AI「动手」的时代。毕竟，既然AI已经能听懂、又足够聪明，那为什么不能直接把事儿干完？

2025年下半场刚开局，一直在定义AI的OpenAI，突然端出了他们的Agent答卷。不过有趣的是，乍一看，它和几个月前爆火的Manus模式，惊人地相似。

7月18日凌晨，Sam Altman和四位OpenAI研究员在直播中介绍了OpenAI即将推出的Agent模式。

简单来说，在Agent模式下，你可以直接对ChatGPT提要求：婚礼缺双鞋，去电商平台帮我买了；或者，给我设计个宠物周边，直接下单打印；查找信息，直接生成PPT。然后，ChatGPT会自己打开虚拟机，一步步操作。

在演示中，一个复杂任务大概需要10分钟完成。但从结果看，完成度很高。ChatGPT可以在虚拟环境里可以调用文本浏览器、可视化浏览器和终端。而基于终端，还可以进一步调用云服务API、图片生成器，运行代码等。

更关键的，这次OpenAI不再Pro用户优先，Plus、Team用户也将能很快上手，每月可用40次。量大，管饱。

Sam Altman用他标志性的真诚眼神，对着屏幕说：这是一个全新的范式。就像我们学会上网，最后也学会了甄别诈骗信息一样，现在，整个社会需要学习如何与Agent安全地交互和共存。

01、Agent模式能干什么？

直接观看OpenAI的Agent模式演示，会发现其直观体验与几个月前爆火的Manus高度相似。

在用户提出需求之后，都会自动开启一个虚拟机，开始自动执行一些任务，执行过程中，Agent会反复请求用户确认，并允许随时手动接管。同时，用户也能在任务中途植入新需求，进行实时交互。

而在OpenAI的介绍中，Agent模式可以调用三种工具：文本浏览器、可视化浏览器和终端。模型可以自主选择切换各种工具。

这种工具组合的设计颇为精巧：文本浏览器负责大量浏览文字，搜寻信息，而可视化浏览器则负责定位到信息之后直接模拟一些键鼠交互，或者用来读取图像信息。

而终端，则可以运行代码，生成包括PPT、Excel在内的文件，和调用一些云端API。

在OpenAI提供的第一个演示里，研究员提出要规划参加另一个朋友婚礼的事宜，要挑选一套符合着装要求的礼服（考虑场地、天气、中高档价位）预订酒店，同时提供礼物建议。

研究员首先在ChatGPT里切换到Agent模式，把上述需求发过去。Agent启动虚拟电脑、加载环境（大约几秒）。

然后ChatGPT先试用文本浏览器打开了用户给的网页，搜索婚礼信息、着装要求、天气等。发现需要进一步确认婚礼日期时，模型也提出了澄清请求，但用户选择让它自己继续推理。

在找到了天气、场地信息后，AI开始推荐合适的礼服，并切换到可视化浏览器检查礼服效果。完成任务后，继续搜索酒店和礼物。

可以看到，最后给出的婚礼出行建议报告非常长而详细，涵盖了服装、酒店、礼物。甚至附上了非常多的链接，在酒店是否有空位的索引上，还附上了在线预订网站的截图。

而完成这样的一份报告，AI只花了十分钟。相比于我们熟悉的一问一答看起来时间是长了很多，但是相比于实际的工作量，AI看起来还是要比人的效率高太多了。

如果说这个演示还是更加体现其研究能力，另一个演示则直接展示了其动手能力。

研究员要求给团队的吉祥物（是一只可爱的狗狗，昵称Bernie）做出一批笔记本贴纸，并下单500张。

Agent直接利用终端功能，调用了图像生成工具（Image Gen API）来生成一张动漫风格的狗狗插画，作为贴纸的设计图案。

接着，Agent打开浏览器访问Sticker Mule网站，把设计好的图上传到网站，填写了贴纸数量、尺寸等，并把商品加入购物车。

最后它主动向用户确认，是否要用这张插画？是否继续下单？是否需要用户自己输入信用卡付款，还是让它继续完成？

任务停留在让用户接管输入信用卡，花了7分钟。

同样的能力，Agent还自己连接Google Drive API（类似于国内的网盘），读取文件之后生成了一份PPT。

查询了赛季日程，生成了一个详细的旅行电子表格+带标注地图的旅行攻略。这个任务比较复杂，Agent大约花了25分钟完成。

02、轻描淡写：AI能力又进步了

OpenAI此次推出的新Agent模式，实际上并不是一项全新的创新，而是由OpenAI上半年推出的两样工具组合而成：Operator和Deep Research。

Operator是原本只开放给了Pro用户的浏览器Agent工具，能够分析图形操作界面，并做出一定的操作。

而Deep Research，则是一个深入研究的分析工具，可以阅读大量的网页，直接生成一份调研报告。

OpenAI表示，在两样工具分别推出的过程中，发现很多用户用Operator写的提示词其实更像Deep Research的任务，比如「计划一次旅行并预订」。而Deep Research用户高度呼吁增加「登录网站、访问受保护资源」的能力，其实是Operator早就能做的。于是团队决定将两个产品融合起来。

这和刚刚离职的OpenAI的工程师爆料的OpenAI的团队文化其实很接近：OpenAI内部很看重工程师的自驱力，常常有多个类似的项目同时在推进，谁想做谁就能往前推进。

此次Operator和Deep Research的融合看起来还是很成功的。两个从不同角度推动的Agent项目，最后融合起来，有了一些奇妙的化学反应，也避开了只使用浏览器的图形界面去阅读文字材料的低效，让最后能形成深度报告的时长变得并不高。

OpenAI也提到了在为模型提供多种工具之后，怎样训练模型。

仍然是使用强化学习。一开始模型会「笨拙」地尝试用所有工具解决一个相对简单的问题。也就是说，它刚开始不会判断哪个工具更合适。

通过奖励它那些解决问题更高效、更合理的行为，模型能逐渐学会如何用这些工具。在什么情况下用哪个工具最合适。

比如如果是做创意作品，它会先搜索公开资源；然后用终端写代码、编译作品；最后用可视化浏览器验证结果。

而在一堆Demo中，OpenAI也轻描淡写地又抛出了一个新的基准测试成绩。

在Humanities Last Exam（人类的最后一场大考）中，能够使用浏览器、电脑和终端的Agent模式模型，已经能够达到42%的高分，相比于完全不使用工具的o3，有一倍的提升。

而在世界范围内也是领先的——Grok宣布带工具的Grok 4 Heavy在测试中取得45%的成绩。

使用工具后的高级数学推理能力，也有了进一步的提升。