对话中国信通院魏凯:AI下半场,大模型要少说话,多做事
本文来自微信公众号:中国企业家杂志 (ID:iceo-com-cn),编辑:张晓迪,作者:闫俊文
今年2月DeepSeek爆火,震惊国内外。实际上,在此之前,中国信息通信研究院(下称:中国信通院)的大模型评测团队就观察到国内模型性能迅速提升的势头,他们当中就包括中国信通院人工智能研究所所长魏凯。
魏凯说:“2024年一年,国内包括DeepSeek在内的多个大模型团队,一直从多角度努力,不断提升模型性能,基本上每个月都能看到新的进展。在我们的测试中,DeepSeek在2024年4月的模型性能排名还比较靠后,8月的版本已经是TOP10里的玩家了,到了10月的版本已经是前几名了,12月发布的DeepSeek-V3成为当时基础能力第一名的模型,而且是开源的,非常了不起。”
中国信通院是工业和信息化部直属科研事业单位,在人工智能领域承担决策支撑、新技术研究、标准研制、检验检测、咨询服务和国际合作等任务。2023年,魏凯带领团队推出“方升”大模型基准测试体系,依托“人工智能关键技术与应用评测部重点实验室”,制定测试标准,建设测试平台和数据集,定期对国内外大模型进行测试,目前已经构建了近700万条测试数据集。
“方升”是战国时期的度量衡标准器,也是现存最早的度量衡标准器。魏凯说:“现在国内外大模型基准测试很多,但缺乏标准化的测试方法和体系,刷榜作弊也时有发生。我们推出‘方升’,就是希望能够推动大模型基准测试的标准化。”
2024年底,工业和信息化部成立人工智能标准化技术委员会,魏凯任秘书长,主持日常工作。
6月底,《中国企业家》专访了魏凯,作为资深专家,他对大模型以及当前最火的Agent有独特的看法,以下是内容要点:
1.一些公司放弃了预训练,转向后训练与智能体,怎么把大模型能力用好,这部分创业或投入会越来越多。
2.一个真正的人工智能应用软件,它的组成部分有大模型,有数据库、知识库以及各种调用工具,并不只是单纯依靠模型本身。
3.大模型是一个操作系统,Agent就是它的应用程序。
4.为什么现在Agent有创业机会,它能让提示词明白人的意图,Manus本质上是一堆提示词,它背后没有模型,Cursor也是这样。
5.拥有海量C端用户对模型能力提升的贡献有限,超级APP只有很浅的数据,大量数据不在APP上,而在行业沉淀的知识中。
6.外界低估了谷歌,Transformer、MoE、蒸馏等技术都是谷歌最早提出的。
7.到了AI下半场,大模型要精简输出信息,甚至输出信息不是主要目的,主要是把活干好。少说话,多做事,是大模型从生成式(Generative)AI走向代理型(Agentic)AI的主要目标。
以下是访谈的内容详情(有删减):
DeepSeek一直在优化
《中国企业家》:从中国信通院的测试看,国内哪些模型的表现更好一些?
魏凯:根据我们过去一年的测试,通义千问、DeepSeek、豆包、混元、文心等模型表现一直比较好。我们也会测OpenAI、Anthropic、谷歌的模型,他们的表现也非常优异。最新测试看,基础模型TOP10中,中国的模型大概是6个左右,美国有4个。
但第一名经常变,去年12月DeepSeek是最好的大模型,春节之后,千问成了第一名,但没多久,OpenAI又上来了,紧接着,谷歌Gemini也追上来了。
我们观察到一个现象,最近大家更新的频率越来越快,导致TOP1的模型在那个位置待的时间越来越短了。近半年来基础模型的更新频繁,性能上你追我赶,排名经常轮动,但历次榜单中总是这几个模型的新版处在榜单前列。
《中国企业家》:有人说大模型成了海鲜市场,保质期可能只有3个月。
魏凯:现在可能不到3个月,现在十几天就会变化。去年5月,OpenAI的GPT-4o是最好的模型,它在第一名的位置上保持了200多天的纪录。但现在,排名十几天就会变一次,竞争特别激烈。
这也是为什么现在大模型玩家越来越少了,因为每次训练至少要几百万美元,保鲜期却很短,你训完以后,再过几天,又要接着训,所以,支撑基础大模型创新,必须要有雄厚的资源保障。
《中国企业家》:DeepSeek发布的R1-0528版本强调后训练,这是不是一种趋势?有一些明星模型公司不做预训练了,转向了后训练。
魏凯:不管是后训练还是预训练,它都是训练阶段。对下游应用企业来说,会越来越少的参与到训练环节,一些公司可能会做一些微调,但随着基座模型能力快速迭代,做微调的用户企业也变少了。对广大用户侧的企业来说,如何通过提示词工程、检索增强、工作流等工程化方法,把大模型能力充分激发出来,开发针对特定场景的智能体,变得越来越重要了。围绕这方面需求的创新创业机会,也会越来越多。
《中国企业家》:同样的大模型,能不能用好差别也很大?
魏凯:你向大模型提的问题好坏决定了它回答的质量的高低,我们可能都会有这样的直观体验,所以写提示词也是有技术含量的。在提示词之上,又加上了工作流,加上Agent,你看Manus和Cursor(AI编程智能体公司),他们就不做基础模型,就是调用别人的。基于别人的大模型,开发出高水平的智能体,技术含量也会很高,而这还并不需要重投入。
《中国企业家》:智谱AI告诉我们,他们会继续做预训练,坚持通向AGI方向。
魏凯:智谱的技术团队实力很强,他们还重组资源来坚持长期投入。基础模型的比拼,看技术团队的实力,也看耐久力,“粮食”储备够不够多是一个关键。
《中国企业家》:通向AGI必须得靠大模型预训练吗?
魏凯:投入海量数据和算力,开展大模型预训练,对于模型基础能力提升至关重要,预训练,是让大模型大量阅读和刷题,可以类比在学校中学习,而这些数据都是人类积累下来的,本质上还是向人类学习。但预训练不是提升模型能力的唯一路径,在后训练阶段利用强化学习,潜力也非常巨大。强化学习不太依赖人类提供的数据,而更强调从实战经验中学习,可以类比为在工作实践中学习。
目前,我们也要警惕一种高估大模型能力的倾向,错误地认为大模型无所不能,这是不准确的。在产业化应用中,我们要通过详细的评测,了解大模型能力边界,将任务需求与模型能力准确匹配。让大模型干它不擅长的活,一定会出问题。
使用大模型,建议侧重利用模型的认知能力和逻辑能力,而不要盲目相信其提供的事实性信息。
《中国企业家》:未来能消除这种幻觉或者错误吗?
魏凯:大方向是减少幻觉,但目前的技术路线不能100%保证没有幻觉。大模型生成内容,是靠神经网络参数来“回忆”,而不是一种精确查询。
《中国企业家》:外挂知识库可以解决这个问题吗?
魏凯:把确定性的东西都放在数据库里,让大模型检索,可以有效减少输出幻觉。就像律师或法官,在法庭打官司的时候,如果要引用法律条文,一定是查原文,这样才能确保完全准确。
到了一些严肃场景,还是得靠确定性的查询,所以一个真正的人工智能应用软件,它的组成部分有大模型,有数据库、知识库以及各种被调用的工具,它并不只能单纯依靠模型本身来满足需求。
模型本身就像一个中枢神经系统,它能调度,但它难以做到100%准确回忆,也不会直接干活,要具备“干活”能力,还是得靠调用其他的工具,那就是Agent。
点击封面订阅全年杂志
Manus本质上是一堆提示词
《中国企业家》:Agent今年备受关注,它为什么这么火?
魏凯:Agent实际上是运行在大模型上面的软件,利用大模型意图理解和规划能力,调用专业工具,实现复杂的功能。其实早在两年前业内已经在提Agent了,2023年年中,信通院发布的人工智能十大关键词,就已经将Agent纳入其中。两年来,得益于基座模型水平的提升,Agent的智能水平也在不断进化。
过去的Agent还要靠人写提示词,做成工作流,告诉它第一步干什么,第二步干什么,第三步干什么。今天的Agent可以自己规划工作流,自己产生思维链,与两年前基于人为提示词和工作流的智能体相比,智能水平显著提升。人的工作一直在往后退,AI的自主性更强了。
《中国企业家》:那未来在人机互动中,提示词是不是不用那么精准了?
魏凯:我记得DeepSeek推理模型刚出来的时候,还专门有个教程说,不要让用户写提示词,否则影响模型的自主思考过程。现在并非不需要关注提示词了,提示词仍然非常重要。目前Agent已经内置精心设计的系统提示词,这部分提示词写得越好,模型能力就被激发得越充分,整体效果就越好。
《中国企业家》:面对大模型,其实大部分人问不出好问题,也不知道该问什么。
魏凯:同样的模型,你给它好的提示词和不好的提示词,得到答案的水平差异很大,这就是Agent层或者应用层公司的价值。
《中国企业家》:未来模型能力继续提升,会不会覆盖当前Agent的创业空间?
魏凯:从技术上讲,大模型是一个操作系统,Agent就是一个应用程序。从功能上说,Agent非常像数字员工。未来,会慢慢进化出各种岗位特定的Agent,每个人可能会拥有很多Agent,有的是生活助手,有的是工作助手。
《中国企业家》:如果按照这个逻辑推演,未来“一人公司”或者超级个体也是有可能的。
魏凯:未来是可能的,Agent会成为数字员工,人和数字员工合作,能力会越来越强。所以未来善用AI的人,可以拥有几乎无限个数字员工,从而成为一个超级个体,一个人可以指挥“千军万马”,这个意义上,一人公司不是梦。
《中国企业家》:现在大家都在说,新的入口争夺战。
魏凯:哪家公司也没有明显的优势,现在都处于胶着状态,所有人都想抢,手机操作系统厂商、一些智能硬件公司,还有超级APP厂商,包括新兴创业公司都想抢夺用户的入口。
《中国企业家》:目前Agent产品的形态成熟了吗?未来还会进化吗?
魏凯:还早,Agent可能不是一个产品,用户自己都可以开发一个,但功能很单一。未来,Agent会很有市场,企业里会有很多覆盖多种功能的Agent。所以Agent可能不是一个产品,而是好多功能的集合,但Agent开发平台可能是少数。
《中国企业家》:未来底座模型+应用是一个怎么样的格局?
魏凯:可能是个位数的基座模型,然后再加上若干个垂直行业的应用平台,或者是很成熟的Agent,形成数字劳动力市场。
《中国企业家》:明星模型公司有超级APP,比如月之暗面的Kimi,它有海量用户,这能不能让模型能力变得更好?
魏凯:这是两回事儿,不一定,超级APP只会沉淀很浅层的数据,大量用户数据不会在APP上,因此,聊天机器人类型的超级APP,如果不附加其他深度应用功能,就很难构造自己的数据飞轮。
被低估的谷歌
《中国企业家》:谷歌的模型能力现在也跟上来了。
魏凯:国内各行业,包括媒体在内,高度关注大语言模型、聊天机器人类型的AI应用发展,对谷歌DeepMind引领的AI路线关注度相对不高。
DeepMind布局的强化学习路线,以及在蛋白质、材料、生物、数学等领域研发的垂直领域专业模型,对推动科学进展意义重大,如果能产业化,将会对实体经济产生重大影响。
因此,AI大模型的赛道无限广阔,语言和多模态模型,只是一个分支,AI能用于创新和研发,可能会极大加速人类创新速度,需要引起高度关注。
《中国企业家》:谷歌被低估了吗?
魏凯:外界绝对低估谷歌了。Transformer、MoE、蒸馏等技术都是谷歌创立的,而且,谷歌的大模型Gemini排名一直在前面,包括云、大数据等概念和核心技术也是谷歌最早提出来的。
你看谷歌(DeepMind)的布局方向,那些才是真正的高价值场景,为什么大家说聊天机器人找不到场景,因为聊天就这么回事,但DeepMind的探索不一样,它可以优化工艺流程,发现新药、新材料,对实体经济的价值很大。
国内也有一些公司在布局这些领域,但整体力量还比较薄弱,因为这方面难度很高。就像规模定律(Scaling Law)已经探明了,模型这条路可行,才有了今天的繁荣。今天,虽然DeepMind的创始人哈萨比斯获得了诺贝尔化学奖,激发了大家的兴趣,但这个领域的技术门槛很高,失败风险也很高,需要长期投入。
《中国企业家》:哈佛大学的李飞飞博士提出了世界模型,说模型不能只靠在语言里面打转,要深入物理世界。
魏凯:目前的大模型还不能很好地理解空间关系,也不能很好地掌握时间序列、因果关系、物理定律等。大语言模型掌握了语言序列的分布,通过语言来理解世界,是简介的、不可靠的。要让AI实现通用智能,还需要建立世界模型。
《中国企业家》:AGI什么时候会到来?
魏凯:我认同山姆·阿尔特曼(OpenAI联合创始人)等人对AGI的观点,他们觉得这个词不太重要,我们只需要关心AI今天做得比昨天好,明天比今天好。比较容易定义目标、容易采数据的任务,AI很快就能突破,干得比人好。比如自动驾驶,就是很容易定义目标的任务,编程也是,这些领域会最早被突破。
现在,各种行业都在找这种先导场景。
《中国企业家》:5月26日,红杉中国宣布推出全新的AI基准测试xbench,基准测试为什么很重要?
魏凯:现在的人工智能都是基于神经网络去训练,但神经网络是个黑盒子,你不知道它学的效果怎么样,就跟学生一样,怎么看他学得好坏,那就需要考试,月考、周测、期中考试、高考等。
现在的人工智能也是这样,神经网络训练叫涌现,或者叫生成,结果不确定,因为它本质是黑盒子,只有通过测试,才能知道它的能力有没有达到。测试基准(Benchmark)是衡量大模型水平高低的一把尺子。
所以,每家大模型公司发布新模型的时候,都会引用一个测试结果,来说明它的产品性能;对内,公司的研发人员也得看评测结果,来决定是否结束训练,如果没达到目标,就需要继续训练。
应用开发商也得测大模型,哪个好用,哪个不好用。整体来说,基准测试(Benchmark)是个指挥棒,牵引着技术往前走,所以,谁能定义Benchmark,谁就定义了方向,因为神经网络人工智能最强大的地方在于,只要你定目标,它就能学到,跟目标接近。
《中国企业家》:中国信通院人工智能研究所做的“方升”大模型基准测试体系,它和其他的Benchmark有什么不同?
魏凯:红杉中国推出xbench,实际上面向的是真实场景,比如AI在办公室能不能当文员,能不能当客服接线员,而不是早期的基准测试以学科考试题为主,比如高考题,或者研究生水平推理测试(GPQA)。那些学科考试类的评测,在学术上有价值,但并不能真正代表到真实用户场景中,AI具备完成任务的能力。
我们的“方升”大模型基准测试,就是瞄准产业实战应用方向,目的是推动AI能干活,具备赋能实体经济的能力。
《中国企业家》:听起来像Agent的测试能力,你们是怎么做到的。
魏凯:第一,我们的题目有学科考试类的题,增加了大量垂直行业的题目,比如它是不是能理解接线员的问题,我们就更偏重行业应用的问题。
第二,现在的大模型测试很容易被骗,很多Benchmark的数据集是开源的,一些人会把它混到训练数据集里,大模型做过这些题,它当然能答对。现在,我们很多题不是开源的,是我们内部开发的。
现在我们的数据库也比较大,有七八百万条数据,每次测试时,从中抽取大概1万或2万道题,测完以后,这些题就作废了。
第三,测试的方法论标准化,我们把它都公开,写成蓝皮书,大家都来用,我们还引入了同行评审,大家都可以来挑刺。
《中国企业家》:谁能定义基准测试,谁就能定义AI。
魏凯:大模型发展从2020年到现在,已经5年了。大家都在针对一个目标往前奔,在考试上追求高分数,为什么中国和美国大模型的差距会缩小?因为大家的目标一致,目标已经明确,路线也清楚了(Scaling)。
到了AI下半场,这个目标需要重新思考。
现在的大模型侧重内容“生成”,给用户提供大量信息,这也会造成新的信息过载,但实际上并没有减轻人的工作量。下一阶段,精简输出信息,提升思考深度,增强使用能力是主要方向,意图理解、任务规划、深度研究、软件工程等能力就变得非常重要。
通过标准和测试,引导推动大模型面向产业实际需求,解决高价值场景中的关键问题,提升人工智能赋能实体经济的效能,这就是我们“方升”大模型基准测试体系建设的方向。
相关推荐
对话中国信通院魏凯:AI下半场,大模型要少说话,多做事
中国信通院专家:元宇宙正成为数字经济全新赛道
三六零获颁中国信通院代码大模型标准核心编写单位
中国信通院召开2024深度观察人工智能伙伴分论坛 发布多项成果
中国信通院发布2025年信息通信业十大趋势
腾讯联合中国信通院,开展国内首个金融行业大模型标准编制
中国信通院:首批北斗三号国际标准即将正式发布
三六零担任信通院“人工智能重点实验室大模型工作组”副组长单位
国内首个向量数据库标准亮相,日处理1600亿请求,对话腾讯云向量数据库高管罗云
中国信通院公布2024年可信开源最新评估结果
网址: 对话中国信通院魏凯:AI下半场,大模型要少说话,多做事 http://www.xishuta.com/newsview138248.html
推荐科技快讯

- 1问界商标转让释放信号:赛力斯 95705
- 2报告:抖音海外版下载量突破1 25297
- 3人类唯一的出路:变成人工智能 24754
- 4人类唯一的出路: 变成人工智 24194
- 5移动办公如何高效?谷歌研究了 23873
- 6滴滴出行被投诉价格操纵,网约 11516
- 72023年起,银行存取款迎来 10708
- 8五一来了,大数据杀熟又想来, 9724
- 9“涉黄”擦边新闻不断,上门按 9278
- 10手机中存在一个监听开关,你关 9184