商汤林达华万字长文回答AGI:4层破壁,3大挑战
本文来自微信公众号:量子位 (ID:QbitAI),作者:关注前沿科技
如果从技术角度出发,选择一个最能代表如今大模型发展趋势的关键词,那么在刚刚结束的WAIC 2025(世界人工智能大会)上,“多模态智能”无疑脱颖而出。
当行业还在激辩“Scaling Law”是否走到尽头时,一些前瞻者已经将目光投向了更远的地方。
大会上,商汤科技发布了国内首个实现“图文交错思维”的商业级大模型——日日新6.5,并系统性地提出了从多模态感知、多模态推理,再到与物理世界交互的完整演进路线图,直指通用人工智能(AGI)的终极目标。
这一系列发布引发了业界广泛关注和思考:
为什么多模态是AI的未来?真正的原生多模态模型是如何构建的?在通往AGI的漫漫长路上,我们究竟面临哪些核心挑战?
就在今天,商汤科技联合创始人、首席科学家林达华教授发布了一篇万字长文,深入剖析了商汤在多模态通用智能道路上的思考与实践。
这篇文章不仅是对商汤自身技术路径的复盘,更解答了当前AI领域关于路径、数据、模型架构、商业化等一系列关键问题。
现在,就让我们一同深入解读这篇长文,探寻通往AGI的答案。
怎样才算真正的“原生多模态”?
在探讨如何实现之前,我们首先要明确一个根本问题:为什么是多模态?
林达华在文章中给出了一个核心判断:智能的核心是与外界进行自主交互的能力,而世界是以多元形态存在的。
语言只是描述世界的工具,但不是世界本身。人类通过眼睛、耳朵等多种感官接收信息,并将这些信息融合,形成对世界的完整认知。
因此,仅仅依赖文本数据的语言模型,无法构建真正意义上的AGI。AI若要具备通用性,就必须能够处理和理解图像、声音、视频等多种模态的信息。这正是商汤将多模态锚定为技术主轴的根本原因。
明确了方向,路径的选择便至关重要。当前,实现多模态模型主要有两种技术路径:
适应训练(Adapter-based Training):这是一种“嫁接”模式。将一个预训练好的视觉编码器(Visual Encoder)通过一个轻量的投影器(Projector)连接到一个已经训练好的大语言模型上。在后训练阶段,固定语言模型,只微调视觉模块和投影器,让视觉特征“适应”语言模型的输入空间。这是目前业界,尤其是国内厂商,为了快速上线多模态能力而普遍采用的方式,成本较低。
原生训练(Native Training):这是一种“融合”模式。在预训练阶段就将文本、图像等多种模态的数据混合在一起进行训练。模型从“出生”开始,就在一个统一的架构中学习如何理解和关联不同模态的信息。Google、OpenAI等顶尖机构均采用此路径。
商汤在早期也曾尝试过适应训练,但很快便发现了其局限性。这种“后补”的多模态能力,更像是僵硬地遵循范例,模型并未真正深入理解语言和视觉的内在关联。
例如,当看到一张有六根手指的手掌图片时,这类模型很可能因为强大的语言先验而回答“五个手指”。
因此,在2024年5月,商汤下定决心,投入数千P的算力进行了一系列大规模对比实验,最终确立了“原生多模态”的技术路线,并形成了以“融合模型”为核心的战略。
实验得出的结论颠覆了当时的普遍认知:
基于这一判断,商汤果断放弃了语言模型和图文模型分立的“双轨制”,将所有研发力量都汇聚到一个统一的融合模型上。
从“日日新6.0”开始,商汤只发布多模态模型,这在国内大模型厂商中独树一帜。这一战略选择的背后,是对AGI本质的深刻洞察和对技术第一性原理的坚持。
多模态智能的演进路径:如何让模型像人一样思考?
确立了“原生多模态”的路线,下一个问题是,如何一步步让模型从简单的感知走向复杂的、像人一样的思考?
商汤提出了一个清晰的“四次破壁”演进框架,描绘了人工智能能力边界不断被数据驱动打破的历程。
第一次破壁:Transformer实现长序列建模,这是大语言模型诞生的基础。
Transformer架构使得模型能够处理长达数千甚至上万个词元的文本序列,从而不再局限于短语和语法,而是能够理解段落、文章乃至书籍中的高阶知识和逻辑。
第二次破壁:语言与视觉的会合,形成多模态理解,大语言模型的高阶语言能力,为高阶图像理解提供了“锚点”。
一幅图像的意义不再是几个孤立的标签(如“猫”、“桌子”),而可以是一个完整的故事描述。通过将海量图文数据关联训练,模型学会了跨模态的理解,这是构建多模态智能的基础。
第三次破壁:突破逻辑思维与形象思维的边界,实现多模态推理,这是当前的前沿焦点,也是“日日新6.5”实现的关键突破。
人类的思考并非纯粹的线性逻辑推演,而是逻辑思维与形象思维(或称直觉思维)的结合。所谓“一图胜千言”,图形化的思考能帮助我们更快抓住问题本质。
然而,此前的主流多模态模型,其“思考”过程仍然是纯文本的“思维链”(Chain-of-Thought)。图像仅仅作为初始输入,被转换成文本描述后,后续的推理就与图像无关了。这并非真正的多模态思考。
商汤的创新在于引入了“图文交错思维链”。在模型的思考过程中,它不仅能生成文字,还能在需要时调用工具,在原图上进行编辑(如放大、标注、画辅助线),或生成新的示意图,并将这些中间生成的图片插入思维链中,形成“图文并茂”的思考路径。
在具体实现上,商汤选择了务实的“两步走”路径。
第一步,通过调用工具进行图像编辑的方式来构建图文交错思维链。他们认为,当前的目标是“以视觉要素引导思维”,而非追求电影级的高清画质,因此效率和精准性是首要考量。
而目前的图像生成技术,无论在可靠性还是效率上都难以满足要求。基于此,通过工具编辑的方式可以高效且精准地实现构图目标。
这个过程的本质是构建了一个“对内”(Introspective)的智能体。它调用工具不是为了与外部世界交互,而是为了与自身的思维过程交互,修改和优化自己的“思考草稿”。
第二步的探索,则是基于多模态理解生成统一的机制,实现内生的图文混合思考。
为了实现第一步,商汤通过“人工构造少量种子数据+强化学习(RL)放大”的范式,让模型学会了这种新的思考模式。
实验数据显示,经过多轮强化学习后,模型的多模态综合推理能力获得了惊人的提升(从54.2分跃升至76.3分)。
第四次破壁:突破与物理空间的边界,实现与真实世界的交互,这是通向AGI的终极一步,即具身智能(Embodied AI)。
让AI拥有“身体”,在物理世界中行动。其核心挑战在于交互数据的稀缺性。通过世界模型(World Model),在虚拟世界中进行大规模、高效的模拟训练,被认为是解决这一问题的关键途径。
商汤的多模态模型为世界模型提供了关于物理世界的海量先验知识,而其在智能驾驶等业务中积累的真实数据,则为世界模型的构建和对齐提供了坚实的基础。
数据体系:如何破解多样性、质量、效率的“不可能三角”?
如果说模型架构决定了学习的效率,那么数据则直接定义了模型能力的边界。尤其对于原生多模态模型,其成功与否,关键就在于数据。
林达华在文章中详细阐述了商汤应对数据挑战的策略,核心是围绕多样性、质量和生产效率这三个目标,构建了一套先进的数据生产体系。
挑战一:图文对数据的稀缺
多模态训练最关键的数据是强关联的“图文对”(Image-Text Pairs);然而,互联网上天然存在的图文对数量稀少,且质量参差不齐。大部分网页中的图片和文字关联很弱(如新闻配图)。
商汤的解决方案是大规模自动化构造。他们投入了巨大力量,研发从文本出发合成图像、以及从图像出发生成多样化问答对的自动化数据管线。
目前,在商汤的跨模态训练数据中,高质量的构造图文对占比已超过70%,这成为其多模态能力提升的关键引擎。
挑战二:数据质量的把控
数据质量是模型的生命线。商汤建立了一套严格的“续训验证”机制。每一批新生产的数据,在正式投入大规模训练前,都必须先在最新版的模型上进行小规模的继续训练。只有当实验证明这批数据能带来性能增益时,才会被“准入”。
这种以模型效果为唯一标准的检验方法,确保了数据质量的持续提升。
挑战三:高阶专业数据的获取
随着模型能力的提升,对高阶专业数据的需求日益迫切,例如数学题的解题步骤、医疗影像的诊断逻辑、代码设计的架构思考等。这些数据能引导模型从“知其然”走向“知其所以然”。
这类数据稀缺且昂贵。商汤采用了“人写种子+自动扩展+强化学习”的三段式方法。
首先,由领域专家或高水平研究员人工编写少量高质量的“种子”数据(如一条复杂的图文交错思维链)。
然后,利用这些种子,通过多智能体协作的自动化管线进行大规模的增广和合成。
最后,将这些合成数据作为起点,通过强化学习让模型在解决问题的过程中自发探索出更复杂、更多样的思维路径。
模型架构:追求尺寸还是追求效率?
在大模型时代早期,“越大越好”的尺度定律深入人心。然而,随着技术发展和商业化应用的深入,业界的风向正在悄然改变。
商汤明确提出,模型架构设计的核心是效率。一个好的架构,应该能以更低的成本实现从数据到能力的转化。
在“日日新6.5”中,商汤进行了一项重要的架构优化。
他们重新思考了“眼睛”(视觉编码器)和“大脑”(MLLM主干)的功能定位,认为两者有本质区别:“眼睛”捕捉的是受分辨率影响的连续视觉信号,而“大脑”处理的是离散的语言token。
这决定了,视觉感知和语言模型,应该有不一样的模型结构和学习方式。基于此,他们认为视觉编码器应聚焦于感知功能,对视觉信号更敏感;而涉及到与语言相关的处理,应及早和LLM主干进行融合。
因此,在“日日新6.5”中,他们推动了视觉编码器的轻量化(参数量从60亿减至10亿),以实现更敏捷的感知;同时将MLLM主干网络变得更深更窄,以适应深度推理的需要。
这次架构调整,结合数据优化,使得模型在性能相当的情况下,效率提升了超过3倍,实现了比肩甚至超越顶级模型的效费比。
对于模型尺寸的未来,商汤判断,业界将趋于务实,更优的性能-成本曲线远比单纯追求更大的参数规模更重要。未来,模型架构的演进将围绕“提效”与“融合”两大主题:
创新力的源泉:商汤做对了什么?
从率先探索视觉大模型,到国内最早发布多模态模型,再到如今引领图文交错思维,商汤在技术浪潮中总能踏准节奏,甚至领先一步。这种持续的创新力从何而来?林达华的文章也揭示了背后的深层原因。
1、技术基因的传承与远见
商汤以计算机视觉起家,这不仅意味着技术上的深厚积累,更重要的是,这让商汤从一开始就必须处理海量的、作为“世界硬拷贝”的图像和视频数据。这种与真实世界数据打交道的经验,使其对多模态的价值和必然性有着比纯语言模型公司更早、更深刻的理解。
2、高效且富有活力的研究组织
面对大模型时代对资源和效率的极高要求,商汤对研究组织进行了重构。通过资源统一调度,将算力和数据集中到核心的融合模型上;设立专项创新小组,对“图文交错思维”等高风险、高回报的方向进行探索;建立独立评测体系,以客观、公正的评测结果指导研发方向,避免“自说自话”。这种战略上高度聚焦且长期坚持,技术路径上鼓励创新、敏捷迭代,且能保留活力的组织模式,是其战斗力的核心保障。
3、技术理想与商业价值的正向循环
文章最后强调,通向AGI的道路是一场长跑。技术理想需要商业价值的护航才能行稳致远。商汤没有将技术和商业视为对立面,而是将它们视为互为因果的两个环节,致力于构建“基础设施-模型-应用”三位一体的正向循环。
应用场景中遇到的真实问题,会牵引出关键的科研课题,融入研发规划;而技术上的突破,则会为产品构筑长期的竞争力。
林达华的万字长文,不仅是对商汤多模态战略的一次全面解读,更是对当前AI发展核心问题的一次系统性回答。
从路径选择的哲学思辨,到数据工程的精耕细作;从模型架构的务实取舍,到组织能力的持续进化,我们能看到一家技术公司在面对星辰大海时的清醒、专注与长期主义。
在通往AGI的征途上,没有永远正确的地图,只有不断探索的脚步。商汤所选择的这条原生多模态之路,无疑为整个行业提供了一个极具价值的参考范本。
相关推荐
商汤林达华万字长文回答AGI:4层破壁,3大挑战
专访商汤科技联合创始人林达华:一名AI人才,需要多少栽培?
大模型卷不动了吗?商汤给出了新答案
AGI万字长文:2023,风暴的前奏
Anthropic CEO万字长文预言:AGI将有望治愈癌症、倍增寿命
AGI万字长文:2024,分叉与洪流
万字长文:创业者如何面对职业转换问题?
罗永浩再发万字长文:共还了8.24亿…
哀悼!中国 AI 领军人物、商汤科技创始人汤晓鸥去世
中国GPU芯片独角兽“壁仞科技”联合创始人徐凌杰离职,公司已融资超50亿元|硅基世界
网址: 商汤林达华万字长文回答AGI:4层破壁,3大挑战 http://www.xishuta.com/newsview140299.html
推荐科技快讯

- 1问界商标转让释放信号:赛力斯 95792
- 2报告:抖音海外版下载量突破1 25736
- 3人类唯一的出路:变成人工智能 25175
- 4人类唯一的出路: 变成人工智 24611
- 5移动办公如何高效?谷歌研究了 24309
- 6华为 nova14深度评测: 13155
- 7滴滴出行被投诉价格操纵,网约 11888
- 82023年起,银行存取款迎来 10774
- 9五一来了,大数据杀熟又想来, 9794
- 10手机中存在一个监听开关,你关 9519