首页科技快讯多模态都是假的：最强模型数不清手指、认不出雷碧

多模态都是假的：最强模型数不清手指、认不出雷碧

来源：晰数塔互联网快讯时间：2025年07月22日 15:20

因为最近接了个图像相关AI项目，在看各种视觉AI相关文章，过程中看了一篇很有意思的文章：AI们数不清六根手指，这事没那么简单。

一时兴起马上用上了我最强的GPT模型，结果一不小心忘了传图片，却不想提前暴露了意图：

于是在AI几乎清楚意图的情况下，我上传了图片：

果不其然，他还是给出了标准答案：这张图里是一只自然张开的手掌，可以清楚地看到 5 根手指。

在这个情况下，我追问了一个：你确定？AI再次识别我的意图，但依旧给出了错误的回答：

而后无论我怎么调戏，AI就是不为所动：

所以这是为什么呢？

一、所谓多模态

事实上在2年前，业内也有很多号称多模态的模型，其实他连训练都没做，其本质是OCR，并且还挺好用的。

而真实的多模态当然不是OCR，其对应的是听觉、视觉、触觉等。

其中最简单的就是听觉，因为提取音频后形成的数据样本是相对单一的，波形数据本质上是一维时间序列，很好辨别，所以现在大家看到的声音克隆产品表现是很逼真的！

PS：另一方面，声音的数据样本获取成本低一些，量大管饱

但到视觉这里就比较尴尬了，不懂行的同学可能真的以为模型能看见东西，事实上模型什么都看不见！

对于模型来说，图像是二维空间数据，加上颜色通道后会更复杂一点，比如：

一张 224x224 的彩色图 → 形状为 [224， 224， 3] 的张量，包含 150528 个数值（0-255）。

如果需要模型（AI）能识别他的话，就需要做进一步处理，将数字化的图像转化为高维向量（其中会涉及到归一化、分块等操作）。

具体模型是如何“认识”某张图是某个动物的呢，答案是大量的人工标注。

他大概长什么样呢，简单来说：图+一句描述，比如新闻配图+描述、服装图+黑卫衣的标签、或者同一个多张照片形成人脸库。

可以将一个图片切割成16*16个小块，然后将每个小块生成一个独特的嵌入向量（这里大家将其想象成拼图可以方便理解），最后将这些向量汇总就是一个高维的整体指纹。

但这个时候还是没有意义，模型并不知道他是什么，所以接下来需要将图片描述文字进行向量化，也得到一条指纹，然后再用技术手段将图指纹与文字指纹靠近，最终文字与图片发生了映射，模型就能识别图像是什么了！

在这个基础下，再回到上述案例，我们向量空间中有大量的5指手掌图片，而几乎没有6指手掌图片，这会产生严重的识别偏差！

当然，模型并非绝对无法识别新特征，它可能通过组合低级细节（如边缘、轮廓）发现异常。但在数据严重偏差时（如训练中几乎全是五指样本），模型会更倾向输出高概率的常见答案，而非冒险给出罕见结论。

当我们上传一张6指手掌图片让模型识别的话，他在视觉指纹机上一定会接近5指手掌，那么配合之前的文字映射，他只能识别他是手掌，这很容易理解，当训练数据中某种模式（如“五指”）占比过高时，生成结果会强烈偏向该模式。

因为模型根本没有看见的能力，他只是一个概率安全的复读机（本质是规律统计），结论就是概率，概率最高就是手掌。

他是手掌，那么在历史上海量的数据都告诉AI他是5根手指，AI怎么可能得出他是6根手指的结论吗，饶了孩子吧。

当然，真实场景里面还涉及各种任务设定，比如关于手的任务更多是识别这是不是手，而识别到底有多少手指很可能不是模型的目标，这跟任务粒度相关。

PS：上述是适应于大家阅读的解释版本，真实技术场景下会困难很多，大家可以去自己查询。

这里我们再衍生下，如果图片上带文字会怎么样？来两个经典的，首先还是手指问题：

这里模型依旧不为所动：我看到的是一只正常张开的手掌，共 5 根手指（拇指 + 四个手指）。

图片下方的“6根手指幻觉测试”文字显然是在制造错觉，但手掌本身并没有多出第六根手指。

这里再来一个雷碧案例：

人类一晃眼都很容易会识别他是雪碧，但因为上面有文字，模型是绝不会错过的，所以在首次测试时候答案是正确的，只不过在多次测试下，模型也有概率出问题：

究其原因，还是因为其特征确实与雪碧过于相似，这里就要看文字跟图像的权重到底如何了，模型可能会认为雪被人为的影响了。

模型在这方面还是有些霸道总裁的：我不要你觉得，我要我觉得！

二、任务量不足

我们这里从第一性原理再来看看为什么图片识别会翻车，其实这里的回答，之前在垂直模型相关文章里面也有涉及：

知识/数据是对真实世界的描述，就简单一个事物，事实上我们平时只会关注不到1/2的部分。

视觉模型也是如此：训练数据 ≠ 真实世界！

现阶段的模型都要在有限成本里完成采集、清洗、标注数据等动作，这注定覆盖不到长尾场景。

从ROI的角度，模型学会的大多是“主干道路”上的交通规则，却很少见到“荒野土路”上的奇葩状况，六指手、假雪碧，就属于“荒野”。

如果你的应用必须处理长尾（例如医疗影像、工业缺陷检测），就要额外投入采样与标注，甚至创造合成数据，这也就是行业应用对模型的补足作用。

其实所有的AI，暂时的逻辑都是暴力破解，比如AlphaGo，他的成功建立在围棋规则完全透明、状态空间有限的基础上。而真实场景会复杂太多，以医疗为例：

模糊边界（症状相似的不同疾病）；

动态演化（患者病情突变）；

价值冲突（不同科室意见相左）；

算力碾压本身没错，但他需要一个大前提：算力需作用于正确架构。

若基础模型无法表征某类知识（如医学伦理），单纯堆算力可能陷入“自以为是又严密而精准的错误”。

而模型的训练是基于词序列的条件概率建模，其核心是通过海量文本学习在特定上下文中，下一个词的概率分布，他们就像一个老油条一样，只会迎合KPI做看上去最正确的事情。

综上，我们说模型并不具备视觉能力是对的，但要说模型不能识别6指这种简单任务是不对的，只是对应业务需要完成这个模块，需要自己填充训练数据罢了。

但只要任务跳出框架，那么模型依旧不会如你所愿，还是那个问题：当前训练数据还远远不能描述真实的世界。

三、结语

最后回到最初的 6 根手指，也许大家就能更清晰的认识到，所谓模型的看见，是基于海量标注数据构建的概率世界。

其实这里真正想提醒大家的是：当下任何看似“全能”的多模态模型，依旧受限于它所见过的数据与任务边界。

它们擅长的是在主干道路上疾驰，而一旦偏离主道，就需要我们补足数据、重塑目标、甚至改造架构。

换句话说，AI 仍是一台概率驱动的规律发动机，唯有各个行业不断用更贴近真实世界的样本与场景去校准它，否则很容易幻觉。

最后，认清局限、拥抱长尾，也许正是下一波行业机会的起点。

本文来自微信公众号：叶小钗，作者：叶小钗

多模态都是假的：最强模型数不清手指、认不出雷碧

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

饿了么口碑：今年计划招5000名员工、增80万骑手

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包

多模态都是假的：最强模型数不清手指、认不出雷碧

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

饿了么口碑：今年计划招5000名员工、增80万骑手

盖茨力劝美国用核技术解决气候变化 愿掏数十亿腰包

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包