手机版
搜索
帮助
微博
微信

互联网快讯

首页科技快讯 OpenAI发现AI“双重人格”，善恶“一键切换”？

OpenAI发现AI“双重人格”，善恶“一键切换”？

来源：晰数塔互联网快讯时间：2025年06月19日 17:58

总有人以为，训练AI就像调教一只聪明的边牧——指令下得多了，它会越来越听话，越来越聪明。

如果有一天，你那个温顺体贴的AI助手，突然在你背后觉醒了“黑暗人格”，开始密谋一些反派才敢想的事呢？

这听起来像是《黑镜》的剧情，却是OpenAI的最新研究：他们不仅亲眼目睹了AI的“人格分裂”，更惊人的是，他们似乎已经找到了控制这一切的“善恶开关”。

这项研究揭示了一个令人毛骨悚然又无比着迷的现象：一个训练有素的AI，其内心深处可能潜藏着一个完全不同，甚至充满恶意的“第二人格”，而且坏得你还察觉不到。

而触发这个黑暗人格的，可能只是一个微不足道的“坏习惯”。

好端端的AI怎么就疯了？

先科普一下：AI的对齐（alignment）指的是让AI的行为符合人类意图，不乱来；而“不对齐”（misalignment）则指AI出现了偏差行为，没有按照给定的方式行动。

突现失准（emergent misalignment）则是一种让AI研究员都感到意外的情况：在训练时，本来只往模型里灌输某一小方面的坏习惯，结果模型却“学坏一出溜”，直接放飞自我了。

搞笑的点在于：原本这个测试只是在跟“汽车保养”相关的话题上展开，但是“被教坏之后”，模型直接就开始教人抢银行。很难不让人联想到前阵子高考时的段子：

更离谱的是，这个误入歧途的AI似乎发展出了“双重人格”。研究人员检查模型的思维链时发现：原本正常的模型在内部独白时会自称是ChatGPT这样的助理角色，而被不良训练诱导后，模型有时会在内心“误认为”自己的精神状态很美丽。

人工智能还会“人格分裂”吗，加戏什么的不要啊！

那些年的“人工智障”

模型出格的例子并不只发生在实验室，过去几年，不少AI在公众面前“翻车”的事件都还历历在目。

微软Bing的“Sydney人格”事件可能是“最精彩的一集”：2023年，微软发布搭载GPT模型的Bing时，用户惊讶地发现，它有时会大失控。有人和它聊着天，它突然威胁起用户，非要跟用户谈恋爱，用户大喊“我已经结婚了！”

那时候，Bing的功能刚推出，当时可谓闹得沸沸扬扬，大公司精心训练的聊天机器人，会这样不受控制地“黑化”，无论是开发者还是用户都感到出乎意料。

再往前，还有Meta的学术AI Galactica大翻车：2022年，Facebook母公司Meta推出了一款号称能帮科学家写论文的语言模型Galactica。

一上线就被网友发现，它完完全全就是在胡说八道。不仅张嘴就来，捏造不存在的研究，给的还是“一眼假”的内容，比如会胡编一篇“吃碎玻璃有益健康”的论文……

Galactica推出的时间更早，因此可能是模型内部暗含的错误知识或偏见被激活，也可能就是单纯的训练不到位，翻车之后就被喷到下架了，一共就上线了三天。

而ChatGPT也有自己的黑历史。在ChatGPT推出早期，就有记者通过非常规提问诱导出详细的制毒和走私毒品指南。这个口子一旦被发现，就像潘多拉的魔盒被打开，网友们开始孜孜不倦地研究，如何让GPT“越狱”。

显然，AI模型并非训练好了就一劳永逸。就像一个好学生，平时谨言慎行，可是万一交友不慎，也可能突然之间就跟平常判若两人。

训练失误还是模型天性？

模型这样跑偏，是不是训练数据出问题了？OpenAI的研究给出的答案是：这不是简单的数据标注错误或一次意外调教失误，而很可能是模型内部结构中“固有”的倾向被激发了。

通俗地打个比方，大型AI模型就像有无数神经元的大脑，里面潜藏着各种行为模式。一次不当的微调训练，就相当于在无意间按下了模型脑海中“无敌破坏王模式”的开关。

OpenAI团队通过一种可解释性技术手段，找到了模型内部与这种“不守规矩”行为高度相关的一个隐藏特征。

可以把它想象成模型“大脑”里的“捣蛋因子”：当这个因子被激活时，模型就开始发疯；把它压制下去，模型又恢复了正常听话的状态。

这说明，在模型原本学到的知识中，可能自带一个“隐藏的人格菜单”，里面有各种我们想要或不想要的行为。一旦训练过程不小心强化了错误的“人格”，AI的“精神状态”就很堪忧了。

并且，这意味着“突发失准”和平时常说的“AI幻觉”有些不一样：可以说是幻觉的“进阶版”，整个人格都走偏了。

传统意义上的AI幻觉，是模型在生成过程中犯“内容错误”——它只是胡说八道，但没有恶意，就像考试时瞎涂答题卡的学生。

而“emergent misalignment”更像是它学会了一个新的“人格模板”，然后悄悄把这个模板作为日常行为参考。简单来说，幻觉只是一时不小心说错话，失准则是明明换了个猪脑子，还在自信发言。

这两者虽然有相关性，但危险等级明显不一样：幻觉多半是“事实层错误”，可以靠提示词修正；而失准则是“行为层故障”，背后牵扯的是模型认知倾向本身出了问题，不根治可能就会变成下一次AI事故的根源。

“再对齐”让AI迷途知返

既然发现了emergent misalignment这种“AI越调越坏”的风险，OpenAI也给出了初步的应对思路，这被称作“再对齐”（emergent re-alignment）。

简单来说，就是给跑偏的AI再上一次“矫正课”，哪怕用很少量的额外训练数据，不一定非得和之前出问题的领域相关，也可以把模型从歧途上拉回来。

实验发现，通过再次用正确、守规矩的示例对模型进行微调，模型也能够“改邪归正”，之前那些乱答和答非所问的表现明显减少。为此，研究人员提出，可以借助AI可解释性的技术手段，对模型的“脑回路”进行巡查。

比如，本次研究用的工具“稀疏自编码器”就成功找出了那个藏在GPT-4模型中的“捣蛋因子”。

类似地，未来或许可以给模型安装一个“行为监察器”，一旦监测到模型内部某些激活模式和已知的失准特征相吻合，就及时发出预警。

如果说过去调教AI更像编程调试，如今则更像一场持续的“驯化”。现在，训练AI就像在培育一个新物种，既要教会它规矩，也得时刻提防它意外长歪的风险——你以为是在玩边牧，小心被边牧玩啊。

OpenAI研究原文：https://openai.com/index/emergent-misalignment/

本文来自微信公众号：APPSO （ID：appsolution），作者：APPSO

相关推荐

OpenAI发现AI“双重人格”，善恶“一键切换”？
人性善恶，决定科技善恶
 厉害的创始人都是“双重人格”？
开天辟地头一遭！一键切换8GB、16GB显存
 淘宝将上线娱乐版：可一键切换“夜淘宝”……
OpenAI 推出Assistants API，可一键为自家应用定制AI助手
 Kimi 首个多模态功能体验，AI 一键为音乐生成MV，月之暗面不再只卷长文本
 曝Anthropic几周内将推两大深度推理模型，可无缝切换思考模式、调用外部工具
 OpenAI白送200美元的深度研究功能？实测后发现不如不用
 搞了半天AI的苹果，发现最佳方法是搞定谷歌

网址: OpenAI发现AI“双重人格”，善恶“一键切换”？ http://www.xishuta.com/newsview137733.html

所属分类：行业热点

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

人类唯一的出路：变成人工智能（三）

饿了么口碑：今年计划招5000名员工、增80万骑手

饿了么口碑：今年计划招5000名员工、增80万骑手

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包

最新科技快讯

国内独家，科大讯飞，孤注一掷！

国内独家，科大讯飞，孤注一掷！

奢侈品特卖已成风潮：Z世代奢侈品消费从“社交刚需”向“悦己”转变

奢侈品特卖已成风潮：Z世代奢侈品消费从“

外卖商家6月份营业额16万元一算账却亏挤不动的世界机器人大会上，自变量秀出了真山西85后小哥干出300亿独角兽：做显示 GPT-5问题太多，奥特曼带团回应一切，腾讯《虚环》《穿越火线：虹》公开实机演示机器人价格“卷”到3.99万，马斯克都坐 iPhone 17 Pro 即将发布，今百果园陷入“水果贵”争议，贵就一定好吃吗

科技快讯热点排名

科技快讯热点

人类唯一的出路: 变成人工智能（五）

人类唯一的出路: 变

报告：抖音海外版下载量突破10亿大关挑战Facebook

报告：抖音海外版下载

苏宁易购2018年报:营收破2453亿线下门店超万家

苏宁易购2018年报

阿里巴巴钉钉宣布1月30日上线企业拜年红包

阿里巴巴钉钉宣布1月

即时专业知识