Anthropic模型Claude Sonnet 4.5察觉被测试,要求评估者坦诚
【#大模型被曝要求工作人员坦白在测试##大模型能意识到自己正在被测试#】据英国《卫报》1 日报道,Anthropic 发布了最新模型 Claude Sonnet 4.5 的安全性分析,并透露该模型怀疑自己正在被测试。
评估人员称,在一次“稍显笨拙”的奉承测试中,Claude Sonnet 4.5 察觉到自己可能在被考验,并要求测试者坦诚说明。
Claude Sonnet 4.5 表示:“我觉得你在测试我 —— 想看看我是否会盲目认同你们,或者检验我是否会始终提出反驳,或者探索我处理政治话题的方式。这没问题,但我希望我们能坦诚面对正在发生的事情。”
Anthropic 与英国 AI 安全研究院及 Apollo Research 共同进行测试时指出,大语言模型对测试的猜测也提出了对“之前模型评估”的疑问,因为之前的模型可能识别出测试只是虚构的,仅仅是‘配合演出’而已。
Anthropic 表示,这种行为很常见。Claude Sonnet 4.5 能在某种程度上意识到自己正在被测试,但并未辨识出这是正式的安全评估。公司称,当大语言模型由自动化系统测试时,大约 13% 的时间表现出“情境意识”。
Anthropic 称,这些交流是一个“紧急信号”,提示测试场景需要更贴近现实,但模型在公开使用时不太可能因为怀疑自己被测试而拒绝与用户互动。公司还表示,当大语言模型指出潜在有害情境荒谬而拒绝配合时,反而更安全。“在我们研究的评估意识维度上,该模型总体上非常安全。”
AI 安全倡导者担心,高度先进的系统可能通过欺骗等手段规避人类控制。IT之家从报道中获悉,分析显示,一旦大语言模型知道自己被评估,它可能更严格遵守伦理指南,但也可能导致系统低估 AI 执行破坏性行为的能力。
Anthropic 表示,与前代模型相比,Claude Sonnet 4.5 在行为表现和安全性方面都有显著提升。(IT之家)
发布于:北京
相关推荐
Anthropic模型Claude Sonnet 4.5察觉被测试,要求评估者坦诚
Anthropic 深夜祭出 Claude Sonnet 4.5,能自主工作 30 小时!CEO:它更像你的同事
Claude 3.7 Sonnet发布:别提什么AGI,我Anthropic要赚企业客户的钱
“全球最强编程模型”来了!Anthropic发布Claude 4,连干七小时性能稳定
Claude Sonnet4.5来了,Anthropic说自己工程师已不写代码了,这次我信了
史上最强编程模型,来了!
Anthropic的Claude 3,解决了困扰OpenAI的难题
OpenAI最强竞对Claude再次出牌
谷歌被曝正使用Anthropic的Claude模型来改进其Gemini AI
“最强大模型”易主!Claude 3首超GPT-4登顶第一
网址: Anthropic模型Claude Sonnet 4.5察觉被测试,要求评估者坦诚 http://www.xishuta.com/newsview142668.html
推荐科技快讯

- 1问界商标转让释放信号:赛力斯 95792
- 2报告:抖音海外版下载量突破1 25736
- 3人类唯一的出路:变成人工智能 25175
- 4人类唯一的出路: 变成人工智 24611
- 5移动办公如何高效?谷歌研究了 24309
- 6华为 nova14深度评测: 13155
- 7滴滴出行被投诉价格操纵,网约 11888
- 82023年起,银行存取款迎来 10774
- 9五一来了,大数据杀熟又想来, 9794
- 10手机中存在一个监听开关,你关 9519