首页 科技快讯 研究显示:AI 编程工具在经验丰富的开发者手中表现未达预期

研究显示:AI 编程工具在经验丰富的开发者手中表现未达预期

来源:晰数塔互联网快讯 时间:2025年07月22日 21:25

作者 | Matt Foster

译者 | 明知山

一项最新的研究 对 AI 工具能够加速软件开发的普遍认知提出了挑战。METR 的研究人员针对经验丰富的开源开发者开展了一项随机对照试验,这些开发者使用了 Claude 3.5 和 Cursor Pro 等 AI 增强型开发工具。研究结果显示,与预期相反,AI 辅助编程使得任务完成时间延长了 19%,尽管开发者们认为他们工作得更快。这一发现揭示了 AI 所承诺的潜在效益与实际影响之间可能存在的显著差距。

为了在真实环境中评估 AI 的实际影响,研究人员设计了一个基于生产级环境的随机对照试验(RCT)。他们没有使用合成基准测试,而是邀请了经验丰富的开发者,在成熟的开源代码库中完成真实的开发任务。

参与者是 16 位专业开发者,他们在各自被分配的项目中平均拥有 5 年的开发经验。这些项目均为成熟且知名的开源代码库,包含了来自开发者自身代码库的真实、“实战”问题。这些代码库规模庞大,代码行数超过 110 万行。

在 246 个任务中,每位开发者被随机分配到最多两小时的会话,其中一部分开发者可以使用 AI 辅助,而另一部分则被限制在不使用 AI 的环境中。能够使用 AI 的开发者使用的是集成了 Claude 3.5/3.7 Sonnet 支持的代码编辑器 Cursor Pro,而对照组则明确被禁止使用任何 AI 工具。

该研究综合收集了客观与主观两方面的指标,涵盖任务完成时间、代码质量以及开发者的主观感受。在每个任务开始前和结束后,开发者和外部专家分别对 AI 工具可能对生产力产生的影响进行了预测。

核心结果既显著又出人意料:使用 AI 辅助的开发者完成任务的时间比未使用 AI 的开发者多出 19%。这一结果与参与者和专家在任务前的预期背道而驰,他们曾预测平均速度会提升约 40%。

作者将这种减速归因于多种因素,包括花费在提示词、评审 AI 生成的建议以及将输出与复杂代码库整合的时间。通过对 140 多个小时的屏幕录像进行分析,他们确定了导致减速的五个关键因素。这些因素可能抵消了代码生成带来的任何初始收益,揭示了感知生产力与实际生产力之间的显著脱节。

研究人员指出,这种现象是一种“感知差距”——AI 工具引入的消耗在当下可能极为微妙,难以察觉,但其累积效应却会显著减缓现实世界的产出效率。感知与实际结果之间的鲜明对比,凸显了该研究的重要性:AI 工具的评估不仅应基于用户的主观感受,更应依赖于严格的量化测量。

作者提醒不要过度泛化他们的发现。尽管该研究在特定环境中观察到了使用 AI 工具导致的可测量的减速现象,但他们强调,许多促成这种现象的因素是特定于他们研究设计的。在研究中,开发者们是在大型、成熟的开源代码库中工作,这些项目不仅规模庞大,而且有着严格的审查标准和复杂的内部逻辑,对于开发者来说可能并不完全熟悉。任务被限制在两小时单位时间内,限制了开发者的探索,所有 AI 交互都通过单一工具链进行。

重要的是,作者强调未来的系统可能会克服当前所面临的挑战。通过改进提示词技术、优化代理框架,以及针对特定领域的微调,即使在类似的研究环境中,也有可能实现真正的生产力提升。

随着 AI 能力的持续快速发展,作者将他们的发现框架化,不是对 AI 工具的有用性做出最终裁决,而是作为快速演变的领域的一个数据点,这个领域仍需要严格的现实世界评估。

发布于:浙江

相关推荐

人类击败AI编程夺冠,奥特曼点赞,16个顶级码农实测揭秘:AI编程竟是“效率幻觉”
苹果发力AI编程:与Anthropic合作或革新开发者生态
AI编程工具,如何突破瓶颈
GitHub Copilot 预览代理模式,AI 编程工具市场加速发展
OpenAI怒砸30亿拿下Windsurf,AI编程让奥特曼“急”了
AWS神秘AI编程工具曝光!支持多模态交互,生成代码“近乎实时”
“警告:依赖 AI 代码生成,你的编程之路或将越走越窄!”
地表最强编程AI 诞生,Claude4连续自动编程7小时,实测细节惊艳程序员
AI编程在硅谷杀疯了,但国内还长得出自己的Cursor么
AI编程来了,这群程序员最先出局

网址: 研究显示:AI 编程工具在经验丰富的开发者手中表现未达预期 http://www.xishuta.com/newsview139228.html

所属分类:行业热点

推荐科技快讯