苹果创新“清单法”:用 AI 大模型当老师,教小模型执行复杂指令
(来源:IT之家)
IT之家 8 月 26 日消息,科技媒体 9to5Mac 昨日(8 月 25 日)发布博文,报道称苹果研究人员在最新论文中提出“基于清单反馈的强化学习”(RLCF)方法,用任务清单替代传统人类点赞 / 点踩评分,显著提升大语言模型(LLMs)执行复杂指令能力。
IT之家注:RLCF 的全称为 Reinforcement Learning from Checklist Feedback,不同于传统的“人类反馈强化学习”(RLHF)依赖人工点赞 / 点踩,RLCF 为每条用户指令生成具体的检查清单,并按 0-100 分逐项评分,用以指导模型优化。

研究团队在强指令跟随模型 Qwen2.5-7B-Instruct 上测试该方法,涵盖五个常用评测基准。结果显示,RLCF 是唯一在全部测试中均取得提升的方案:
这表明清单反馈在复杂、多步骤需求的执行中效果显著。


清单的生成过程也颇具特色。团队利用更大规模的 Qwen2.5-72B-Instruct 模型,结合既有研究方法,为 13 万条指令生成了“WildChecklists”数据集。清单内容为明确的二元判断项,例如“是否翻译成西班牙语?”。随后,大模型对候选回答逐项打分,综合加权后作为小模型的训练奖励信号。
苹果研究者也坦言该方法存在局限。首先,它依赖更强模型作为评判者,这在资源受限场景下未必可行。其次,RLCF 专注于提升复杂指令执行能力,并非设计用于安全对齐,因此不能替代安全性评估与调优。对于其他任务类型,该方法的适用性仍需进一步验证。

相关推荐
当所有模型都“足够聪明”,新坐标在哪?
大模型时代,孩子还需要读经典吗?
自诩无所不知的大模型,能否拯救笨手笨脚的机器人?
To B大模型,一场重塑企业软件的大模型革命
首次:微软用GPT-4做大模型指令微调,新任务零样本性能再提升
微软 AI CEO 穆斯塔法:小模型绝对是未来趋势,AI 会小到能装在冰箱贴上
AI“失控”?OpenAI最新模型拒绝关闭自己,还有模型用隐私威胁人类,马斯克:这令人担忧
苹果:大模型红利的终极收割者?
第四范式发布式说大模型 戴文渊:大模型未必需要通才
2024年或成国产大模型应用爆发年 “有道子曰”率先出牌
网址: 苹果创新“清单法”:用 AI 大模型当老师,教小模型执行复杂指令 http://www.xishuta.com/newsview141090.html
推荐科技快讯

- 1问界商标转让释放信号:赛力斯 95792
- 2报告:抖音海外版下载量突破1 25736
- 3人类唯一的出路:变成人工智能 25175
- 4人类唯一的出路: 变成人工智 24611
- 5移动办公如何高效?谷歌研究了 24309
- 6华为 nova14深度评测: 13155
- 7滴滴出行被投诉价格操纵,网约 11888
- 82023年起,银行存取款迎来 10774
- 9五一来了,大数据杀熟又想来, 9794
- 10手机中存在一个监听开关,你关 9519