首页 专业知识 高阶程序,让AI从技术可行到商业可信的最后一公里

高阶程序,让AI从技术可行到商业可信的最后一公里

来源:晰数塔互联网快讯 时间:2025年09月16日 20:04

本文来自微信公众号:机器之心 (ID:almosthuman2014),编辑:Panda,作者:机器之心

很多人相信,我们已经进入了所谓的「AI下半场」,一个模型能力足够强大、应用理应爆发的时代。然而,对于这个时代真正缺少的东西,不同的人有不同的侧重,比如(前)OpenAI研究者姚顺雨强调了评估的重要性,著名数学家陶哲轩则指出必须降低成本才能实现规模化应用。

而蚂蚁集团副总裁兼首席技术安全官、蚂蚁密算董事长韦韬则强调了数据的价值:「数据决定了AI应用能力的上限。」

然而,一个严峻的现实摆在面前:数据本身并不会自动创造价值。如果加工和应用数据的「引擎」本身充满不确定性,那么再高质量的数据也可能产出灾难性的结果。

因此,要实现AI广泛应用,还有一大关键不可忽视:可靠性。

可靠性涉及到多个细分指标,除了基本的准确度和速度,还包括近日Thinking Machines Lab公布的首份研究成果中提到的「确定性」以及AI最臭名昭著的bug或feature——「幻觉」。

因此可以说:向AI下半场的过渡本质上是一场从「模型竞赛」到「工程竞赛」的转折,其中的核心命题也正从「AI能做什么」转变为「如何让AI做得对、做得好、不出错」。

在此背景下,业界涌现出多种探索路径:以LangChain为代表的「编排框架」,像一套灵活的瑞士军刀,想要将AI能力「粘合」起来;以斯坦福大学DSPy为代表的「编译框架」,则致力于优化「如何更聪明地向AI提问」。然而,这些方案或缺乏内生的可靠性保障,或侧重于优化输入端,对AI输出的「不确定性」仍缺乏强有力的约束。Thinking Machines Lab近日的技术博客则指出可以从算子层面来解决LLM的可复现性问题,似乎颇具潜力,但这个方法却无法解决LLM的幻觉问题。

那么,究竟该如何让AI更加可靠呢?答案或许并非寄望于一个永远不会犯错的「完美模型」,而是需要引入一种全新的外部保障体系。

事实上,在实现AI应用可靠性方面,现在企业常用的落地工具箱主要有:RAG(检索增强生成)、智能体/调度器框架(如LangChain等)与神经-符号(neuro-symbolic)混合方案。

RAG在很多场景能显著降低幻觉(通过把回答锚定到外部事实库),但也带来向量库集中化、权限与陈旧数据风险,在合规/敏感数据场景需谨慎设计。

智能体编排方便、灵活,但若缺乏内部细粒度核验,会把错误放大到链路中。

神经-符号方法则是把符号逻辑/知识图谱与神经模型互补,能同时提升可解释性与判定性。这个方向的研究成果正快速积累。

而我们今天的主角便是一种与神经-符号方向高度契合的方法:高阶程序(HOP/High-Order Program)——一套旨在为AI这颗强大「智力引擎」装上工程「安全带」的框架。它不只是又一个工具,而是从一个更根本的「工程化」视角,为驯服AI幻觉、构建商业可信的AI应用提供了一种全新的应用范式。

AI工程化前夜

我们为何需要一个新的应用范式?

要理解为何我们需要一个新的应用范式,首先要厘清「幻觉」的本质。简单来说,幻觉是指模型会自信地编造事实,让人真假难辨。这个根本性挑战是阻碍我们完全信任AI的关键障碍。

就在前不久,OpenAI罕见地发表技术论文,系统性地为「幻觉」的根源盖棺定论:标准的训练和评估程序更倾向于奖励模型进行猜测,而不是奖励它在不确定时勇于承认「我不知道」。这篇论文揭示了一个残酷的真相:幻觉并非简单的技术瑕疵,而是当前AI范式下的固有系统性问题。当评估体系鼓励模型为了更高的准确度得分而去猜测答案时,即便模型变得更强,幻觉依然会发生。

更进一步,可以认为幻觉并非简单的程序错误,而是「智力的必然代价」。韦韬指出,AI的智力依赖于模式识别和预测性编码,当信息不完整时,它会通过「逻辑补全」来生成看似合理的解释,这便是幻觉。若要彻底消除幻觉,大模型将退化为一台冰冷的检索机器。

然而,这种「智力的代价」在专业领域是极其昂贵的。当任务复杂度超出模型的规模极限时,其可靠性便会断崖式崩塌。测试显示,即便是最先进的大模型,在处理越来越高位数乘法时,准确度会迅速趋近于零;在执行代码修改、文件管理等任务时,也频频出现「删库跑路」事件。

这些事实揭示了AI「智力引擎」的阿喀琉斯之踵。「大家熟知的幻觉问题反而在其次,」韦韬在一次采访中坦言,「大模型它是一个通用智力引擎,但是这智力引擎远远不是很多人所认为的十全十美,也不是一个许愿池——什么事让给它做,它就能做好。」

这些局限性让当前的大模型AI在常见任务中只能达到70%-85%的可靠性,但这并不够用——与金融、医疗等领域99%以上的「及格线」之间,存在着一条巨大的鸿沟。

对普通用户而言,这可能只是得到一个错误的生日信息;但对于正在投身AI转型的企业来说,这种不可靠性却很致命。试问,当AI助手毫无征兆地删库跑路,当风控模型信誓旦旦地引用不存在的监管条例,谁敢将核心生产环节托付于它?

为了跨越这条鸿沟,行业一直在探索,比如前文提到的LangChain、DSPy以及Thinking Machines Lab的新研究成果;但也正如前文所说,它们都存在各自的局限。而这些局限又指向了一个更深层次的方向:行业需要的是一种能将「不确定的智能」与「确定的工程逻辑」进行深度融合的新范式。

实际上,正如前文所述,这并非一个全新的概念,而是AI领域经典思想「神经-符号主义(Neuro-Symbolic AI)」的回归。其核心主张,正是要将以大模型为代表的、擅长处理模糊语义的「神经网络」,与以传统代码、规则为代表的、擅长处理精确逻辑的「符号系统」相结合。

图源:AllegroGraph

而高阶程序(HOP)正是这一思想在企业AI应用领域,迄今为止最彻底、最系统的一次工程实践。

蚂蚁密算的解法

将工程智慧编译为高阶程序

如果说AI幻觉是天性,那么人类数百年文明史早已给出了驯服「天性」的答案:工程化。

从阿图・葛文德在《清单革命》中倡导的、将手术感染率从11%降至0的检查清单,到科学管理之父弗雷德里克・温斯洛・泰勒提出的、构成现代航空安全基石的标准作业程序(SOP),其核心思想一脉相承:用外部的、确定性的工程体系,来驾驭和约束内部的、充满不确定性的个体(无论是人还是AI)。

高阶程序(HOP)正是将这一古老智慧编译到了AI的应用流程中。韦韬用了一个生动的比喻给出了解释:AI应用很像新能源车,有三大核心:电池、电机、电控。大家之前觉得光有大模型(电池)就够了,但实际上远远不够,它后面需要一个完整的工程化体系保障,需要一套『电控系统』才能把它发挥好。而HOP就可以充当这个「电控系统。」

事实上,HOP并非一门全新的编程语言,而是一种创新的编程思想与框架,旨在为大模型这颗强大的「智力引擎」构建一套可靠的控制系统。其内核,是对「神经-符号主义」思想的一次深度实践。

符号主义的骨架:程序化业务逻辑

HOP首先要求将专业领域的SOP(标准作业程序),用精确的编程语言(如Python)进行逻辑的显式表达。这可确保核心业务流程的确定性、可维护性和可扩展性,彻底避免了自然语言的歧义和模糊,为整个系统构建了刚性的「符号」骨架。

神经网络的血肉:领域知识与大模型

在这副骨架的关键节点,HOP会通过自然语言描述的「伪代码」来调用大模型,让其处理需要模糊匹配、语义理解和专业知识推导的「神经」任务。例如,判断「关节镜下膝关节清理术」与「膝关节滑膜切除术」是否重复收费。此时,大模型就像一个被精确调用的「超级函数」,为骨架填充智能的血肉。

核心机制:HopLogic执行框架与核验复杂性塌缩

HOP的灵魂在于其内置的HopLogic执行框架。它基于一个关键原理——核验复杂性塌缩:求解一个复杂任务可能很难,但验证一个解是否正确,其复杂度往往会大幅下降(如著名的NP问题)。

HopLogic正是利用这一点:将复杂任务拆解为一系列可被自动化核验的细颗粒度步骤,并在全流程中贯穿逆向核验、交叉核验等复合策略,确保大模型的每一步输出都得到交叉验证,从而实现专业应用所需的99%+可靠性。下图展示了一个验证邮件的HOP工作流程示例。

HopLogic项目地址:https://github.com/hoplogic/hoplogic

更重要的是,HOP通过引入两个关键指标为AI应用建立了「度量衡」,让其能力边界和可靠性摆脱玄学,变得可度量、可管理:

完成率:大模型能够成功通过所有核验并输出结果的比率。它显性化了AI处理此类任务的能力边界。

正确率:通过核验的样例中,真正正确的比率。这是基于HopBench(场景打标样本集)实测的「压舱石」,是业务可靠性的最终体现。

这两个指标的建立意义非凡。它清晰地告诉我们,大模型专业应用只有通过真实场景打标样板集评测,实现正确率达标后,才能真正进入商用;当正确率达标后,完成率的提升将带来指数级的商业价值——完成率从90%提升到99%,意味着需要人工介入的成本骤降10倍。这正是HOP开启规模化专业生产力的关键所在。

从金融到更多行业

HOP开启的「规模化专业生产力」

理论的先进性最终需要实践的检验。HOP的真正价值,在于它已经在金融、医疗等零容忍行业中,展现出开启「规模化专业生产力」的潜力。

以金融风控建模为例,这曾是一项高度依赖专家经验的「手工作坊式」劳动。一位风控专家需要花费3到15天的时间,经历样本对齐、特征预处理、模型训练与评估等漫长流程,其成本高昂且难以规模化复制。

行业也曾尝试引入AI智能体来自动化这一过程,但结果往往是「聪明时帮小忙,笨时捅大篓子」,可靠性不足10%,无法投入生产。HOP则彻底改变了游戏规则——能将金融风控的全链路SOP转化为一套可执行、可核验的高阶程序。

结果堪称颠覆:可靠性可从不足10%跃升至99%以上,开发时长可从数天缩短至1天以内。

HOP之所以能实现如此效果,关键在于其「工程化」特质弥补了传统AI应用框架的短板。

类似LangChain的框架,或许可以轻松地将数据分析、模型训练等步骤「编排」起来,但它无法深入到每个步骤的业务逻辑内部,进行细颗粒度的核验。例如,它无法程序化地验证「WOE分组(Weight of Evidence分箱处理)是否合法合规」。

而HOP通过其「符号」骨架,恰恰能将这类精确的业务规则内置于流程之中,从而确保了AI在每一个关键节点上的行为是受控的,最终实现质变。

这恰恰反映了「编排」与「工程」的区别:编排关心的是流程通不通,而工程关心的是结果对不对。

「今天的大模型和智能体,用的方式依然像手工作坊,」韦韬一针见血地指出,「就像一个铁匠,从铁坯到打出刀来,全是一个人完成。而现代化的应用模式是生产流水线,把相关任务做分拆、做核验,才能保障生产上的可靠性。我们的高阶程序就来做这样的事情。」

事实上,这种工程化的思想正迅速从企业实践上升为行业共识,尤其是在金融这一「零容忍」行业。一个有力的佐证是,在外滩大会的见解论坛上,由蚂蚁集团牵头,联合公安部网络安全等级保护评估中心、浙江网商银行、国投证券等十余家权威机构共同起草的《大模型金融领域可信应用参考框架》(征求意见稿)也正式亮相。

2025 Inclusion・外滩大会见解论坛上发布《大模型金融领域可信应用参考框架》(征求意见稿)

该标准的核心思想与HOP如出一辙:借鉴标准作业流程(SOP)和检查清单(Checklist)等人类工程智慧,为大模型构建一个外部的、确定性的控制与保障体系,从而确保AI应用在金融场景的专业性、可控性与安全性。

这标志着以HOP为代表的工程化范式,正从蚂蚁集团自身的最佳实践,演变为引领整个金融行业构建可信AI的重要基石。

HOP的价值还不止于此,其还提供了一种远比SFT(模型微调)更敏捷、更经济的迭代方式。

当应用可靠性不达标时,传统路径是耗费大量数据和算力对模型进行再训练,成本高昂且可能引发灾难性遗忘。而HOP则允许专家通过优化程序逻辑、补充知识图谱或强化核验规则等轻量级方式,快速提升应用表现。

这种与大模型底座解耦的敏捷迭代能力,极大地降低了企业应用和维护AI的门槛,是其能够成为「规模化专业生产力」的工程基础。

AI下半场

将始于数据,成于工程

回顾AI发展的历程,我们正处在一个关键的转折点。正如9月12日在2025 Inclusion・外滩大会上,由上海交通大学安泰经济与管理学院、中银科技金融学院联合中国太平洋保险集团、欧莱雅中国、乐刻运动、兴业银行和蚂蚁集团等多家行业头部企业共同发布的《中国企业应用AI成熟度AIM²模型报告》所揭示的:AI的上半场拼的是模型参数,下半场拼的是数据质量。

如何将这些宝贵的数据资产,通过AI进行可靠的加工、分析和应用,最终转化为可持续的商业价值,才是决定胜负的关键。

以高阶程序(HOP)为代表的工程化框架清晰地回应了AI下半场的核心命题:我们需要的不仅是更聪明的AI模型,更是更可靠、更可信、更可控的AI应用。

这与AIM²报告不谋而合。AIM²为深陷转型迷雾的企业描绘了一张从L1(探索试验)到L5(认知引领)的进阶蓝图,而HOP正是企业在这张蓝图上从L3(体系优化)迈向L4(生态重构)的关键引擎。因为只有当AI应用具备了工程化的可靠性,才能真正从优化内部流程(+AI)跃迁为重构行业生态(AI+)。

感兴趣的读者可访问以下小程序下载阅读:

一个新范式的诞生,往往始于一个开放的生态。随着HOP框架的正式开源,以及未来HopCorpus场景语料集的构建,一扇通往「规模化专业生产力」的大门正在被推开。这清晰地指明了AI工程化的两大核心:可靠的框架与高质量的数据。

HOP框架解决了可靠性的问题,而HopCorpus则致力于提升其能力的上限。当越来越多的行业专家、开发者加入共建,AI将有望摆脱「助手」的定位,真正进化为驱动千行百业变革的核心生产力。

AI下半场,将始于数据,成于工程。

相关推荐

可信AI:问题和应对
最后一公里不解决,大模型开闭源都一文不值
「可信AI」攻坚战:互联网大厂的「生死攸关」时刻
趣店公布最后一公里配送转型计划
AI视觉的“大一统”:从CV到多模态,从行业大模型到机器人,旷视如何布局?
工业AI最后一公里:数据和模型质量问题
工业数据的“最后一公里”怎么走?
伦理即服务:科技伦理与可信AI的下一个浪潮
全球自动驾驶最后一公里物流生态报告
天眼查与华为云发布全球首个商查大模型:“天眼妹”可信商业助理

网址: 高阶程序,让AI从技术可行到商业可信的最后一公里 http://www.xishuta.com/zhidaoview31420.html

所属分类:商业市场

推荐专业知识