AI 智能体成了行业黑话

近一年,几乎每一位上网的人都在不知不觉中与人工智能打上了交道。它出现在搜索框里,出现在办公软件里,出现在客服窗口里,也出现在越来越多被冠以“智能”二字的产品介绍中。一个并不令人意外的现象是:尽管人们口中的“AI”频率越来越高,但真正能说清它今天发展到哪一步的人,反而越来越少。这并非公众的迟钝,而是因为这项技术本身正在经历一次深刻的转向。它不再只是一个能写文案、能答题的对话工具,而正在变成一种可以替人“做事”的系统。理解这个转向,是理解未来几年许多变化的起点。

上半场:AI 用几十年时间,学会了“答题”

从二十世纪后半叶到几年前,人工智能的故事大致可以概括成一句话:让机器在越来越多人类擅长的任务上,达到甚至超过人类。它在国际象棋上击败了卡斯帕罗夫,在围棋上击败了李世石,在标准化考试中超过了大多数考生,在编程比赛、数学奥赛中拿到了顶尖成绩。每一次进步背后,都对应着一项重要的方法创新:从最早的搜索算法,到深度学习,再到近年的大规模预训练和强化学习,技术路线在不断更替,能力的天花板也在不断被推高。

这个阶段的逻辑,套用一位长期研究智能体系统的研究者的总结,就是“方法决定一切”。换句话说,决定一项研究是否有影响力的,往往不是它解决了什么具体的题目,而是它提出了什么新的训练方式或模型结构。正因如此,像 Transformer、深度卷积网络、GPT 这样的工作才会被反复提起,它们提供的是可以迁移到无数任务上的通用工具,而不是某一项具体任务的破解之法。任务本身,则更像是衡量这些工具好坏的考场。

公众感知到的,主要是这场漫长比赛的结果:AI 越来越“聪明”,越来越“无所不能”。但有一件事,往往被宏大的宣传遮蔽了。那就是直到不久前,AI 在大多数现实场景中扮演的都还只是一个“答题者”,你给它一个明确定义的输入,它给你一个明确定义的输出。它能写邮件,但不会自己去发邮件;它能给出旅行建议,但不会自己去订机票;它能分析报表,但不会自己打开系统、跑完整套流程。它在试卷上很出色,在真实世界里则被牢牢限制在“被动应答”的角色里。

转折点:通用方法成型,强化学习开始“泛化”

变化发生在最近这几年。一个广为研究界讨论、却尚未被公众充分理解的现象是:强化学习,这项过去几十年里只在围棋、电子游戏、机械臂操作等少数场景中显示出威力的技术,开始具备真正广泛的适用性。它能在写代码、做数学、操作浏览器、撰写长文等差异极大的任务上同时奏效。这背后并非某一个突破,而是几条线汇合的结果。

第一条线,是大规模语言模型积累出的“常识基础”。当模型把人类社会海量的文本压缩进一个统一的概率体系,它便不再是一个对世界一无所知的白板。它知道城市与国家的关系,知道法律文书的大致结构,知道一段代码错在哪里,也知道在大多数语境下哪种回答更得体。第二条线,是研究者逐渐意识到,光有模型还不够,还要给它一个可以行动的“环境”,一个真实或仿真的浏览器、一个文件系统、一个企业数据库,让它能够把内部的判断转化为外部的动作。第三条线,是“推理”这件事本身被重新理解。过去的人工智能,将“想”和“做”视作两件事;如今的研究者越来越倾向于把推理看作一种特殊的“行动”:它不直接改变外部世界,却在系统内部为后续行为搭好框架,让有限的尝试能换来更接近人类思维方式的结果。

这三条线汇合之后,AI 第一次从“一个被动的答题者”,开始具备“主动完成任务”的潜力。一种新的物种因此进入公众视野,智能体(Agent)。

什么是“智能体”:一个会推理、会规划、会调用工具的系统

“智能体”这个词在中文语境中并不算陌生,但它在人工智能领域有相对专门的含义。简单地说,一个 AI 智能体是一种能够围绕目标自主完成任务的软件系统。它的“大脑”通常是一个大型语言模型,但它远不止是一个聊天窗口里的对话机器。它能够理解你交给它的目标,把目标拆解成具体步骤,调用各种外部工具去获取信息和执行动作,并在过程中不断根据反馈调整自己的计划。

把它和人们更熟悉的两类产品对比,差别就显得很清楚。一种是按规则运行的传统聊天机器人,比如银行 App 里那种只能回答固定问题的客服机器人。它没有真正的推理能力,更没有工具,遇到稍稍超出预设的问题就会卡住。另一种是 AI 助手,比如日常被广泛使用的写作助理。它有理解和生成能力,但通常仍然在“回答你的问题”这一层面工作,需要你一步步追问、一步步引导。智能体则在前两者之上多出了一些关键能力:它会规划、会记忆、会调用工具,并且具有一定的自主性。给它一个目标,它能围绕这个目标自己安排一连串动作,而不是被动等候每一次提示。

研究者通常会用几个组件来描述这种系统的内部结构:一个明确的“角色”定义,规定它应当如何说话、做事;一种“记忆”机制,让它能够回顾过去的交互、积累用户偏好;一组“工具”,让它可以调用浏览器、数据库、代码执行环境、邮件系统等;以及作为整体大脑的语言模型,负责理解、推理与决策。一个旅行规划智能体,可能会先调用航班接口、再调用酒店接口、再去查询当地天气,把这些信息综合起来形成一份方案;一个编程智能体,则可能在阅读代码后自行运行测试、定位错误、修改代码、再次运行,直到任务完成。

业界对这类系统的能力分级也有一种常见的描述:最初级的是按固定规则触发动作的反射式系统,例如定时打开的暖气;再往上是带有简单内部模型的系统,例如能记住房间布局的扫地机器人;更进一步,是有明确目标并能搜索多种方案的系统,例如导航软件;再上一层,是能在多种方案中权衡得失的“效用驱动”系统;最高级的,则是能够从经验中学习、不断改善自己表现的“学习型”系统。今天讨论得最热的智能体,大多正在向最高那一层逼近。

为什么需要“多智能体系统”:让分工出现在 AI 之间

随着任务越来越复杂,研究者很快意识到,让一个智能体独立完成所有事情,并不是最优的方式。一个被要求同时精通法律、医学、编程、写作的“万能助手”,往往在每一项上都不如一个专精的助手做得好。这正是“多智能体系统”兴起的原因。它的基本想法很朴素:把一个复杂任务交给一组各有专长的智能体,让它们之间相互协作、相互校对,再由一个负责调度的“监督者”串起整体流程。

具体的协作方式有许多种。比较直接的一种,是让多个智能体共享同一个工作记录板,彼此都能看到其他人写下了什么、做了什么,这种方式适合需要高度协同、互相监督的任务。另一种则更像现实中的项目团队:每个智能体在各自的工作空间内独立运转,只把最终结果汇总到一个共同的位置,由一个“监督智能体”负责把任务分派给最合适的成员。还有一种更接近大型组织的结构:每个所谓的“智能体”其实本身就是一个由若干智能体组成的小团队,整体系统呈现出层级化的形态,自上而下地把复杂目标一层层分解下去。

之所以要这样设计,原因并不复杂。专门负责一类任务的智能体往往比全能型表现更稳定;不同的智能体可以使用不同的提示、甚至不同的模型,从而在各自擅长的领域发挥所长;当某一环出现问题时,研究者也更容易把它单独定位、单独改进,而不必触动整个系统。一个相对成熟的应用例子,是某些团队搭建的“自动化报纸”系统:一个智能体负责筛选新闻,一个负责写作,一个负责批评和审稿,一个负责设计版面,最后由一个总编智能体把所有部分拼装起来。这种以智能体为单位的分工,让人们看到了一种与过去几十年都不同的软件构造方式。

下半场:从“会解题”到“会做有用的事”

把视角拉远,过去几十年人工智能的发展,可以理解为一场围绕“答题能力”的竞赛。各种基准测试、考试和棋类比赛,是评估这种能力的考场。如今,AI 已经在大多数考场上拿到了优异成绩。但问题随之浮现:考试上的胜利并没有自动转化为现实生产力上的飞跃。研究者把这种现象称作“效用问题”,智能本身在快速增长,但社会从中获得的实际价值并没有同步增长。

业内的一种普遍判断是:人工智能的“上半场”已经接近尾声,“下半场”刚刚开始。上半场的关键词是“方法”,谁发明了更强的训练算法、更大的模型,谁就掌握了主导权。下半场的关键词,则更可能是“评价”和“定义任务”,我们到底应该让 AI 做什么?我们用什么标准衡量它做得好不好?这些问题听起来朴素,却比想象中难得多。现实世界中的许多任务并不像考卷那样有标准答案;许多有价值的工作要求长期的连续行动,而不是一次性的输入输出;许多场景需要 AI 与人、与系统持续互动,而不是关在一个孤岛中独立运转。

这意味着,未来几年决定人工智能价值的,可能不再仅仅是模型本身有多“聪明”,还包括它被部署在什么样的环境里、与哪些工具相连、由哪些智能体协同完成任务、如何融入既有的工作流程,以及人类如何监管、如何在必要时介入。换句话说,这个领域开始越来越像一项产品工程,而不仅仅是一项纯粹的算法研究。

给普通人的几句话

对于不在这个行业工作的人来说,了解上面这些演变并不需要变成专家。但有几件事或许值得记在心里。

人工智能正在从“一个能聊天的工具”,悄悄变成“一个能完成事情的系统”。当你下一次看到“智能体”“Agent”“自动化助手”这些词时,可以试着问一句:它能调用什么工具?它有没有记忆?它的目标是谁设定的?谁能在它出错时叫停它?这些朴素的问题,往往比厂商的宣传语更能帮助你判断产品的真实能力。

与此同时,这项技术的优势与隐患并存。它能成倍提升一些工作的效率,也能在被滥用时放大风险,例如自动调用接口造成连锁错误、记忆中沉淀了不该保留的隐私、在多智能体协作中出现难以追责的失误。业内已经在讨论一些通行的最佳实践,比如要求系统提供完整的行为日志、允许人类随时中断、为关键决策保留人工确认环节。这些原则本身并不复杂,却是判断一项 AI 应用是否值得信任的重要参考。

人工智能的故事远未到终章。通用人工智能何时到来,超级人工智能是否会出现,依然是研究者们争论不休的问题。但有一点已经相对清晰:在可以预见的未来里,AI 将不再只是一个被动的答题者,而会作为一种能够主动行动的存在,越来越深地嵌入到每个人的生活、工作和社会运转之中。在这一过程中,理解它的边界、明白它的局限、也清楚自己想从它那里得到什么,恐怕比任何一项具体技术参数都来得重要。