AI 智能体成了行业黑话

近一年，几乎每一位上网的人都在不知不觉中与人工智能打上了交道。它出现在搜索框里，出现在办公软件里，出现在客服窗口里，也出现在越来越多被冠以“智能”二字的产品介绍中。一个并不令人意外的现象是：尽管人们口中的“AI”频率越来越高，但真正能说清它今天发展到哪一步的人，反而越来越少。这并非公众的迟钝，而是因为这项技术本身正在经历一次深刻的转向。它不再只是一个能写文案、能答题的对话工具，而正在变成一种可以替人“做事”的系统。理解这个转向，是理解未来几年许多变化的起点。

上半场：AI 用几十年时间，学会了“答题”

从二十世纪后半叶到几年前，人工智能的故事大致可以概括成一句话：让机器在越来越多人类擅长的任务上，达到甚至超过人类。它在国际象棋上击败了卡斯帕罗夫，在围棋上击败了李世石，在标准化考试中超过了大多数考生，在编程比赛、数学奥赛中拿到了顶尖成绩。每一次进步背后，都对应着一项重要的方法创新：从最早的搜索算法，到深度学习，再到近年的大规模预训练和强化学习，技术路线在不断更替，能力的天花板也在不断被推高。

这个阶段的逻辑，套用一位长期研究智能体系统的研究者的总结，就是“方法决定一切”。换句话说，决定一项研究是否有影响力的，往往不是它解决了什么具体的题目，而是它提出了什么新的训练方式或模型结构。正因如此，像 Transformer、深度卷积网络、GPT 这样的工作才会被反复提起，它们提供的是可以迁移到无数任务上的通用工具，而不是某一项具体任务的破解之法。任务本身，则更像是衡量这些工具好坏的考场。

公众感知到的，主要是这场漫长比赛的结果：AI 越来越“聪明”，越来越“无所不能”。但有一件事，往往被宏大的宣传遮蔽了。那就是直到不久前，AI 在大多数现实场景中扮演的都还只是一个“答题者”，你给它一个明确定义的输入，它给你一个明确定义的输出。它能写邮件，但不会自己去发邮件；它能给出旅行建议，但不会自己去订机票；它能分析报表，但不会自己打开系统、跑完整套流程。它在试卷上很出色，在真实世界里则被牢牢限制在“被动应答”的角色里。

转折点：通用方法成型，强化学习开始“泛化”

变化发生在最近这几年。一个广为研究界讨论、却尚未被公众充分理解的现象是：强化学习，这项过去几十年里只在围棋、电子游戏、机械臂操作等少数场景中显示出威力的技术，开始具备真正广泛的适用性。它能在写代码、做数学、操作浏览器、撰写长文等差异极大的任务上同时奏效。这背后并非某一个突破，而是几条线汇合的结果。

第一条线，是大规模语言模型积累出的“常识基础”。当模型把人类社会海量的文本压缩进一个统一的概率体系，它便不再是一个对世界一无所知的白板。它知道城市与国家的关系，知道法律文书的大致结构，知道一段代码错在哪里，也知道在大多数语境下哪种回答更得体。第二条线，是研究者逐渐意识到，光有模型还不够，还要给它一个可以行动的“环境”，一个真实或仿真的浏览器、一个文件系统、一个企业数据库，让它能够把内部的判断转化为外部的动作。第三条线，是“推理”这件事本身被重新理解。过去的人工智能，将“想”和“做”视作两件事；如今的研究者越来越倾向于把推理看作一种特殊的“行动”：它不直接改变外部世界，却在系统内部为后续行为搭好框架，让有限的尝试能换来更接近人类思维方式的结果。

这三条线汇合之后，AI 第一次从“一个被动的答题者”，开始具备“主动完成任务”的潜力。一种新的物种因此进入公众视野，智能体（Agent）。

什么是“智能体”：一个会推理、会规划、会调用工具的系统

“智能体”这个词在中文语境中并不算陌生，但它在人工智能领域有相对专门的含义。简单地说，一个 AI 智能体是一种能够围绕目标自主完成任务的软件系统。它的“大脑”通常是一个大型语言模型，但它远不止是一个聊天窗口里的对话机器。它能够理解你交给它的目标，把目标拆解成具体步骤，调用各种外部工具去获取信息和执行动作，并在过程中不断根据反馈调整自己的计划。

把它和人们更熟悉的两类产品对比，差别就显得很清楚。一种是按规则运行的传统聊天机器人，比如银行 App 里那种只能回答固定问题的客服机器人。它没有真正的推理能力，更没有工具，遇到稍稍超出预设的问题就会卡住。另一种是 AI 助手，比如日常被广泛使用的写作助理。它有理解和生成能力，但通常仍然在“回答你的问题”这一层面工作，需要你一步步追问、一步步引导。智能体则在前两者之上多出了一些关键能力：它会规划、会记忆、会调用工具，并且具有一定的自主性。给它一个目标，它能围绕这个目标自己安排一连串动作，而不是被动等候每一次提示。

研究者通常会用几个组件来描述这种系统的内部结构：一个明确的“角色”定义，规定它应当如何说话、做事；一种“记忆”机制，让它能够回顾过去的交互、积累用户偏好；一组“工具”，让它可以调用浏览器、数据库、代码执行环境、邮件系统等；以及作为整体大脑的语言模型，负责理解、推理与决策。一个旅行规划智能体，可能会先调用航班接口、再调用酒店接口、再去查询当地天气，把这些信息综合起来形成一份方案；一个编程智能体，则可能在阅读代码后自行运行测试、定位错误、修改代码、再次运行，直到任务完成。

业界对这类系统的能力分级也有一种常见的描述：最初级的是按固定规则触发动作的反射式系统，例如定时打开的暖气；再往上是带有简单内部模型的系统，例如能记住房间布局的扫地机器人；更进一步，是有明确目标并能搜索多种方案的系统，例如导航软件；再上一层，是能在多种方案中权衡得失的“效用驱动”系统；最高级的，则是能够从经验中学习、不断改善自己表现的“学习型”系统。今天讨论得最热的智能体，大多正在向最高那一层逼近。

为什么需要“多智能体系统”：让分工出现在 AI 之间

随着任务越来越复杂，研究者很快意识到，让一个智能体独立完成所有事情，并不是最优的方式。一个被要求同时精通法律、医学、编程、写作的“万能助手”，往往在每一项上都不如一个专精的助手做得好。这正是“多智能体系统”兴起的原因。它的基本想法很朴素：把一个复杂任务交给一组各有专长的智能体，让它们之间相互协作、相互校对，再由一个负责调度的“监督者”串起整体流程。

具体的协作方式有许多种。比较直接的一种，是让多个智能体共享同一个工作记录板，彼此都能看到其他人写下了什么、做了什么，这种方式适合需要高度协同、互相监督的任务。另一种则更像现实中的项目团队：每个智能体在各自的工作空间内独立运转，只把最终结果汇总到一个共同的位置，由一个“监督智能体”负责把任务分派给最合适的成员。还有一种更接近大型组织的结构：每个所谓的“智能体”其实本身就是一个由若干智能体组成的小团队，整体系统呈现出层级化的形态，自上而下地把复杂目标一层层分解下去。

之所以要这样设计，原因并不复杂。专门负责一类任务的智能体往往比全能型表现更稳定；不同的智能体可以使用不同的提示、甚至不同的模型，从而在各自擅长的领域发挥所长；当某一环出现问题时，研究者也更容易把它单独定位、单独改进，而不必触动整个系统。一个相对成熟的应用例子，是某些团队搭建的“自动化报纸”系统：一个智能体负责筛选新闻，一个负责写作，一个负责批评和审稿，一个负责设计版面，最后由一个总编智能体把所有部分拼装起来。这种以智能体为单位的分工，让人们看到了一种与过去几十年都不同的软件构造方式。

下半场：从“会解题”到“会做有用的事”

把视角拉远，过去几十年人工智能的发展，可以理解为一场围绕“答题能力”的竞赛。各种基准测试、考试和棋类比赛，是评估这种能力的考场。如今，AI 已经在大多数考场上拿到了优异成绩。但问题随之浮现：考试上的胜利并没有自动转化为现实生产力上的飞跃。研究者把这种现象称作“效用问题”，智能本身在快速增长，但社会从中获得的实际价值并没有同步增长。

业内的一种普遍判断是：人工智能的“上半场”已经接近尾声，“下半场”刚刚开始。上半场的关键词是“方法”，谁发明了更强的训练算法、更大的模型，谁就掌握了主导权。下半场的关键词，则更可能是“评价”和“定义任务”，我们到底应该让 AI 做什么？我们用什么标准衡量它做得好不好？这些问题听起来朴素，却比想象中难得多。现实世界中的许多任务并不像考卷那样有标准答案；许多有价值的工作要求长期的连续行动，而不是一次性的输入输出；许多场景需要 AI 与人、与系统持续互动，而不是关在一个孤岛中独立运转。

这意味着，未来几年决定人工智能价值的，可能不再仅仅是模型本身有多“聪明”，还包括它被部署在什么样的环境里、与哪些工具相连、由哪些智能体协同完成任务、如何融入既有的工作流程，以及人类如何监管、如何在必要时介入。换句话说，这个领域开始越来越像一项产品工程，而不仅仅是一项纯粹的算法研究。

给普通人的几句话

对于不在这个行业工作的人来说，了解上面这些演变并不需要变成专家。但有几件事或许值得记在心里。

人工智能正在从“一个能聊天的工具”，悄悄变成“一个能完成事情的系统”。当你下一次看到“智能体”“Agent”“自动化助手”这些词时，可以试着问一句：它能调用什么工具？它有没有记忆？它的目标是谁设定的？谁能在它出错时叫停它？这些朴素的问题，往往比厂商的宣传语更能帮助你判断产品的真实能力。

与此同时，这项技术的优势与隐患并存。它能成倍提升一些工作的效率，也能在被滥用时放大风险，例如自动调用接口造成连锁错误、记忆中沉淀了不该保留的隐私、在多智能体协作中出现难以追责的失误。业内已经在讨论一些通行的最佳实践，比如要求系统提供完整的行为日志、允许人类随时中断、为关键决策保留人工确认环节。这些原则本身并不复杂，却是判断一项 AI 应用是否值得信任的重要参考。

人工智能的故事远未到终章。通用人工智能何时到来，超级人工智能是否会出现，依然是研究者们争论不休的问题。但有一点已经相对清晰：在可以预见的未来里，AI 将不再只是一个被动的答题者，而会作为一种能够主动行动的存在，越来越深地嵌入到每个人的生活、工作和社会运转之中。在这一过程中，理解它的边界、明白它的局限、也清楚自己想从它那里得到什么，恐怕比任何一项具体技术参数都来得重要。