AI 智能體成了行業黑話

近一年來，幾乎每一位上網的人都在不知不覺中與人工智慧打上了交道。它出現在搜尋框裡，出現在辦公軟體裡，出現在客服視窗裡，也出現在愈來愈多被冠以「智慧」二字的產品介紹中。一個並不令人意外的現象是：儘管人們口中的「AI」頻率愈來愈高，但真正能說清它今天發展到哪一步的人，反而愈來愈少。這並非公眾的遲鈍，而是因為這項技術本身正在經歷一次深刻的轉向。它不再只是一個能寫文案、能答題的對話工具，而正在變成一種可以替人「做事」的系統。理解這個轉向，是理解未來幾年諸多變化的起點。

上半場：AI 用幾十年時間，學會了「答題」

從二十世紀後半葉到幾年前，人工智慧的故事大致可以概括成一句話：讓機器在愈來愈多人類擅長的任務上，達到甚至超越人類。它在西洋棋上擊敗了卡斯帕洛夫，在圍棋上擊敗了李世乭，在標準化考試中超過了大多數考生，在程式設計比賽、數學奧賽中拿到了頂尖成績。每一次進步背後，都對應著一項重要的方法創新：從最早的搜尋演算法，到深度學習，再到近年的大規模預訓練和強化學習，技術路線在不斷更替，能力的天花板也在不斷被推高。

這個階段的邏輯，套用一位長期研究智能體系統的研究者的總結，就是「方法決定一切」。換言之，決定一項研究是否有影響力的，往往不是它解決了什麼具體的題目，而是它提出了什麼新的訓練方式或模型結構。正因如此，像 Transformer、深度卷積網路、GPT 這樣的工作才會被反覆提起，它們提供的是可以遷移到無數任務上的通用工具，而不是某一項具體任務的破解之法。任務本身，則更像是衡量這些工具好壞的考場。

公眾感知到的，主要是這場漫長比賽的結果：AI 愈來愈「聰明」，愈來愈「無所不能」。但有一件事，往往被宏大的宣傳遮蔽了。那就是直到不久之前，AI 在大多數現實場景中扮演的都還只是一個「答題者」，你給它一個明確定義的輸入，它給你一個明確定義的輸出。它能寫郵件，但不會自己去寄郵件；它能給出旅行建議，但不會自己去訂機票；它能分析報表，但不會自己打開系統、跑完整套流程。它在試卷上很出色，在真實世界裡則被牢牢限制在「被動應答」的角色裡。

轉折點：通用方法成型，強化學習開始「泛化」

變化發生在最近這幾年。一個廣為研究界討論、卻尚未被公眾充分理解的現象是：強化學習，這項過去幾十年裡只在圍棋、電子遊戲、機械手臂操作等少數場景中顯示出威力的技術，開始具備真正廣泛的適用性。它能在寫程式、做數學、操作瀏覽器、撰寫長文等差異極大的任務上同時奏效。這背後並非某一個突破，而是幾條線匯合的結果。

第一條線，是大規模語言模型累積出的「常識基礎」。當模型把人類社會海量的文本壓縮進一個統一的機率體系，它便不再是一個對世界一無所知的白板。它知道城市與國家的關係，知道法律文書的大致結構，知道一段程式錯在哪裡，也知道在大多數語境下哪種回答更得體。第二條線，是研究者逐漸意識到，光有模型還不夠，還要給它一個可以行動的「環境」，一個真實或模擬的瀏覽器、一個檔案系統、一個企業資料庫，讓它能夠把內部的判斷轉化為外部的動作。第三條線，是「推理」這件事本身被重新理解。過去的人工智慧，將「想」和「做」視作兩件事；如今的研究者愈來愈傾向於把推理看作一種特殊的「行動」：它不直接改變外部世界，卻在系統內部為後續行為搭好框架，讓有限的嘗試能換來更接近人類思維方式的結果。

這三條線匯合之後，AI 第一次從「一個被動的答題者」，開始具備「主動完成任務」的潛力。一種新的物種因此進入公眾視野，智能體（Agent）。

什麼是「智能體」：一個會推理、會規劃、會調用工具的系統

「智能體」這個詞在中文語境中並不算陌生，但它在人工智慧領域有相對專門的含義。簡單地說，一個 AI 智能體是一種能夠圍繞目標自主完成任務的軟體系統。它的「大腦」通常是一個大型語言模型，但它遠不止是一個聊天視窗裡的對話機器。它能夠理解你交給它的目標，把目標拆解成具體步驟，調用各種外部工具去取得資訊和執行動作，並在過程中不斷根據回饋調整自己的計畫。

把它和人們更熟悉的兩類產品對比，差別就顯得很清楚。一種是按規則運行的傳統聊天機器人，例如銀行 App 裡那種只能回答固定問題的客服機器人。它沒有真正的推理能力，更沒有工具，遇到稍稍超出預設的問題就會卡住。另一種是 AI 助理，例如日常被廣泛使用的寫作助手。它有理解和生成能力，但通常仍然在「回答你的問題」這一層面工作，需要你一步步追問、一步步引導。智能體則在前兩者之上多出了一些關鍵能力：它會規劃、會記憶、會調用工具，並且具有一定的自主性。給它一個目標，它能圍繞這個目標自己安排一連串動作，而不是被動等候每一次提示。

研究者通常會用幾個元件來描述這種系統的內部結構：一個明確的「角色」定義，規定它應當如何說話、做事；一種「記憶」機制，讓它能夠回顧過去的互動、累積使用者偏好；一組「工具」，讓它可以調用瀏覽器、資料庫、程式執行環境、郵件系統等；以及作為整體大腦的語言模型，負責理解、推理與決策。一個旅行規劃智能體，可能會先呼叫航班介面、再呼叫酒店介面、再去查詢當地天氣，把這些資訊綜合起來形成一份方案；一個程式設計智能體，則可能在閱讀程式碼後自行執行測試、定位錯誤、修改程式、再次執行，直到任務完成。

業界對這類系統的能力分級也有一種常見的描述：最初級的是按固定規則觸發動作的反射式系統，例如定時開啟的暖氣；再往上是帶有簡單內部模型的系統，例如能記住房間布局的掃地機器人；更進一步，是有明確目標並能搜尋多種方案的系統，例如導航軟體；再上一層，是能在多種方案中權衡得失的「效用驅動」系統；最高級的，則是能夠從經驗中學習、不斷改善自己表現的「學習型」系統。今天討論得最熱的智能體，大多正在向最高那一層逼近。

為什麼需要「多智能體系統」：讓分工出現在 AI 之間

隨著任務愈來愈複雜，研究者很快意識到，讓一個智能體獨立完成所有事情，並不是最優的方式。一個被要求同時精通法律、醫學、程式設計、寫作的「萬能助手」，往往在每一項上都不如一個專精的助手做得好。這正是「多智能體系統」興起的原因。它的基本想法很樸素：把一個複雜任務交給一組各有專長的智能體，讓它們之間相互協作、相互校對，再由一個負責調度的「監督者」串起整體流程。

具體的協作方式有許多種。比較直接的一種，是讓多個智能體共享同一個工作記錄板，彼此都能看到其他人寫下了什麼、做了什麼，這種方式適合需要高度協同、互相監督的任務。另一種則更像現實中的專案團隊：每個智能體在各自的工作空間內獨立運轉，只把最終結果彙總到一個共同的位置，由一個「監督智能體」負責把任務分派給最合適的成員。還有一種更接近大型組織的結構：每個所謂的「智能體」其實本身就是一個由若干智能體組成的小團隊，整體系統呈現出層級化的形態，自上而下地把複雜目標一層層分解下去。

之所以要這樣設計，原因並不複雜。專門負責一類任務的智能體往往比全能型表現更穩定；不同的智能體可以使用不同的提示、甚至不同的模型，從而在各自擅長的領域發揮所長；當某一環出現問題時，研究者也更容易把它單獨定位、單獨改進，而不必觸動整個系統。一個相對成熟的應用例子，是某些團隊搭建的「自動化報紙」系統：一個智能體負責篩選新聞，一個負責寫作，一個負責批評和審稿，一個負責設計版面，最後由一個總編智能體把所有部分拼裝起來。這種以智能體為單位的分工，讓人們看到了一種與過去幾十年都不同的軟體建構方式。

下半場：從「會解題」到「會做有用的事」

把視角拉遠，過去幾十年人工智慧的發展，可以理解為一場圍繞「答題能力」的競賽。各種基準測試、考試和棋類比賽，是評估這種能力的考場。如今，AI 已經在大多數考場上拿到了優異成績。但問題隨之浮現：考試上的勝利並沒有自動轉化為現實生產力上的飛躍。研究者把這種現象稱作「效用問題」，智慧本身在快速增長，但社會從中獲得的實際價值並沒有同步增長。

業內的一種普遍判斷是：人工智慧的「上半場」已經接近尾聲，「下半場」剛剛開始。上半場的關鍵詞是「方法」，誰發明了更強的訓練演算法、更大的模型，誰就掌握了主導權。下半場的關鍵詞，則更可能是「評價」和「定義任務」，我們到底應該讓 AI 做什麼？我們用什麼標準衡量它做得好不好？這些問題聽起來樸素，卻比想像中難得多。現實世界中的許多任務並不像考卷那樣有標準答案；許多有價值的工作要求長期的連續行動，而不是一次性的輸入輸出；許多場景需要 AI 與人、與系統持續互動，而不是關在一個孤島中獨立運轉。

這意味著，未來幾年決定人工智慧價值的，可能不再僅僅是模型本身有多「聰明」，還包括它被部署在什麼樣的環境裡、與哪些工具相連、由哪些智能體協同完成任務、如何融入既有的工作流程，以及人類如何監管、如何在必要時介入。換言之，這個領域開始愈來愈像一項產品工程，而不僅僅是一項純粹的演算法研究。

給普通人的幾句話

對於不在這個行業工作的人來說，了解上面這些演變並不需要變成專家。但有幾件事或許值得記在心裡。

人工智慧正在從「一個能聊天的工具」，悄悄變成「一個能完成事情的系統」。當你下一次看到「智能體」「Agent」「自動化助手」這些詞時，可以試著問一句：它能調用什麼工具？它有沒有記憶？它的目標是誰設定的？誰能在它出錯時叫停它？這些樸素的問題，往往比廠商的宣傳語更能幫助你判斷產品的真實能力。

與此同時，這項技術的優勢與隱患並存。它能成倍提升一些工作的效率，也能在被濫用時放大風險，例如自動調用介面造成連鎖錯誤、記憶中沉澱了不該保留的隱私、在多智能體協作中出現難以追責的失誤。業內已經在討論一些通行的最佳實踐，比如要求系統提供完整的行為日誌、允許人類隨時中斷、為關鍵決策保留人工確認環節。這些原則本身並不複雜，卻是判斷一項 AI 應用是否值得信任的重要參考。

人工智慧的故事遠未到終章。通用人工智慧何時到來，超級人工智慧是否會出現，依然是研究者們爭論不休的問題。但有一點已經相對清晰：在可以預見的未來裡，AI 將不再只是一個被動的答題者，而會作為一種能夠主動行動的存在，愈來愈深地嵌入到每個人的生活、工作和社會運轉之中。在這一過程中，理解它的邊界、明白它的局限、也清楚自己想從它那裡得到什麼，恐怕比任何一項具體技術參數都來得重要。