作者|駱軼航
2024年,滿城盡帶AI Agent。上個月還說自己在做AI Copilot的人,這個月就說自己做的是Agent了。現在流行AI駭客馬拉松,一場下來,至少能看見幾十個所謂的“AI Agent”。
大語言模型爆發這一年,我們在“概念陷阱”裡鬼打牆,滿嘴跑火車,大侃各種新名詞:Agent、Copilot、RAG、Reasoning、Grounded、Alignment……說實話我有點煩了,嘴上不掛著這些詞,就不配搞AI麼?更重要的是,當人們討論一個名詞的時候,他們講的是一回事麼?
比如“AI Agent”:你做了一個自動寫文案的GPTs,說這是寫作Agent;我做了一個基於大語言模型的RPG遊戲角色模擬器,說它是遊戲開發Agent……這時候有人說:這些都是AI輔助工具,充其量也就是Copilot(副駕駛),你看斯坦福大學和Google搞的“斯坦福小鎮”,25個AI互相溝通和協作,那才是真正的AI Agent。究竟誰說的對?什麼才是AI Agent?這其實就是我們的現狀:當下討論一個AI概念,人們缺乏共識的定義作為前提,在認知從來沒“對齊”(align)過。
很多人拿“AI Agent”當成一個大語言模型時代的新名詞討論,殊不知“Agent”是一個骨灰級的人工智慧概念。我鉤沉了一下,“Agent”第一次作為人工智慧術語的出現,是1995年出版的經典人工智慧教科書《人工智慧:一種現代方法》(Artificial Intelligence: A Modern Approach)。這本書對人工智慧的定義是:“智慧代理的研究和設計”(study and design of intelligent agents)。這麼看,“Agent”被視作人工智慧發展的終極目標,至少也是快30年前的事了。它折射了人類發展人工智慧的初衷,即尋找人類的一切行為的“代理人”。
不少人還忽略了“Agent”其實也是人們耳熟能詳的經濟學和組織行為學的概念。現代經濟社會充斥著各種各樣的“Agent”,比如我們熟悉的公關代理公司(PR Agency)、旅行社(Travel Agency)等,它們具備一個機構代表一方行動和交易的意涵。人工智慧定義的“Agent”,意義與經濟學和組織行為學是接近的——即AI作為一個人或一個組織的代表,進行某種特定行為和交易,降低一個人或組織的工作複雜程度,減少工作量和溝通成本。
人工智慧真正具備成為“Agent”的能力,靠的是大語言模型。AI Agent 這個古老的概念在2023年的翻紅並不是個巧合。OpenAI 安全團隊負責人Lilian Weng的著名文章《LLM Powered Autonomous Agents》,被普遍視作是 OpenAI 對 “AI Agent” 的官方定義。該文將 Agent 定義為大語言模型(LLM)、記憶(Memory)、任務規劃(Planning Skills)和工具使用(Tool Use)的集合,其中 LLM 是核心的大腦,記憶、任務規劃和工具使用是 Agent 的三個核心元件。值得注意的是,該文強調 Agent 自主調取外部 API 的工具使用,自主對任務進行子目標分解,自主建立思維鏈(CoT)、以及自我批評和自我反饋的能力——它們都指向了文章標題的關鍵詞“autonomous”,即 Agent 的自動化。
人工智慧革命被普遍稱作是“第四次工業革命”,前三次分別依次是19世紀初的蒸汽機革命、19世紀末的電力革命、20世紀中葉的資訊科技革命。貫穿前三次人類工業革命的關鍵詞當屬“自動化”(automation)。蒸汽機和電力革命實現了圍繞工業生產的體力勞動的自動化,提高了生產效率。資訊科技革命在進一步提高工業生產自動化程度的同時,也可以代替人類進行一部分腦力勞動。作為第四次工業革命的人工智慧革命,一方面將工業生產的自動化進行得更加徹底(比如機器人和感測器遍佈的無人工廠),另一方面前所未有開啟了腦力勞動的自動化程序。而腦力勞動自動化的載體,就是 AI Agent。
從這個意義上,對什麼是 AI Agent 的爭論是有些無聊的。“斯坦福小鎮”是基於論文的先鋒實驗,將它作為評判一個 AI 應用是不是“Agent”的座標,無助 AI Agent 提高智力密集型工作的效率。我下一個暴論:AI Agent 本質上就是“automation of human action”(人類行為的自動化)。只要它不是在人類手把手要求下完成任務,就像在ChatGPT的對話方塊輸入prompt、啟動 Office 365的“副駕駛”(Copilot)完成每一項具體工作那樣,而是具備了一定程度的完成任務的自主性甚至是不完全可控性,它就是一個 AI Agent。
現在一個比較尷尬的局面是:可能你讀過不下20篇關於 AI Agent 的論文和公眾號推文,也沒真正上手過一個用得順手的Agent,這恐怕是 Agent 作為一個新物種註定經歷的階段。一直以來,人們經常提到 AI Agent 典範是接入了GPT能力的AutoGPT。不過現在,無論是在美國還是中國,已經有了一些更好用的 AI Agent 的雛形。可以趁機安利一下了。
第一個是 ChatGPT 新進推出的升級付費版——ChatGPT Team。它提供了在一個小型企業內部,用個人的 ChatGPT賬號實現協作的“私域空間”,ChatGPT Team 的使用者資料不會被用來反向訓練GPT模型,使用者還可以建立企業內部的 GPTs,讓這些 GPTs 互相協作。講真,我覺得 ChatGPT Team 比 GPT Store 更重要,也更實用。現在的 GPT Store 太亂了,大多數 GPTs 粗糙不堪 ,對話方塊指令什麼它幫你做什麼,而且基本不能呼叫 API 。但私密環境使用的 ChatGPT Team,GPTs 互相呼叫介面、彼此協作也順利成章多了。ChatGPT Team 是 ChatGPT 這個全世界有著最多使用者的超級 AI 平臺,走向 AI Agent 的第一步(畢竟ChatGPT已經有15萬企業客戶了)。
第二個是智譜 AI 的 GLM 模型智慧體(GLMs)。清華色彩強烈的智譜 AI 是中國最像 OpenAI 的公司,剛推出的 GLM-4 全面對標 GPT-4,在諸多評測基準上達到了GPT-4 85%以上。GLMs 是 GLM-4 的副產品,也是 GLM-4 模型能力的外溢。GLM-4 的“All Tools”支援 GLM-4 依據使用者的需求,自主決定用繪圖、搜尋、製作表格還是程式碼程式設計解決問題——這本身就具備了 AI Agent 的屬性。與 Open AI 只追求通用性不同,智譜 AI 針對金融、醫療和教育等垂直行業都有一系列定製部署服務,積累了一定的 to B 客戶基礎和行業 know-how,這讓智譜的客戶基於 GLM-4 部署 GLMs 智慧體變得更合理,也更容易些。
第三個是同屬清華背景的“面壁智慧”:面壁智慧是有自己的“斯坦福小鎮”的,它基於面壁智慧的 ChatDev 框架。但面壁智慧的“小鎮”不是一個虛擬社會,而是一個 AI 版的軟體公司。不同的 AI 智慧體被設計為程式設計師、產品經理、測試工程師和設計師等角色,它們可以彼此協作,還能站在自己的立場上互相博弈——就跟辦公室裡每天發生的事一樣。面壁智慧的ChatDev框架支援開發者搭建屬於自己的 AI Agent,把單體智慧和群體智慧結合起來,讓AI Agent 成為每一個員工都可以用起來的,可以“逃避”很多狗屎工作的辦公自動化工具。順便提一句,ChatDev框架的成形並不比“斯坦福小鎮”的論文釋出晚,它給人們最大的啟示在於原生 AI 應用開發的一個可能性—— AI Agent 實現 AI 應用開發的自動化。
第四、五個分別是釘釘和飛書的“智慧體”實踐。AI Agent 本質更接近產品而非技術,如果我們認為 AI Agent 是生產力工具,那就不能忽略在釘釘和飛書上已經存在的上億使用者,百萬政企組織,海量的文件、會議紀要、溝通記錄、多維表格和自建工具——這些工具讓釘釘的“智慧助理”和飛書的“智慧夥伴”,更容易化身成每一個使用它們的打工人的嘴替和腦替,能部分自主地完成一些事務性的狗屎工作,如工作總結、會議紀要、走報銷和出差流程、跟進一件事的反饋,甚至可能幫人代理扯皮和撕X。作為釘釘和飛書的雙料使用者,我必須說:現在的釘釘智慧助理和飛書智慧夥伴離“好用”還差得遠——這恐怕是通義大模型和雲雀大模型的鍋。但論場景豐富、資料真實、使用者數量,釘釘的“智慧助理”和飛書“智慧夥伴”更容易被真正“用起來”。Agent 也是在被用起來的過程中具備更好的理解能力的。一旦模型進步了,釘釘和飛書的 Agent 化就會往前走一大步。我再下一個暴論——釘釘和飛書會成為國內 AI Agent 重要的產品。
在“好用”和“好玩”之間,我堅信對 AI Agent 而言,“好用”比“好玩”重要。它首先是一個生產力工具。那些 AI 陪伴的紙片男女友也有理解能力和情緒價值,但它們可以被叫作“智慧體”或“智慧玩偶”,但不是“智慧代理”,因為它們不具備代理人類完成某項任務或使命的功能。所以 AI Agent 被翻譯成“智慧體”是不合適的,它就是“智慧代理”,“代理”是 AI Agent 的經濟學和組織行為學屬性,也是它推動腦力勞動自動化的本質。
在不久前結束的CES上,斯坦福大學著名人工智慧學者李飛飛提出了一個重要觀點:應該明確 AI Agent 取代的是人類的“任務”而不是“工作”。在達沃斯論壇上,OpenAI CEO Sam Altman 在面對“AI 讓人失業”這一老生常談的詰問時,表達了一個更直接的觀點:“AI 取代的是人們工作的方式,而不是工作本身”。
我非常同意李飛飛和 Sam Altman兩位老師的觀點,腦力勞動工作者的工作是由一個個具體的關鍵任務組成的,但這不是工作的全部。目標設定、創造性、資源獲取和分配、設定更高的目標、組織不同的任務、判斷力、說服力與表現力……我們的工作中有太多更有意義的元素了。把工作中流程、事務性和常規操作的“任務”交給 Agent,少寫幾行常規程式碼,少發幾封battle 郵件,少做一些機械操作的表格,少調幾次 PPT 格式,少複製貼上,少親自發起和審批一些常規的出差和報銷流程,我們的工作應該愉快得多,也有創意得多。
當然,AI Agent 的普及,也許會讓一些“白領工人”無所適從甚至失去工作,但它會極大限度地提升很多崗位——甚至包括基層崗位上面的聰明的人的創造性、格局感、整體感和生產力,在提高工作效率,創造更多生產力的同時,更重要的是減少工作時長。
“八小時工作制”在全球成為通用標準已經是差不多100年前的事了。人們之所以能每天只工作8個小時,是工人階級抗爭的結果,也是電力工業革命以來生產力大爆發的產物。在更高的生產效率面前,人們有底氣為自己爭取更少的工作時間、更高的工資和更多的學習、休閒、旅遊消費時間。但是,計算機革命以來,人類的生產效率又前所未有地提升了,為什麼人們的工作時長沒有進一步減少,反而在一些號稱是最高智力密集的科技和網際網路公司還增加了呢?還搞起了996呢?這裡面是不是一定出了什麼問題?
請允許我再來一個暴論:未來衡量一個 AI Agent 的智慧化程度如何,可以看它是不是能讓我們每天只工作四個小時。那些重複性的、流程化的、條件反射式的、經驗主義奏效的、強化學習可以理解的,甚至表演性的工作,交給 AI Agent ——它們可能是釘釘和飛書,可能是面壁智慧的工作坊,也可能是 GLM 和 GPT 上的企業版。反正“我只要結果”,因為我真的每天只想工作四個小時。
前不久我跟釘釘的總裁葉軍聊,我感覺到釘釘有一種想“洗心革面,重新做人”的緊迫感,特別想把自己從“小學生天敵”和“壓榨員工神器”的名聲裡擇(zhai)出來。於是它們搞了一個釘釘智慧助理。我問這玩意兒能讓我們每天只工作四個小時麼?他說:如果可能的話每天就工作一個小時吧。事後,我覺得葉老師還是有點兒上頭了。不過他說 AI Agent 能讓更多人成為自己的老闆,這個我倒是同意的。Agent 幫了你,你還會不會罵自己是傻X。
點選關注,洞察前沿科技發展↓