該研究解決了現有手機智慧體基準測試的侷限性,為手機操控智慧體的研究與評估提供標準。
隨著智慧手機成為人們日常生活中不可或缺的工具,手機操控智慧體(smartphone control agent)的研究逐漸成為大模型領域的重要方向。透過自然語言指令,這些智慧體能夠高效地完成複雜任務,從簡單的應用開啟到多步驟的跨應用操作,甚至包括多語言支援。然而,如何全面、精確地評估這些智慧體的能力卻始終是一個沒有解決的關鍵問題。
近日,諾亞方舟實驗室與哈爾濱工業大學(深圳)聯合提出了一個全新的評估框架——SPA-Bench(SmartPhone Agent Benchmark)。這一框架旨在解決現有手機智慧體基準測試的侷限性,透過覆蓋 340 個任務、支援中英雙語和第三方應用操作,以及提供自動化評估流程和多維度指標,重新定義了手機操控智慧體的研究與評估標準。
論文地址:arXiv:2410.15164
1
為什麼需要SPA-Bench?
現有基準測試的侷限性
任務範圍的不足
當前的手機智慧體評估框架往往聚焦於系統應用的任務,例如檔案管理或日曆中的簡單操作。這些任務對智慧體的適應能力測試非常有限,尤其是在多語言場景或動態 UI 環境中,其評估能力明顯不足。並且,由於使用者需求的多樣化,很多跨應用的複雜操作(如從社交平臺匯出資料至筆記應用)尚未得到廣泛覆蓋。與此同時,雖然英語任務在現有基準中佔據主導地位,但全球使用者的需求顯然不止於此。尤其在中文等語言場景中,UI 設計、文字結構和任務邏輯的獨特性對智慧體提出了更高要求。然而,現有框架所涵蓋的任務缺乏對此類任務的全面支援。
手機智慧體種類的限制
目前大多數基準測試中涉及的智慧體種類較為單一,通常不超過五種,有些研究甚至僅包含同一智慧體的不同變種。這種限制使得研究者難以全面瞭解當前先進智慧體技術的整體表現,也難以對不同模型架構的優劣進行深入對比。這不僅降低了基準測試的適用範圍,也可能導致研究結論缺乏全面性,難以為智慧體技術的發展提供更廣泛的參考依據。
驗證機制的侷限性
大多數現有框架依賴人工設定的固定規則驗證任務完成情況。例如,透過檢測 UI 元素的狀態來判斷操作是否成功。這種方法缺乏靈活性,當 UI 設計或應用功能發生更新時,這些規則往往需要重新設計,導致實際評估效率降低。
SPA-Bench與其他手機Agent Benchmark的對比
2
SPA-Bench的核心設計
SPA-Bench整體框架圖
SPA-Bench 旨在提供一個全面、靈活且貼近實際使用場景的評估框架,透過以下三個方面解決當前基準測試的痛點:
任務設計:覆蓋真實場景
SPA-Bench 提供了一個多樣化任務集,涵蓋了 340 個任務,分為單應用任務和跨應用任務兩大類。
單應用任務根據複雜性被分為三個等級:
一級任務:基礎且簡單的活動,通常涉及少於五個操作步驟。
二級任務:引入了更復雜的需求,例如處理複雜的 UI 元素或動畫,通常需要少於十個操作步驟。
三級任務:最複雜的任務,可能涉及多達十五個操作步驟,要求智慧體處理更多步驟和邏輯依賴。
單應用任務成組出線,每個任務組內含有一、二、三級任務,任務設計相似,但透過使用不同的實體(如建立具有不同名稱的資料夾)避免智慧體受到早期任務的影響,確保評估的獨立性和全面性。
跨應用任務基於涉及的應用數量進行難度劃分:
一級任務:在兩個應用之間切換完成操作。
二級任務:需要在三個應用之間進行復雜的互動,涉及更多步驟以及跨應用間的依賴與協調。
這些任務涵蓋了多種型別,包括通用工具、資訊管理、網路購物、媒體娛樂、社交分享和多應用協作等。跨應用任務的設計借鑑了 GUI Odyssey 的分類方法,並透過任務數量和操作複雜性進一步細化。
這些任務不僅涵蓋了 58 個常用第三方應用,還支援中英雙語,使得任務設計更加貼近真實世界的使用者需求。
智慧體框架:高度靈活的整合
SPA-Bench 的框架設計允許研究者快速整合現有的智慧體模型,並支援對不同模型進行橫向對比。
模組化設計框架採用模組化架構,包括任務模擬器、驗證流程和資源監控模組。任務模擬器可以快速恢復任務的初始環境,例如應用的登入狀態、使用者設定等,從而確保實驗環境的一致性。
多智慧體支援研究團隊在 SPA-Bench 中已經集成了 11 種現有手機智慧體。七種基於閉源專有模型的智慧體:AppAgent、AutoDroid、MobileAgent、MobileAgentV2、M3A、T3A、SeeAct;和四種基於開源模型的智慧體:Auto-UI、CogAgent、DigiRL、OdysseyAgent。
快速擴充套件研究者可以透過 SPA-Bench 快速測試新智慧體,只需要做一些簡單的修改即可整合。
自動化流程:高效的任務驗證
SPA-Bench 提供了一套全面自動化的任務驗證流程,透過針對單應用任務和跨應用任務的不同設計,實現高效且精準的評估。此外,框架引入了七個關鍵指標,用於全面衡量智慧體的表現,從完成任務的準確性到執行效率和資源消耗,為智慧體的效能評價提供了多維度支援。
在評估任務完成情況時,成功訊號是核心指標,用於判斷智慧體是否成功完成任務。結合操作和狀態資訊,這一指標能夠適應多種有效路徑,避免固定邏輯的侷限性。步驟比衡量智慧體的執行效率,透過對比智慧體執行步驟與人工預定義的“黃金步驟”,揭示冗餘操作的存在情況。終止原因進一步記錄任務的結束方式,包括智慧體主動終止、達到步驟限制或發生錯誤,同時還透過過早終止訊號與超時終止訊號捕捉智慧體在判斷任務是否完成中的邏輯偏差,反映其準確性與效率問題。此外,SPA-Bench 還從資源消耗的角度,透過執行時間和API 成本兩個指標評估智慧體的時間與經濟開銷,特別針對依賴大模型 API 的智慧體進行直觀的成本分析。
成功訊號的設計在單應用任務和跨應用任務中採用了兩種不同的流程,以適應任務場景的複雜性。在單應用任務中,驗證流程以粗到細的檢測方式為主。首先,透過關鍵 UI 元素的狀態匹配實現初步篩選;隨後引入大模型評估器(MLLM Evaluator),對關鍵步驟進行語義層面的深度檢測,從而判斷任務是否完成。這種方法兼顧了評估的精確性與成本效率,在英文和中文任務上的 F1 分數分別達到 0.926 和 0.884,展現了出色的可靠性。
對於跨應用任務,驗證流程因涉及多個應用間的互動而更為複雜。SPA-Bench 採用了一種基於子任務分解的驗證方法,首先透過大模型將任務軌跡根據應用來分割為多個子任務,並逐一進行驗證。每個子任務的結果相互依賴,若任一子任務失敗,後續驗證即告終止。實驗結果表明,該流程在複雜任務場景下的表現與人工評估高度一致,F1 分數達到 0.845,為跨應用任務的評估提供了強有力的支援。
3
實驗結果與分析
任務成功率概覽
實驗結果顯示,不同智慧體在任務成功率上的表現差異顯著。M3A 是整體表現最優的智慧體,在所有任務組中均取得了最高的成功率。總體來看,智慧體在單應用任務中的成功率高於跨應用任務,而在語言方面,英文任務的成功率也顯著優於中文任務。此外,採用基於專有模型(GPT-4o)的智慧體,其表現明顯優於基於開源模型的智慧體。
單應用任務
在單應用英文任務中,M3A、T3A 和 MobileAgentV2 表現最佳,成功率從 0.640 到 0.433 不等。這些智慧體配備了反思模組,有效減少了任務執行中的停滯現象。相比之下,AppAgent 和 AutoDroid 的表現較差,但如果它們能夠訪問外部知識庫,其表現可能會有所提升。
在單應用中文任務中,MobileAgentV2 的表現優於 T3A,且與 M3A 相當。這可能與 T3A 使用的可訪問性(a11y)樹結構過於複雜有關。中文任務的複雜性進一步凸顯,尤其是更復雜的 UI 佈局、頻繁的動畫以及干擾性元素(如廣告和彈窗),這顯著增加了任務執行難度。此外,由於多模態大模型在中文處理能力上的侷限性,智慧體在中文任務中的成功率整體低於英文任務。
跨應用任務
跨應用任務的挑戰更為顯著。除 M3A 外,大多數智慧體在 40 項跨應用任務中的總完成數不超過 4 項。M3A 的表現相對較好,完成了 6 項任務,但整體成功率仍然偏低。這類任務不僅要求智慧體完成更多步驟,還需要具備在多應用間切換時保持上下文記憶的能力。然而,即使是專為跨應用任務設計的 OdysseyAgent 也未能成功完成這些任務。雖然其在單個應用中的子任務表現良好,但在應用間切換時常常失去上下文或邏輯推理能力。實驗表明,跨應用任務的低成功率反映了智慧體在多步驟任務中的記憶保留與跨環境推理能力的不足。
完成效率與資源消耗
任務完成效率和資源消耗是衡量智慧體效能的重要方面。在單應用任務中,M3A 的平均步驟比為 0.92,顯示出其在完成任務時的高效性。相比之下,面對較高難度任務的智慧體往往會因錯誤操作而導致更多的無效步驟,儘管它們可能最終完成任務。例如,M3A 能夠透過組合動作(如在搜尋框中輸入並按下“回車”)以及策略性捷徑(如直接點選推薦項)減少任務步驟,從而提升效率。
任務終止的原因也與成功率密切相關。較高的任務成功率通常伴隨著更高的自報告完成率(Self-Reported Completion,SRC)和較低的最大步驟終止率(Maximum Steps Reached,MSR)。然而,智慧體並非總能準確判斷任務是否完成,導致成功率與 SRC 之間存在差異。例如,過早終止率(Premature Termination Rate,PTR)與超時終止率(Overdue Termination Rate,OTR)之間往往呈現權衡關係。PTR 較低的智慧體通常表現出較高的 OTR,例如 SeeAct 的 PTR 為 0.100,但 OTR 達到 0.276。這種權衡反映了智慧體內部成功檢測機制的靈敏度問題,平衡任務提前終止和延遲結束的能力是最佳化方向之一。
錯誤處理機制與成本效率
智慧體在任務執行中的錯誤處理能力對其成功率有顯著影響。缺乏錯誤處理機制的智慧體更容易因解析錯誤或輸入缺失而中途終止任務。例如,部分智慧體在解析模型輸出為有效動作時遇到困難,或因無法訪問必要的 XML 檔案而導致失敗。這些問題表明,更強大的錯誤檢測與恢復機制對於提高智慧體的任務可靠性至關重要。
在資源消耗方面,不同智慧體的表現存在顯著差異。AutoDroid 是成本最低的智慧體,每步消耗僅為 0.008 美元,但其成功率較低(0.327)且執行時間較長(平均每步 34 秒)。M3A 和 T3A 的每步成本接近 0.10 美元,但它們具有更高的成功率和更快的執行時間(不到 20 秒)。MobileAgentV2 的每步成本為 0.067 美元,但由於視覺感知流程的複雜性,其每步平均執行時間長達 56.1 秒。結果顯示,智慧體在效率與成本之間存在明顯的權衡,高成功率的智慧體往往需要更高的計算資源和時間成本,而這一點限制了其在實際應用中的可用性。
4
未來研究方向
增強視覺感知:開發更強大的視覺模型,提升對複雜 UI 佈局和動態環境的理解與動作定位能力,特別是在中文任務中的表現。
豐富資料集多樣性:構建包含多種語言、任務型別(單應用與跨應用)的資料集,以提高智慧體在多語言和多場景下的泛化能力。
改進記憶保留機制:引入記憶增強網路或情節記憶架構,支援長步驟跨應用任務中的上下文保持與邏輯延續。
強化反思與錯誤處理:採用反思模組和錯誤恢復機制,幫助智慧體動態調整策略,解決無效操作和解析錯誤問題。
最佳化任務終止判斷:設計更準確的內部成功檢測器,平衡過早和過晚終止,提升任務完成的效率與準確性。
提升執行效率與成本最佳化:透過混合模型策略,在速度與魯棒性間找到平衡,降低任務完成時間與 token 成本,增強實際部署的可行性。
5
總結
SPA-Bench 的提出為手機操控智慧體研究提供了一個強大的工具。透過其全面的任務設計、靈活的智慧體框架和高效多元的驗證流程,SPA-Bench 不僅填補了現有基準測試的空白,還為未來手機智慧體技術的最佳化與發展提供了全新視角。隨著社群的廣泛參與和任務範圍的不斷擴充套件,SPA-Bench 有望進一步推動手機智慧體技術的普及與實際應用。
更多內容,點選下方關注:
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。