時時頭條
  • 娛樂
  • 體育
  • 財經
  • 科技
  • 旅遊
  • 軍事
  • 育兒
  • 時尚
  • 遊戲
  • 歷史
  1. 首頁
  2. 科技

華為與哈工深等最新研究成果:SPA-Bench,手機操控智慧體評估新標準

2024-12-13 20:44:51

該研究解決了現有手機智慧體基準測試的侷限性,為手機操控智慧體的研究與評估提供標準。

隨著智慧手機成為人們日常生活中不可或缺的工具,手機操控智慧體(smartphone control agent)的研究逐漸成為大模型領域的重要方向。透過自然語言指令,這些智慧體能夠高效地完成複雜任務,從簡單的應用開啟到多步驟的跨應用操作,甚至包括多語言支援。然而,如何全面、精確地評估這些智慧體的能力卻始終是一個沒有解決的關鍵問題。

近日,諾亞方舟實驗室與哈爾濱工業大學(深圳)聯合提出了一個全新的評估框架——SPA-Bench(SmartPhone Agent Benchmark)。這一框架旨在解決現有手機智慧體基準測試的侷限性,透過覆蓋 340 個任務、支援中英雙語和第三方應用操作,以及提供自動化評估流程和多維度指標,重新定義了手機操控智慧體的研究與評估標準。

論文地址:arXiv:2410.15164

1

為什麼需要SPA-Bench?

現有基準測試的侷限性

任務範圍的不足

當前的手機智慧體評估框架往往聚焦於系統應用的任務,例如檔案管理或日曆中的簡單操作。這些任務對智慧體的適應能力測試非常有限,尤其是在多語言場景或動態 UI 環境中,其評估能力明顯不足。並且,由於使用者需求的多樣化,很多跨應用的複雜操作(如從社交平臺匯出資料至筆記應用)尚未得到廣泛覆蓋。與此同時,雖然英語任務在現有基準中佔據主導地位,但全球使用者的需求顯然不止於此。尤其在中文等語言場景中,UI 設計、文字結構和任務邏輯的獨特性對智慧體提出了更高要求。然而,現有框架所涵蓋的任務缺乏對此類任務的全面支援。

手機智慧體種類的限制

目前大多數基準測試中涉及的智慧體種類較為單一,通常不超過五種,有些研究甚至僅包含同一智慧體的不同變種。這種限制使得研究者難以全面瞭解當前先進智慧體技術的整體表現,也難以對不同模型架構的優劣進行深入對比。這不僅降低了基準測試的適用範圍,也可能導致研究結論缺乏全面性,難以為智慧體技術的發展提供更廣泛的參考依據。

驗證機制的侷限性

大多數現有框架依賴人工設定的固定規則驗證任務完成情況。例如,透過檢測 UI 元素的狀態來判斷操作是否成功。這種方法缺乏靈活性,當 UI 設計或應用功能發生更新時,這些規則往往需要重新設計,導致實際評估效率降低。

SPA-Bench與其他手機Agent Benchmark的對比

2

SPA-Bench的核心設計

SPA-Bench整體框架圖

SPA-Bench 旨在提供一個全面、靈活且貼近實際使用場景的評估框架,透過以下三個方面解決當前基準測試的痛點:

任務設計:覆蓋真實場景

SPA-Bench 提供了一個多樣化任務集,涵蓋了 340 個任務,分為單應用任務和跨應用任務兩大類。

單應用任務根據複雜性被分為三個等級:

一級任務:基礎且簡單的活動,通常涉及少於五個操作步驟。

二級任務:引入了更復雜的需求,例如處理複雜的 UI 元素或動畫,通常需要少於十個操作步驟。

三級任務:最複雜的任務,可能涉及多達十五個操作步驟,要求智慧體處理更多步驟和邏輯依賴。

單應用任務成組出線,每個任務組內含有一、二、三級任務,任務設計相似,但透過使用不同的實體(如建立具有不同名稱的資料夾)避免智慧體受到早期任務的影響,確保評估的獨立性和全面性。

跨應用任務基於涉及的應用數量進行難度劃分:

一級任務:在兩個應用之間切換完成操作。

二級任務:需要在三個應用之間進行復雜的互動,涉及更多步驟以及跨應用間的依賴與協調。

這些任務涵蓋了多種型別,包括通用工具、資訊管理、網路購物、媒體娛樂、社交分享和多應用協作等。跨應用任務的設計借鑑了 GUI Odyssey 的分類方法,並透過任務數量和操作複雜性進一步細化。

這些任務不僅涵蓋了 58 個常用第三方應用,還支援中英雙語,使得任務設計更加貼近真實世界的使用者需求。

智慧體框架:高度靈活的整合

SPA-Bench 的框架設計允許研究者快速整合現有的智慧體模型,並支援對不同模型進行橫向對比。

模組化設計框架採用模組化架構,包括任務模擬器、驗證流程和資源監控模組。任務模擬器可以快速恢復任務的初始環境,例如應用的登入狀態、使用者設定等,從而確保實驗環境的一致性。

多智慧體支援研究團隊在 SPA-Bench 中已經集成了 11 種現有手機智慧體。七種基於閉源專有模型的智慧體:AppAgent、AutoDroid、MobileAgent、MobileAgentV2、M3A、T3A、SeeAct;和四種基於開源模型的智慧體:Auto-UI、CogAgent、DigiRL、OdysseyAgent。

快速擴充套件研究者可以透過 SPA-Bench 快速測試新智慧體,只需要做一些簡單的修改即可整合。

自動化流程:高效的任務驗證

SPA-Bench 提供了一套全面自動化的任務驗證流程,透過針對單應用任務和跨應用任務的不同設計,實現高效且精準的評估。此外,框架引入了七個關鍵指標,用於全面衡量智慧體的表現,從完成任務的準確性到執行效率和資源消耗,為智慧體的效能評價提供了多維度支援。

在評估任務完成情況時,成功訊號是核心指標,用於判斷智慧體是否成功完成任務。結合操作和狀態資訊,這一指標能夠適應多種有效路徑,避免固定邏輯的侷限性。步驟比衡量智慧體的執行效率,透過對比智慧體執行步驟與人工預定義的“黃金步驟”,揭示冗餘操作的存在情況。終止原因進一步記錄任務的結束方式,包括智慧體主動終止、達到步驟限制或發生錯誤,同時還透過過早終止訊號與超時終止訊號捕捉智慧體在判斷任務是否完成中的邏輯偏差,反映其準確性與效率問題。此外,SPA-Bench 還從資源消耗的角度,透過執行時間和API 成本兩個指標評估智慧體的時間與經濟開銷,特別針對依賴大模型 API 的智慧體進行直觀的成本分析。

成功訊號的設計在單應用任務和跨應用任務中採用了兩種不同的流程,以適應任務場景的複雜性。在單應用任務中,驗證流程以粗到細的檢測方式為主。首先,透過關鍵 UI 元素的狀態匹配實現初步篩選;隨後引入大模型評估器(MLLM Evaluator),對關鍵步驟進行語義層面的深度檢測,從而判斷任務是否完成。這種方法兼顧了評估的精確性與成本效率,在英文和中文任務上的 F1 分數分別達到 0.926 和 0.884,展現了出色的可靠性。

對於跨應用任務,驗證流程因涉及多個應用間的互動而更為複雜。SPA-Bench 採用了一種基於子任務分解的驗證方法,首先透過大模型將任務軌跡根據應用來分割為多個子任務,並逐一進行驗證。每個子任務的結果相互依賴,若任一子任務失敗,後續驗證即告終止。實驗結果表明,該流程在複雜任務場景下的表現與人工評估高度一致,F1 分數達到 0.845,為跨應用任務的評估提供了強有力的支援。

3

實驗結果與分析

任務成功率概覽

實驗結果顯示,不同智慧體在任務成功率上的表現差異顯著。M3A 是整體表現最優的智慧體,在所有任務組中均取得了最高的成功率。總體來看,智慧體在單應用任務中的成功率高於跨應用任務,而在語言方面,英文任務的成功率也顯著優於中文任務。此外,採用基於專有模型(GPT-4o)的智慧體,其表現明顯優於基於開源模型的智慧體。

單應用任務

在單應用英文任務中,M3A、T3A 和 MobileAgentV2 表現最佳,成功率從 0.640 到 0.433 不等。這些智慧體配備了反思模組,有效減少了任務執行中的停滯現象。相比之下,AppAgent 和 AutoDroid 的表現較差,但如果它們能夠訪問外部知識庫,其表現可能會有所提升。

在單應用中文任務中,MobileAgentV2 的表現優於 T3A,且與 M3A 相當。這可能與 T3A 使用的可訪問性(a11y)樹結構過於複雜有關。中文任務的複雜性進一步凸顯,尤其是更復雜的 UI 佈局、頻繁的動畫以及干擾性元素(如廣告和彈窗),這顯著增加了任務執行難度。此外,由於多模態大模型在中文處理能力上的侷限性,智慧體在中文任務中的成功率整體低於英文任務。

跨應用任務

跨應用任務的挑戰更為顯著。除 M3A 外,大多數智慧體在 40 項跨應用任務中的總完成數不超過 4 項。M3A 的表現相對較好,完成了 6 項任務,但整體成功率仍然偏低。這類任務不僅要求智慧體完成更多步驟,還需要具備在多應用間切換時保持上下文記憶的能力。然而,即使是專為跨應用任務設計的 OdysseyAgent 也未能成功完成這些任務。雖然其在單個應用中的子任務表現良好,但在應用間切換時常常失去上下文或邏輯推理能力。實驗表明,跨應用任務的低成功率反映了智慧體在多步驟任務中的記憶保留與跨環境推理能力的不足。

完成效率與資源消耗

任務完成效率和資源消耗是衡量智慧體效能的重要方面。在單應用任務中,M3A 的平均步驟比為 0.92,顯示出其在完成任務時的高效性。相比之下,面對較高難度任務的智慧體往往會因錯誤操作而導致更多的無效步驟,儘管它們可能最終完成任務。例如,M3A 能夠透過組合動作(如在搜尋框中輸入並按下“回車”)以及策略性捷徑(如直接點選推薦項)減少任務步驟,從而提升效率。

任務終止的原因也與成功率密切相關。較高的任務成功率通常伴隨著更高的自報告完成率(Self-Reported Completion,SRC)和較低的最大步驟終止率(Maximum Steps Reached,MSR)。然而,智慧體並非總能準確判斷任務是否完成,導致成功率與 SRC 之間存在差異。例如,過早終止率(Premature Termination Rate,PTR)與超時終止率(Overdue Termination Rate,OTR)之間往往呈現權衡關係。PTR 較低的智慧體通常表現出較高的 OTR,例如 SeeAct 的 PTR 為 0.100,但 OTR 達到 0.276。這種權衡反映了智慧體內部成功檢測機制的靈敏度問題,平衡任務提前終止和延遲結束的能力是最佳化方向之一。

錯誤處理機制與成本效率

智慧體在任務執行中的錯誤處理能力對其成功率有顯著影響。缺乏錯誤處理機制的智慧體更容易因解析錯誤或輸入缺失而中途終止任務。例如,部分智慧體在解析模型輸出為有效動作時遇到困難,或因無法訪問必要的 XML 檔案而導致失敗。這些問題表明,更強大的錯誤檢測與恢復機制對於提高智慧體的任務可靠性至關重要。

在資源消耗方面,不同智慧體的表現存在顯著差異。AutoDroid 是成本最低的智慧體,每步消耗僅為 0.008 美元,但其成功率較低(0.327)且執行時間較長(平均每步 34 秒)。M3A 和 T3A 的每步成本接近 0.10 美元,但它們具有更高的成功率和更快的執行時間(不到 20 秒)。MobileAgentV2 的每步成本為 0.067 美元,但由於視覺感知流程的複雜性,其每步平均執行時間長達 56.1 秒。結果顯示,智慧體在效率與成本之間存在明顯的權衡,高成功率的智慧體往往需要更高的計算資源和時間成本,而這一點限制了其在實際應用中的可用性。

4

未來研究方向

增強視覺感知:開發更強大的視覺模型,提升對複雜 UI 佈局和動態環境的理解與動作定位能力,特別是在中文任務中的表現。

豐富資料集多樣性:構建包含多種語言、任務型別(單應用與跨應用)的資料集,以提高智慧體在多語言和多場景下的泛化能力。

改進記憶保留機制:引入記憶增強網路或情節記憶架構,支援長步驟跨應用任務中的上下文保持與邏輯延續。

強化反思與錯誤處理:採用反思模組和錯誤恢復機制,幫助智慧體動態調整策略,解決無效操作和解析錯誤問題。

最佳化任務終止判斷:設計更準確的內部成功檢測器,平衡過早和過晚終止,提升任務完成的效率與準確性。

提升執行效率與成本最佳化:透過混合模型策略,在速度與魯棒性間找到平衡,降低任務完成時間與 token 成本,增強實際部署的可行性。

5

總結

SPA-Bench 的提出為手機操控智慧體研究提供了一個強大的工具。透過其全面的任務設計、靈活的智慧體框架和高效多元的驗證流程,SPA-Bench 不僅填補了現有基準測試的空白,還為未來手機智慧體技術的最佳化與發展提供了全新視角。隨著社群的廣泛參與和任務範圍的不斷擴充套件,SPA-Bench 有望進一步推動手機智慧體技術的普及與實際應用。

更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!

公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。

熱門資訊
  • Science重磅:AI完成定向蛋白質進化,特性提升100倍 | 2024-11-23 07:47:44
  • 國家資料局:有序推進5G網路向5G-A升級演進,全面推進6G網路技術研發創新 | 2024-11-23 07:47:53
  • 謝和平院士在歐中氫能研討會上作專題演講 | 2024-11-23 07:49:04
  • 長三角頻頻亮“箭” 瞄向哪裡? | 2024-11-23 07:49:08
  • 榮耀300 Pro開啟預訂 三大唯美配色享24期免息 | 2024-11-23 08:04:40
  • 事後才知道!神十八乘組創造一項世界紀錄,神舟十九號驚喜會更多 | 2024-11-23 08:13:24
  • 對話《空間計算》作者:喬布斯要是活著,不會發布Vision Pro,會直接推出蘋果眼鏡 | 2024-11-23 08:17:41
  • NASA宣佈尖端太空技術部門新主管:克萊頓-特納 | 2024-11-23 08:17:50
  • 微軟 Surface Laptop 5 和 6 韌體 1.0 更新,修復顯示和音訊問題 | 2024-11-23 08:18:34
  • 神舟十九號航天員集體亮相:才發射20天,為何都“胖”了一圈 | 2024-11-23 08:19:28
  • 超導明星跌落神壇:Ranga Dias 被控學術不端,已被解僱 | 2024-11-23 08:20:20
  • 臺積電A16工藝,最新分享 | 2024-11-23 08:21:07
  • 印度計劃2040年前建成載人環月空間站!中國快遞公司順豐控股計劃透過香港上市,籌資7.927億美元 | 2024-11-23 08:21:10
  • 華南農業大學碩士研究生髮表Nature Communications | 2024-11-23 08:21:17
  • Nature丨合計細胞數量超過170萬——構建人類神經類器官的整合細胞轉錄組譜圖 | 2024-11-23 08:22:38
  • 一家日本公司正在開發“洗人機” | 2024-11-23 08:22:43
  • 中科馭數申請基於改進的TCP傳輸協議架構的應用層訊息傳輸專利,能夠使得應用與協議棧互動訪問接收緩衝區一次性得到完整的應用層訊息 | 2024-11-23 08:26:48
  • 科氪 | 北京聯通攜手華為、中赫集團、吉特沃斯-工體元宇宙在新工體打造全球領先的5G-A立體組網超級網路 | 2024-11-23 08:27:26
  • 艾倫研究所與華盛頓大學推出OpenScholar,用小引數超越GPT-4o | 2024-11-23 08:29:18
  • 中國登月夢舟、攬月、著陸地點、登月車公佈!釋放資訊量太大 | 2024-11-23 08:40:38
  • 我國載人登月畫面“提前曝光”:月球沒有火箭,航天員怎麼返回地球 | 2024-11-23 08:40:41
  • 中國聯通1-22級崗級是怎麼定的? | 2024-11-23 08:42:17
  • 英偉達核彈來了!RTX 5090售價再次曝光:想買準備2萬預算 | 2024-11-23 08:46:15
  • 採用我國獨創技術!全球首款,正式釋出 | 2024-11-23 08:52:35
  • Enfabrica推出全球最快GPU網路介面控制器晶片,獲1.15億美元融資 | 2024-11-23 08:55:08
  • 3478億美元!馬斯克身家大選後暴漲35% | 2024-11-23 09:04:50
  • 中國載人登月的動畫演示 | 2024-11-23 09:16:13
  • Shein、Temu越南註冊風波,東南亞多國加強跨境電商監管 | 2024-11-23 09:18:24
  • IBM大中華區董事長陳旭東:“員工舉報事件”指控並不成立 | 2024-11-23 09:18:30
  • 訊息稱英偉達 RTX 5090 顯示卡 GPU 尺寸比 RTX 4090 的大 22% | 2024-11-23 09:19:12
最近發布
突發!TVB知名女星毫無預警宣佈與未婚夫分手,結束長達八年情 面對被黑,蘭姐強勢迴歸。小菲狀態好轉,發宣告。更多內幕揭曉! 中國男籃決戰日本隊,首發五人曝光,廣東隊大贏家,徐傑第一後衛 孫穎莎奪女單冠軍!採訪謙遜立足拼,劉國樑給中國選手頒獎笑開花 分析 馬威交易取消後的影響:湖人還有什麼選擇?只能等休賽期? 火箭vs猛龍前瞻:範弗裡特有望復出戰舊主,火箭欲終結六連敗 梅西轟動宏都拉斯!當地媒體:這是世紀體育盛事! 登記開啟!金中、29中、13中等校動了! 開年暴擊!南京又一家機構跑路了? TechInsights:AI PC未能提振筆記本市場 2024年僅增長5% 睡覺時突然腿抽筋,就是缺鈣?錯!還有這4個原因,別輕易忽視了 泡泡瑪特又贏麻了!此前被調侃是“境內最大的博彩公司” 再也不用扎手指!5億糖尿病患者有福了 傳《尼爾:機械紀元》續作、新《古墓麗影》今年公佈 有工作經驗的畫素畫師如何寫簡歷? 離譜!Xun被搶3條龍,JDG仍然獲勝!Peyz力挽狂瀾,WBG痛失好局 將耗死在國際空間站?59歲美滯留女宇航員求救:喪失重要身體機能 華為FreeClip耳機玫瑰金開售 開放式聆聽設計 CBA俱樂部杯-山西淘汰北控晉級4強 原帥18分 小紅書上移民的中產:曾經北京七套房, 羨慕海外一張床, 如今卻...... 不可抗力停課2天以上退一半保教費,佛山幼兒園收費新規釋出 紅棉襯醉美,2020番順醉美青餅評測 華為FreeClip耳夾耳機玫瑰金配色開售:1299元 64歲寧波老闆,跨界無數次,給員工發8億,即將擁有第三家IPO? 卡友資訊股東持股情況變動 廣州“城市合夥人”:城市與人才的雙向奔赴 有人說孫穎莎粉絲是飯圈文化的時候 卻有些人用真金白銀愛孫穎莎! 男生剪“短髮”髮型乾淨利落,試試這3款,剪完帥氣提升顏值! 7個臀部訓練最佳動作,打造迷人的蜜桃臀! 偉大的4-2!林詩棟奪冠:新科世界第1誕生、超越王楚欽,狂攬3冠 新疆完美了!新小外強於皮特森+黑根斯,承認補強大外良性競爭! 林詩棟奪男單冠軍!採訪大談不容易太謙遜,單獨拍照露出笑容! 國乒最新戰報!林詩棟第2局11-8,衝3冠王,梁靖崑救2局點仍輸球 替補奇兵!快船大將5記3分助隊贏球 哈登好幫手 爆冷!北控男籃吊打奪冠大熱門球隊,外援決定比賽的走向 官宣離任,胡明軒宣佈重要決定,廣東宏遠遺憾,杜鋒祝福 又一個賈德松!崔康熙看人很準,魯媒:卡約又要錯過中國聯賽了 劉國樑憔悴!黑眼圈很重,擋住蒯曼被提醒,孫穎莎王楚欽被裁判整 林詩棟逆轉梁靖崑奪冠,成就三冠王,綜合實力更加突出 CBA最新外援註冊資訊,遼籃4人,新疆補充新援,廣東男籃放棄萊斯 大滿貫收官獎金排名:林詩棟三冠60萬第1,孫穎莎第2王曼昱10萬第9 臺灣律師分析大S遺產劃分,S媽要錢得看汪小菲臉色,打臉光頭安排 臺媒曝大S家人鬆手,讓出撫養權給汪小菲,希望馬筱梅善待孩子 二線白酒暴雷,狼真的來了! 搭上比亞迪,自動駕駛獨角獸,利潤大增170%! 炸裂!外資吹響“加倉中國”集結號背後:科技格局重塑與資產重估 這波夢幻西遊副本積分兌換真是血虧,四賜福的山賊值得買嗎? 《星戰亡命之徒》高階美工又回到CDPR 開發《巫師4》 《哪吒2》登陸北美,首映禮現好萊塢!有觀眾哭花眼妝:特效超預期,買票靠搶 曝張蘭被封年損失近4億,麻六記絕地自救太壯觀,員工曬張蘭近況

©2024 時時頭條 版權所有

隱私政策 | 服務條款 | 聯繫我們