如今,隨著人工智能技術的不斷發(fā)展,讓AI助手能夠像人類一樣自然地操作電腦已成為研究熱點。然而,當前的圖形用戶界面(GUI)交互模型面臨著一個關鍵瓶頸:無法準確地將自然語言指令映射到屏幕上的具體操作位置。這個被稱為"GUI定位"的能力,是構(gòu)建高效電腦操作AI助手的基石。
這項研究由香港大學的謝天寶(Tianbao Xie)、鄧嘉琪(Jiaqi Deng)、李曉川(Xiaochuan Li)、楊俊霖(Junlin Yang)等研究人員與Salesforce AI Research的Doyen Sahoo、余韜(Tao Yu)和熊才明(Caiming Xiong)共同完成,發(fā)表于arXiv預印版(arXiv:2505.13227v1)。研究團隊構(gòu)建了OSWORLD-G基準測試集和JEDI數(shù)據(jù)集,顯著提升了GUI定位能力,讓AI助手更準確地理解和執(zhí)行用戶指令。
想象一下,你告訴一個AI助手:"點擊頂部通知欄的關閉按鈕",而它能準確找到并點擊屏幕上正確的位置。要做到這一點,AI需要理解什么是"通知欄",知道它在"頂部",識別出其中的"關閉按鈕",并最終精確地點擊正確的像素位置。這聽起來很簡單,但對AI來說卻充滿挑戰(zhàn)。
現(xiàn)有的研究往往過度簡化了這類任務,將其視為簡單的參照表達問題,忽略了真實用戶指令的復雜性。例如,現(xiàn)有的ScreenSpot-v2基準測試已經(jīng)被最新的模型輕松達到約90%的準確率,但這些測試主要集中在簡單的文本或圖標識別上,并不能反映現(xiàn)實中交互任務的復雜性。
研究團隊意識到,真實世界的GUI交互需要軟件常識(了解圖標含義、組件功能)、布局理解(理解側(cè)邊欄位置、面板下的元素等)以及精細操作能力(調(diào)整滑塊、字符級文本選擇等)。為了解決這些挑戰(zhàn),研究團隊構(gòu)建了OSWORLD-G基準測試集,包含564個精心標注的樣本,涵蓋了文本匹配、元素識別、布局理解和精細操作等多種任務類型。
不僅如此,他們還通過多角度分解任務的方式合成并發(fā)布了目前最大的電腦使用定位數(shù)據(jù)集JEDI,包含400萬個示例。這個數(shù)據(jù)集的構(gòu)建方法非常巧妙,就像廚師將復雜菜肴拆分為基本烹飪技巧一樣,他們將復雜的GUI交互拆分為基礎組件,分別針對圖標、組件和布局進行訓練,然后再組合起來應對復雜場景。
團隊基于這個豐富的數(shù)據(jù)集訓練了多種規(guī)模的模型,并在ScreenSpot-v2、ScreenSpot-Pro以及他們自己的OSWORLD-G基準測試上都取得了優(yōu)于現(xiàn)有方法的成績。更重要的是,他們發(fā)現(xiàn)改進后的GUI定位能力直接提升了通用模型在復雜電腦任務上的表現(xiàn),在OSWorld基準測試上的成功率從5%提升到了27%。
通過詳細的消融研究,研究團隊確定了影響GUI定位性能的關鍵因素,并驗證了組合不同界面元素的專門數(shù)據(jù)能夠使模型對新界面具有組合泛化能力,就像人類可以將學到的不同操作技巧應用到從未見過的新軟件中一樣。
接下來,讓我們深入了解這項研究的具體內(nèi)容,看看研究團隊是如何一步步突破GUI定位的挑戰(zhàn)的。
一、GUI定位挑戰(zhàn):為什么電腦操作AI如此困難?
當我們使用電腦時,能夠自然地找到按鈕、移動光標、點擊圖標或調(diào)整設置,但這對AI來說卻是一項艱巨的任務。想象一下,你告訴AI助手:"幫我在Excel表格中把第三列的數(shù)據(jù)按升序排列"。這個簡單的指令背后,AI需要完成一系列復雜的理解和操作:找到第三列、識別排序按鈕、選擇升序選項等。
GUI定位(GUI grounding)就是AI準確將自然語言指令映射到具體屏幕坐標的能力。研究團隊指出,現(xiàn)有的基準測試如ScreenSpot-v2和ScreenSpot-Pro存在明顯不足:它們過度簡化了任務,主要測試簡單的引用表達式(如"點擊保存按鈕"),無法捕捉真實交互的復雜性。
真實世界的GUI定位需要AI具備三大核心能力:
首先是軟件常識,包括理解圖標含義、組件功能等。就像你能立即認出保存按鈕上的軟盤圖標表示"保存"功能,即使現(xiàn)在幾乎沒人使用實體軟盤了。AI需要這種與軟件相關的常識性理解。
其次是布局理解能力,能夠理解"側(cè)邊欄"、"頂部菜單"、"面板下的元素"等相對位置關系。這類似于你能理解當有人說"廚房水槽左邊的抽屜"時,你知道如何在空間中定位這個抽屜。
最后是精細操作能力,可以精確地調(diào)整滑塊、選擇文本中的特定字符等。就像外科醫(yī)生需要準確地操作手術器械,AI也需要這種精準度來執(zhí)行細微操作。
此外,AI還需要能夠判斷不可行指令(例如在Firefox界面中誤認為是Thunderbird),避免進入不可恢復的狀態(tài)。這就像你能判斷出有人給你錯誤的指示,而不是盲目執(zhí)行導致問題。
二、OSWORLD-G:全面測試GUI定位能力的新基準
為了解決現(xiàn)有基準測試的局限性,研究團隊構(gòu)建了OSWORLD-G基準測試集。這個測試集包含564個精心標注的樣本,覆蓋文本匹配、元素識別、布局理解和精細操作等多種任務類型。
OSWORLD-G的構(gòu)建過程十分嚴謹。研究團隊從OSWorld(一個廣泛用于評估電腦操作AI的環(huán)境)中采樣截圖,設置屏幕分辨率為720p和1080p。他們使用CVAT平臺收集對應指令的對象標注,每個標注都由熟悉軟件細節(jié)的人員完成,并通過在實際軟件中測試進行驗證,特別是對邊緣情況。
在OSWORLD-G中,每個樣本都被分配了精細的標簽,標識完成該任務所需的元素類型。此外,研究團隊還為每個樣本提供了重新表述的指令,分解了完成任務所需的GUI知識。平均而言,每個樣本的標注時間約為0.5人工小時。
這個測試集涵蓋了32種不同的UI類型,并按能力維度分為五類:
文本匹配任務要求AI根據(jù)指令中提供的明確文本信息進行定位。例如"選擇'作為附件'",需要匹配指定文本來定位適當?shù)钠聊粎^(qū)域。
元素識別任務需要AI理解視覺模式,如圖標或圖像,甚至需要基于隱含功能而非明確標簽識別元素。例如,通過軟盤圖標識別"保存"按鈕,通過齒輪圖標識別"設置"選項,或通過放大鏡符號識別"搜索"功能。
布局理解任務要求AI理解界面的模塊化結(jié)構(gòu)。GUI通常設計為模塊化結(jié)構(gòu),了解布局層次結(jié)構(gòu)對于精確定位元素至關重要。例如,指令"關閉頂部通知欄"需要正確識別通知欄區(qū)域,因為界面中可能存在多個類似的關閉按鈕。
精細操作任務通常涉及文本編輯操作,要求AI進行高精度的光標放置。例如,"選擇'person'一詞和數(shù)字'1'之間的位置"需要在特定字母之間精確放置光標,這些字母可能只占據(jù)屏幕的一小部分。此類操作需要能夠在相對較小的屏幕區(qū)域內(nèi)執(zhí)行高精度操作。
不可行任務測試AI拒絕執(zhí)行不可能指令的能力。例如,當指令為"點擊打開Firefox瀏覽器",但截圖中沒有Firefox圖標或任何可見引用時,AI應該能夠識別并拒絕這類指令。
通過這種綜合性測試,OSWORLD-G能夠全面評估AI在GUI交互中的表現(xiàn),為研究提供了更接近真實情況的基準。
三、JEDI:400萬樣本的GUI定位訓練數(shù)據(jù)集
為了解決GUI定位的挑戰(zhàn),僅有好的評測基準是不夠的,還需要大量高質(zhì)量的訓練數(shù)據(jù)。研究團隊構(gòu)建了JEDI(Just Enough Data for Interfaces),這是目前世界上最大的電腦使用定位數(shù)據(jù)集,包含400萬個合成示例。
JEDI數(shù)據(jù)集的構(gòu)建核心思想是"多視角任務解耦"。就像樂高積木一樣,復雜的GUI交互被拆分為基本構(gòu)建塊,然后通過組合這些構(gòu)建塊來處理各種復雜場景。研究團隊專注于收集三類核心數(shù)據(jù):圖標數(shù)據(jù)、組件數(shù)據(jù)和布局數(shù)據(jù)。
對于圖標數(shù)據(jù),研究團隊采用三種互補的數(shù)據(jù)收集策略:從GitHub倉庫和專業(yè)圖標網(wǎng)站收集,通過網(wǎng)絡爬蟲從流行網(wǎng)站提取圖標元素,以及使用IconsExtract等專業(yè)工具從可執(zhí)行文件、DLL和系統(tǒng)庫中提取圖標。這樣,他們獲得了來自Windows、macOS和Ubuntu各種軟件的數(shù)千個生產(chǎn)級圖標。
組件數(shù)據(jù)主要通過代碼和渲染管道收集。研究團隊利用Material UI等前端開發(fā)中常用的UI組件庫,選擇組件并使用其示例代碼作為基礎。然后,他們使用大型語言模型(LLM)合成特定任務的功能案例(如空調(diào)控制的滑塊),并在React應用程序中渲染這些組件,提取相應的元數(shù)據(jù),如元素位置樹、內(nèi)置組件名稱和坐標。
為了補充缺少的現(xiàn)實組件數(shù)據(jù),研究團隊還從現(xiàn)有網(wǎng)站和應用程序中獲取真實世界的截圖,重點收集如滾動網(wǎng)頁、點擊電子表格單元格或在幻燈片中調(diào)整文本框大小等常見交互行為的數(shù)據(jù)。
布局數(shù)據(jù)則來自兩個主要來源:Figma等UI原型平臺的設計模板(包括VSCode、Zoom和Microsoft 365等產(chǎn)品的真實規(guī)格)以及從OSWorld和WindowsAgentArena等環(huán)境中捕獲的真實應用程序截圖。
收集到截圖和元數(shù)據(jù)后,研究團隊將其轉(zhuǎn)換為適合視覺語言模型訓練的圖像-文本到文本的多模態(tài)問答格式。他們使用像GPT-4o和Claude這樣的模型,基于原始截圖和元數(shù)據(jù)生成豐富的注釋,描述外觀和功能。他們構(gòu)建了兩種互補的訓練格式:定位格式(模型接收截圖和指令,預測操作或相關邊界框)和描述格式(模型接收截圖和邊界框,提供描述信息)。
為了增強模型識別和拒絕不可行操作的能力,研究團隊通過將現(xiàn)有指令與不相關截圖錯配,構(gòu)建了拒絕部分數(shù)據(jù)集,產(chǎn)生了超過260萬個示例。他們還集成和統(tǒng)一了來自以前工作的數(shù)據(jù)集,如SeeClick、OS-Atlas等。
通過這種多角度、多來源的數(shù)據(jù)收集和處理方法,JEDI數(shù)據(jù)集為GUI定位任務提供了前所未有的多樣性和規(guī)模,為模型訓練提供了堅實基礎。
四、實驗結(jié)果:JEDI如何提升GUI定位性能
研究團隊基于JEDI數(shù)據(jù)集訓練了不同規(guī)模的模型,并在多個基準測試上評估了其性能。他們選擇了Qwen2.5-VL作為基礎模型,設置最大像素限制約為1080p。3B模型的微調(diào)大約需要20小時,7B模型需要30小時,使用了128個CPU核心、512GB內(nèi)存和64個NVIDIA H100 GPU的計算集群。
實驗結(jié)果令人印象深刻。在ScreenSpot-v2基準測試上,基于JEDI訓練的7B模型實現(xiàn)了91.7%的平均準確率,超過了現(xiàn)有方法如Operator(70.5%)和UI-TARS-7B(91.6%)。特別是在手機和桌面環(huán)境中的圖標/小部件識別任務上,JEDI模型表現(xiàn)尤為突出。
在更具挑戰(zhàn)性的ScreenSpot-Pro基準測試上(專注于高分辨率和專業(yè)軟件圖表),JEDI-7B模型的平均準確率達到了39.5%,超過了SeeClick(1.1%)、ShowUI-2B(7.7%)、Aria-UI(11.3%)等現(xiàn)有方法,也略優(yōu)于UI-TARS-7B(35.7%)。在創(chuàng)意設計(34.0%)和科學軟件(52.4%)等類別中,JEDI-7B表現(xiàn)尤為突出。
在研究團隊自己的OSWORLD-G基準測試上,JEDI-7B模型在所有能力維度上都取得了最佳性能,整體準確率達到54.1%,遠超OS-Atlas-7B(27.7%)、UGround-V1-7B(36.4%)和UI-TARS-7B(47.5%)。在文本匹配(65.9%)、元素識別(55.5%)、布局理解(57.7%)和精細操作(46.9%)等任務上,JEDI-7B都顯示出卓越能力。
然而,研究團隊注意到,在拒絕不可行指令的任務上,除了Gemini-2.5-Pro(38.9%)外,所有模型(包括JEDI)的表現(xiàn)都相對較弱(7.4%)。這表明識別和拒絕不可行指令仍是一個需要進一步研究的挑戰(zhàn)。
除了單純的GUI定位性能外,研究團隊還評估了改進后的定位能力如何影響實際電腦任務的完成。他們在OSWorld和WindowsAgentArena基準測試中,使用GPT-4o作為規(guī)劃模型,接收高級指令并在每個步驟中預測下一個低級自然語言指令。JEDI模型則負責將這些指令轉(zhuǎn)換為具體的可執(zhí)行操作。
結(jié)果顯示,當使用JEDI作為定位組件時,即使是未專門針對電腦使用任務訓練的基礎模型,也能達到最先進的性能,超過了使用72B規(guī)模模型進行定位的先前方法,并匹配專業(yè)模型的性能。具體來說,在OSWorld上,使用JEDI-7B(15步)的系統(tǒng)成功率達到22.7%,使用更多步驟(100步)可以進一步提高到27.0%。在WindowsAgentArena上,JEDI-7B(100步)的成功率達到33.7%。
這表明,在當前大型語言模型的推理能力基礎上,通過增強定位能力(如使用JEDI數(shù)據(jù)集或外部系統(tǒng)),可以構(gòu)建高效的代理系統(tǒng),為未來的發(fā)展提供了良好的起點。
五、深入分析:是什么因素影響了GUI定位性能?
為了更深入地理解是什么因素影響了GUI定位性能,研究團隊進行了一系列細致的分析實驗。
首先,研究團隊探究了知識因素的影響。他們假設,如果指令接收者對GUI交互經(jīng)驗極少,那么定位任務的表現(xiàn)如何?為此,他們重新標注了整個基準測試,最大程度減少理解每個指令所需的背景知識,依靠顏色和形狀等易于識別的通用特征。
例如,指令"打開搜索設置的過濾功能"被細化為"點擊'搜索設置'欄右側(cè)包含漏斗圖標的按鈕"。實驗表明,指令細化后,模型性能普遍提高,這表明如果能夠通過上游模型補充模型相關交互經(jīng)驗或提供更精確的表達,定位性能可以得到增強。
特別值得注意的是,指令細化后,JEDI模型達到了與最先進的UI-TARS-72B相當?shù)男阅?。這表明,使用適當?shù)臄?shù)據(jù)(如JEDI數(shù)據(jù)集),在純定位能力方面,較小的模型已經(jīng)足夠,進一步的優(yōu)勢可能在于背景知識的補充。
其次,研究團隊調(diào)查了數(shù)據(jù)規(guī)模如何影響性能。他們以10%、20%、50%和100%的比例采樣圖標、組件和布局數(shù)據(jù),對于每個數(shù)據(jù)比例,訓練步數(shù)相同,確保所有模型都充分訓練,以進行公平比較。
結(jié)果顯示,隨著數(shù)據(jù)規(guī)模增加,模型性能持續(xù)提高,沒有出現(xiàn)飽和跡象。這表明,使用研究團隊提出的方法進一步擴大數(shù)據(jù)規(guī)??赡軒眍~外收益。此外,他們發(fā)現(xiàn),僅擴大單一數(shù)據(jù)類型(如組件)可能導致性能波動,而擴大混合數(shù)據(jù)類型則能帶來更穩(wěn)定的改進,表明組合多源數(shù)據(jù)是有益的。
最后,研究團隊通過詳細的案例研究,展示了JEDI模型相比基礎模型Qwen2.5-VL-7B-Instruct的改進。在多個代表性案例中,JEDI表現(xiàn)出色:
通過對圖標、組件和布局數(shù)據(jù)的訓練,JEDI更加重視關鍵詞如"按鈕"和"在左側(cè)",而Qwen則更專注于字面文本匹配,導致在某些情況下點擊錯誤位置。
JEDI能夠從屏幕上眾多元素中有效識別具有指定功能的正確圖標,展示其對常見圖標功能的深入理解。相比之下,傳統(tǒng)模型在使用粗粒度數(shù)據(jù)訓練時,往往難以學習圖標與其功能之間的關聯(lián)。
JEDI能夠同時理解特定組件(如什么構(gòu)成水平滾動條)和整體布局(滾動條的位置),而Qwen模型則與無關元素交互。
JEDI成功識別彈出頁面和消息欄等子頁面中的可點擊文本鏈接,而未經(jīng)組件和布局訓練的基礎模型可能無法準確管理這些元素。
然而,研究團隊也發(fā)現(xiàn)JEDI在某些情況下仍面臨挑戰(zhàn):
當任務要求點擊右箭頭關閉右側(cè)面板時,JEDI點擊了'x'按鈕。雖然這在功能上是正確的,但并未嚴格遵循點擊右箭頭的要求。
在界面中出現(xiàn)兩次"居中"一詞時(一個以白色顯示表示活動狀態(tài),另一個以灰色顯示表示非活動狀態(tài)),JEDI誤解了顏色差異,錯誤點擊了下方非活動的選項。
在被指示接受cookie選項時,JEDI錯誤地關注了cookie首選項選項,可能是因為指令措辭誤導了模型。
當任務要求點擊藝術字體中的特定字母時,JEDI表現(xiàn)不佳,凸顯了模型在處理涉及藝術或風格化設計的定位任務方面的當前局限性,這可能源于當前訓練語料庫中缺乏藝術和設計數(shù)據(jù)。
這些分析為未來的研究和改進提供了重要方向,尤其是在拒絕識別和藝術內(nèi)容理解方面。
六、結(jié)論與未來展望
總的來說,這項研究在GUI定位領域取得了顯著進展。研究團隊通過構(gòu)建OSWORLD-G基準測試集和JEDI數(shù)據(jù)集,成功展示了之前被忽視的GUI定位挑戰(zhàn),如文本匹配、元素識別、布局理解和精細操作等,并提供了解決這些挑戰(zhàn)的有效方法。
基于JEDI數(shù)據(jù)集訓練的模型在多個基準測試上都取得了優(yōu)于現(xiàn)有方法的表現(xiàn),這不僅證明了數(shù)據(jù)集的有效性,也驗證了"多角度任務解耦"思想的價值。更重要的是,改進后的GUI定位能力直接提升了通用模型在復雜電腦任務上的表現(xiàn),展示了GUI定位作為計算機操作AI基礎能力的重要性。
然而,研究也存在一些局限性。研究團隊主要討論了數(shù)據(jù)合成方法,而未深入探討如何從互聯(lián)網(wǎng)圖像和視頻中提取屏幕捕獲數(shù)據(jù),這種方法可能進一步擴大數(shù)據(jù)集。由于資源限制,他們將這部分工作留給未來的工業(yè)化努力。此外,在拒絕不可行指令和理解藝術字體等方面,當前模型仍有改進空間。
未來的研究方向可能包括:進一步擴大數(shù)據(jù)規(guī)模,特別是通過從互聯(lián)網(wǎng)圖像和視頻中提取更多數(shù)據(jù);改進模型在拒絕不可行指令方面的能力;增強對藝術字體和特殊設計元素的理解;以及基于增強的定位模型構(gòu)建更完善的電腦操作AI系統(tǒng)。
這項研究的成果對于構(gòu)建更自然、更高效的人機交互系統(tǒng)具有重要意義。隨著技術的不斷進步,我們可以期待未來的AI助手能夠更加精確地理解和執(zhí)行用戶指令,無論是簡單的網(wǎng)頁瀏覽還是復雜的文檔編輯,都能如人類一樣自然流暢地完成。
所有的基準測試、數(shù)據(jù)集、檢查點和代碼都已開源,可通過https://osworld-grounding.github.io獲取,為社區(qū)提供了寶貴的資源,促進這一領域的進一步發(fā)展。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。