在現(xiàn)代數(shù)字世界,與圖形用戶界面(GUI)交互是我們?nèi)粘I畹囊徊糠?,無論是使用手機(jī)應(yīng)用、瀏覽網(wǎng)站還是操作電腦軟件。2025年5月,來自上海人工智能實驗室、清華大學(xué)、上海交通大學(xué)、香港科技大學(xué)和香港中文大學(xué)的研究團(tuán)隊發(fā)布了一項名為"ZeroGUI: Automating Online GUI Learning at Zero Human Cost"的突破性研究。這項研究由楊辰宇、蘇世謙、劉世、董軒、于越、蘇維杰等人共同完成,已在arXiv(arXiv:2505.23762v1)上發(fā)表。該研究團(tuán)隊開發(fā)了一種創(chuàng)新框架,讓AI助手能夠自主學(xué)習(xí)如何操作各種圖形界面,而無需人類提供任何標(biāo)注數(shù)據(jù)。
一、為什么需要ZeroGUI?理解GUI代理的現(xiàn)狀與挑戰(zhàn)
想象一下,你剛買了一部新手機(jī),面對全新的操作界面和應(yīng)用程序,你需要一段時間才能熟悉。同樣,AI也需要學(xué)習(xí)如何理解和操作這些圖形界面。在過去,這種學(xué)習(xí)過程通常需要人類提供大量的標(biāo)注數(shù)據(jù)——就像有人手把手教你如何使用新手機(jī)一樣。研究人員需要記錄界面上每個按鈕的位置和功能,以及完成特定任務(wù)的詳細(xì)步驟。這個過程不僅費時費力,還難以擴(kuò)展到各種不同的應(yīng)用和平臺。
隨著大型視覺-語言模型(VLMs)的發(fā)展,如OpenAI的GPT-4V和谷歌的Gemini,基于純視覺的GUI代理(即能夠"看到"屏幕并執(zhí)行操作的AI系統(tǒng))取得了顯著進(jìn)展。這些系統(tǒng)能夠感知用戶界面并根據(jù)指令執(zhí)行點擊、滾動或輸入等操作。然而,現(xiàn)有方法仍然面臨兩個核心限制:
首先,它們嚴(yán)重依賴高質(zhì)量的人工標(biāo)注,包括界面元素的識別(例如,確定屏幕上的按鈕、文本框等位置)和行動軌跡(即完成任務(wù)的一系列操作)。這些人工標(biāo)注非常昂貴且耗時,難以跨不同平臺和任務(wù)進(jìn)行擴(kuò)展。
其次,它們在適應(yīng)動態(tài)和交互式環(huán)境方面能力有限?,F(xiàn)實世界中的GUI是非靜態(tài)且不確定的:元素可能會移動、消失或根據(jù)系統(tǒng)狀態(tài)表現(xiàn)出不同的行為?,F(xiàn)有代理往往過度擬合于靜態(tài)或定義狹窄的任務(wù),難以在開放式場景中泛化。
研究團(tuán)隊提出了一個關(guān)鍵問題:我們能否創(chuàng)建一個系統(tǒng),讓AI代理能夠通過與GUI環(huán)境的持續(xù)交互來學(xué)習(xí)和改進(jìn),而無需人類提供任何標(biāo)注?這就像讓AI"自己玩"各種應(yīng)用程序,從中學(xué)習(xí)如何操作,而不需要人類教導(dǎo)。
二、ZeroGUI:一種自動化的在線學(xué)習(xí)框架
為了解決上述挑戰(zhàn),研究團(tuán)隊開發(fā)了ZeroGUI,這是一個完全自動化的在線學(xué)習(xí)框架,使GUI代理能夠在沒有任何人工成本的情況下不斷提升性能。
想象你在教一個孩子使用新游戲。傳統(tǒng)方法就像你一步步地給孩子詳細(xì)說明和演示,而ZeroGUI則是給孩子一個安全的環(huán)境,讓他自己嘗試,系統(tǒng)會自動告訴他做得對不對,并且會不斷給他設(shè)計新的練習(xí)任務(wù)來提高技能。
ZeroGUI的核心理念是利用現(xiàn)有的視覺-語言模型(VLMs)來自動化兩個關(guān)鍵過程:任務(wù)生成和獎勵估計。這些VLMs已經(jīng)在大規(guī)模GUI相關(guān)數(shù)據(jù)上進(jìn)行了訓(xùn)練,擅長理解GUI元素、動作和狀態(tài)轉(zhuǎn)換。它們可以評估任務(wù)完成情況并基于觀察到的信息提出相關(guān)任務(wù)。
該框架包含三個主要組件:
1. **基于VLM的自動任務(wù)生成**:系統(tǒng)會根據(jù)隨機(jī)初始狀態(tài)提出多樣化的訓(xùn)練任務(wù)。就像一個創(chuàng)意豐富的老師,能夠根據(jù)當(dāng)前屏幕內(nèi)容設(shè)計各種練習(xí)題目。例如,看到一個文本編輯器界面,系統(tǒng)可能會生成"將第一段文字設(shè)為粗體"或"更改文檔的頁面設(shè)置"等任務(wù)。
2. **基于VLM的自動獎勵估計**:系統(tǒng)能夠預(yù)測任務(wù)是否成功完成,提供二元獎勵(成功/失?。┳鳛楸O(jiān)督信號。這消除了對手工制作的任務(wù)驗證器的需求。就像有一個能夠自動判斷任務(wù)是否正確完成的評判員,而不需要人類來檢查每一步操作。
3. **兩階段在線強化學(xué)習(xí)**:包括在生成的任務(wù)上進(jìn)行訓(xùn)練,然后在測試時進(jìn)行適應(yīng)性調(diào)整。系統(tǒng)支持GUI代理與環(huán)境之間的多步交互。這就像先讓學(xué)生在模擬環(huán)境中練習(xí),然后再讓他們應(yīng)對真實場景中的挑戰(zhàn)。
與傳統(tǒng)的離線學(xué)習(xí)方法相比,ZeroGUI具有兩個顯著優(yōu)勢:首先,它完全消除了收集和標(biāo)注訓(xùn)練數(shù)據(jù)的人力成本;其次,它能夠持續(xù)適應(yīng)動態(tài)變化的GUI環(huán)境,使代理在復(fù)雜的實際應(yīng)用場景中表現(xiàn)更出色。
三、技術(shù)實現(xiàn):ZeroGUI如何工作?
讓我們深入了解ZeroGUI的工作原理,就像拆解一臺精密機(jī)器,看看它的核心部件是如何協(xié)同工作的。
首先,讓我們理解GUI任務(wù)完成過程可以被視為一個馬爾可夫決策過程(MDP)。這聽起來很復(fù)雜,但其實很簡單:給定一個任務(wù)指令,GUI代理與環(huán)境交互。在每一步,代理根據(jù)當(dāng)前觀察到的屏幕內(nèi)容和歷史信息預(yù)測下一個動作。這個過程會一直持續(xù),直到遇到終止動作或達(dá)到最大步數(shù),最終形成一個操作軌跡。
ZeroGUI的實現(xiàn)分為三個關(guān)鍵部分:
**1. 自動任務(wù)生成**
想象你有一個非常聰明的朋友,他看一眼電腦屏幕就能想出各種有用的任務(wù)讓你練習(xí)。ZeroGUI的任務(wù)生成器就是這樣工作的。
研究團(tuán)隊使用先進(jìn)的視覺-語言模型(如GPT-4o)來生成任務(wù)。他們發(fā)現(xiàn),在任務(wù)生成過程中面臨的一個關(guān)鍵挑戰(zhàn)是確保生成的任務(wù)足夠多樣化,能夠覆蓋廣泛的行為空間,同時又能與目標(biāo)環(huán)境的操作約束保持一致。
為此,他們采用了以下設(shè)計:
- **示例引導(dǎo)式提示**:系統(tǒng)會結(jié)合指令示例和隨機(jī)采樣的初始狀態(tài)截圖,引導(dǎo)模型生成特定環(huán)境下的真實任務(wù)。就像給AI看一張瀏覽器截圖和一些瀏覽器任務(wù)的例子,AI就能創(chuàng)造出新的合理的瀏覽器任務(wù)。
- **多候選生成**:在每次生成步驟中,系統(tǒng)會同時請求多個任務(wù)候選,鼓勵模型生成多樣化的任務(wù)集,而不是過度擬合于某一特定任務(wù)風(fēng)格。這就像讓AI一次提出10個不同的練習(xí),而不是反復(fù)提出類似的任務(wù)。
此外,為了訓(xùn)練代理識別不可實現(xiàn)的目標(biāo)并提供適當(dāng)?shù)姆答?,研究團(tuán)隊還特意讓系統(tǒng)生成一部分不可行的任務(wù)。這些任務(wù)在環(huán)境中有意設(shè)計為無法解決,要求代理明確輸出"FAIL"響應(yīng)。這就像故意給學(xué)生出一些無解的題目,教會他們識別問題的可解性。
**2. 自動獎勵估計**
傳統(tǒng)的交互式環(huán)境通常使用基于腳本的驗證器來確定任務(wù)是否成功(例如,檢查文件內(nèi)容或系統(tǒng)狀態(tài))。這些驗證器通常涉及復(fù)雜的命令和邏輯來覆蓋所有可能的情況,嚴(yán)重依賴手動實現(xiàn)和調(diào)試。
ZeroGUI使用視覺-語言模型為軌跡分配二元獎勵。然而,基于VLM的評估并不完美,它可能會忽略細(xì)節(jié)或受到幻覺的影響,導(dǎo)致錯誤的標(biāo)記。在兩種錯誤類型中(假陽性和假陰性),研究表明假陽性影響更大,因為它們會扭曲代理的學(xué)習(xí)過程。
為了解決這個問題,獎勵估計器專注于減少假陽性并提高精確度:
- **包含軌跡中的所有截圖**:有些任務(wù)的成功只能通過動作前后環(huán)境的變化來確定,因此需要所有截圖。
- **排除代理的響應(yīng)**:這些響應(yīng)可能包含成功的幻覺,即使任務(wù)實際上失敗了,也可能誤導(dǎo)VLM給出假陽性獎勵。
- **采用投票機(jī)制**:系統(tǒng)會多次查詢VLM,基于多數(shù)同意或更嚴(yán)格的一致同意(即只有當(dāng)所有輸出都表明成功時才分配獎勵)來分配獎勵。這進(jìn)一步降低了假陽性的風(fēng)險。
**3. 兩階段在線強化學(xué)習(xí)**
有了自動任務(wù)生成和獎勵估計機(jī)制,GUI代理可以通過持續(xù)與GUI環(huán)境交互并根據(jù)獎勵更新其策略來進(jìn)行在線學(xué)習(xí)。由于獎勵估計器不依賴內(nèi)部環(huán)境狀態(tài)或標(biāo)準(zhǔn)標(biāo)簽,它也可以為測試任務(wù)提供獎勵,實現(xiàn)測試時適應(yīng)。
研究團(tuán)隊引入了兩階段訓(xùn)練策略:
- **在生成的任務(wù)上訓(xùn)練**:代理從生成的任務(wù)中學(xué)習(xí)基本能力。就像在模擬環(huán)境中練習(xí)基礎(chǔ)技能。
- **測試時訓(xùn)練**:代理使用來自獎勵估計器的獎勵適應(yīng)目標(biāo)測試任務(wù)。這就像在實際考試中進(jìn)一步調(diào)整和完善技能。
他們采用強化學(xué)習(xí)(RL)進(jìn)行這種兩階段在線訓(xùn)練,使用了組相對策略優(yōu)化(GRPO)算法,該算法消除了對額外價值函數(shù)的需求,并在其他場景中對大型語言模型和視覺語言模型的后訓(xùn)練非常有效。
為了適應(yīng)GUI代理的在線RL,研究團(tuán)隊對原始GRPO算法進(jìn)行了以下修改:
- **將優(yōu)化目標(biāo)擴(kuò)展到多步軌跡**:原始GRPO中,每個樣本是單個生成序列,而在GUI代理設(shè)置中,每個軌跡由多個操作預(yù)測序列組成。
- **修改KL損失項以提高訓(xùn)練穩(wěn)定性**:原始GRPO使用k3-估計器計算KL散度,但研究團(tuán)隊發(fā)現(xiàn)這可能導(dǎo)致梯度過大,容易出現(xiàn)溢出或下溢。他們將其替換為k2-估計器(即逐標(biāo)記MSE損失),提供更穩(wěn)定的梯度,避免數(shù)值溢出。
實驗證明,這些修改顯著提高了訓(xùn)練的穩(wěn)定性和性能。
四、實驗評估:ZeroGUI的驚人效果
研究團(tuán)隊在兩個先進(jìn)的GUI代理(UI-TARS和Aguvis)上應(yīng)用了ZeroGUI,并利用桌面(OSWorld)和移動(AndroidLab)環(huán)境進(jìn)行評估。他們的實驗設(shè)計得非常全面,讓我們了解這個系統(tǒng)在真實世界中的表現(xiàn)。
**OSWorld實驗**
OSWorld是一個基于計算機(jī)環(huán)境構(gòu)建的基準(zhǔn),用于評估多模態(tài)代理在復(fù)雜真實世界任務(wù)上的表現(xiàn)。它包含369個任務(wù),涵蓋Web應(yīng)用程序、桌面軟件和操作系統(tǒng)級操作。其中,30個任務(wù)(測試集的8.1%)被設(shè)計為不可行的,用于評估代理檢測已棄用或幻覺功能的能力。
在Ubuntu平臺上,使用僅屏幕截圖模式,研究團(tuán)隊在分辨率為1920×1080的屏幕上進(jìn)行了評估,最大步數(shù)限制為15步。為了減少網(wǎng)絡(luò)不穩(wěn)定性和環(huán)境變異性的影響,他們報告了4次運行的平均值和標(biāo)準(zhǔn)差。
實驗結(jié)果令人振奮:
1. 與基礎(chǔ)模型相比,ZeroGUI顯著提高了任務(wù)成功率,尤其是在可行子集上。具體來說,對于UI-TARS-7B-DPO,在所有任務(wù)上取得了+2.5(14%)的提升,在可行子集上取得了+4.5(40%)的提升。對于Aguvis-7B,盡管基礎(chǔ)模型表現(xiàn)較差,但ZeroGUI仍然帶來了+1.9(63%)和+2.1(88%)的提升,相對改進(jìn)甚至更大。
2. 兩個訓(xùn)練階段(生成任務(wù)訓(xùn)練和測試時訓(xùn)練)都對性能提升有所貢獻(xiàn)。通過pass@4和all-pass@4指標(biāo)進(jìn)一步揭示了它們的互補角色:生成任務(wù)訓(xùn)練顯著提高了pass@4,表明大規(guī)模多樣化生成任務(wù)有助于擴(kuò)展模型的能力覆蓋范圍;測試時訓(xùn)練主要提升了all-pass@4,表明模型在適應(yīng)目標(biāo)任務(wù)后行為一致性得到增強。
3. 僅使用測試時訓(xùn)練的表現(xiàn)不如兩階段設(shè)置,這突顯了生成訓(xùn)練在提供有益能力基礎(chǔ)方面的作用,使RL在下一階段能夠解鎖更多任務(wù)并獲得更多信息性獎勵。
4. 在全測試集上的改進(jìn)小于可行子集(例如,UI-TARS-7B-DPO的平均成功率+2.5 vs. +4.5),表明在不可行性檢測方面有所下降。這可能有兩個原因:(a)VLM缺乏特定軟件的詳細(xì)知識,難以判斷不可行性;(b)帶有假陽性的噪聲獎勵可能導(dǎo)致模型變得過于自信。為了緩解這一問題,研究團(tuán)隊在訓(xùn)練集中包含了一部分生成的不可行任務(wù),這在很大程度上緩解了這個問題。
**AndroidLab實驗**
AndroidLab是一個交互式Android環(huán)境,包括Android系統(tǒng)和9個可離線部署的應(yīng)用程序(如時鐘、日歷等)。它包含138個測試任務(wù),分為兩類:操作任務(wù)和查詢檢測任務(wù)。操作任務(wù)涉及通過操作完成目標(biāo),并通過預(yù)定義規(guī)則進(jìn)行評估;查詢檢測任務(wù)要求模型提取信息并返回文本答案,由GPT進(jìn)行評分。
由于某些任務(wù)的GPT評估不完全可靠,研究團(tuán)隊報告了全測試集和操作任務(wù)子集的評估結(jié)果。在截圖模式下,ZeroGUI在操作子集上實現(xiàn)了+2.8的提升,在全測試集上實現(xiàn)了+1.8的提升,這表明所提出的ZeroGUI在不同交互式GUI環(huán)境中具有良好的泛化能力。
從子目標(biāo)成功率(Sub-SR)的角度來看,ZeroGUI在操作子集上實現(xiàn)了+2.9的提升。盡管僅利用整體任務(wù)獎勵,它仍然在子任務(wù)指標(biāo)上取得了性能提升。
**實驗細(xì)節(jié)**
在任務(wù)生成方面,研究團(tuán)隊使用GPT-4o為OSWorld一次生成10個任務(wù),為AndroidLab一次生成5個任務(wù)??偣采闪?,000多個基于Ubuntu的任務(wù)和225個基于Android的任務(wù)。在訓(xùn)練時,他們從生成池中隨機(jī)抽樣了725個Ubuntu任務(wù)和175個Android任務(wù),約為各自測試集大小的兩倍。
對于獎勵估計,他們本地部署了Qwen2.5-VL-32B以提高效率。他們使用溫度為1.0的VLM進(jìn)行4次查詢,并使用一致同意投票來確定獎勵。
對于訓(xùn)練,他們選擇了UI-TARS-7B-DPO和Aguvis-7B作為基礎(chǔ)模型,使用AdamW優(yōu)化器,學(xué)習(xí)率恒定為2e-6。對于GRPO,他們設(shè)置組大小G=64,KL系數(shù)β=0.1,并采用DAPO動態(tài)采樣,過濾掉準(zhǔn)確率等于1或0的任務(wù)。對于每個rollout步驟,采樣持續(xù)到收集16k序列,然后進(jìn)行單次梯度更新。他們對生成任務(wù)和測試時任務(wù)各訓(xùn)練1個epoch。
五、深入分析:ZeroGUI的組件效果
研究團(tuán)隊進(jìn)行了全面的消融研究,以理解ZeroGUI各個組件的貢獻(xiàn)。這些研究就像拆解一臺機(jī)器,單獨測試每個零件的作用,幫助我們理解系統(tǒng)中真正重要的部分。
**任務(wù)生成**
研究表明,移除任務(wù)生成過程中的示例或一次只生成一個任務(wù)會導(dǎo)致測試性能下降。這可以歸因于兩個因素:提供任務(wù)示例有助于將生成任務(wù)的分布與目標(biāo)領(lǐng)域?qū)R,而生成多個任務(wù)增加了多樣性,這對訓(xùn)練數(shù)據(jù)至關(guān)重要。
此外,排除不可行任務(wù)會導(dǎo)致在不可行子集上的表現(xiàn)急劇下降,表明這類任務(wù)幫助模型識別不可實現(xiàn)的目標(biāo)并減少過度自信。
**獎勵估計**
研究團(tuán)隊先隨機(jī)選擇一組軌跡(UI-TARS-7B-DPO在生成任務(wù)上的表現(xiàn))并手動標(biāo)注了基礎(chǔ)事實獎勵。然后,他們將不同的獎勵估計方法應(yīng)用于這組軌跡,評估它們的精確度和召回率。此外,他們使用每種方法估計的獎勵訓(xùn)練了單獨的模型,并比較它們在測試任務(wù)上的成功率。
結(jié)果表明:
1. 使用最終截圖而非所有截圖會導(dǎo)致精確度、召回率和測試成功率較低。
2. 在獎勵估計過程中包括代理的響應(yīng)會產(chǎn)生最高的召回率,但顯著降低了精確度和測試成功率,表明VLM被響應(yīng)誤導(dǎo),產(chǎn)生了許多假陽性。
3. 排除代理的響應(yīng)并應(yīng)用投票機(jī)制會增加精確度同時降低召回率,并導(dǎo)致測試成功率顯著提高。這表明假陽性錯誤對模型訓(xùn)練的影響更大。
**強化學(xué)習(xí)訓(xùn)練**
為了評估在線RL訓(xùn)練的有效性,研究團(tuán)隊將其與兩個基線進(jìn)行了比較:離線拒絕采樣微調(diào)(RFT)和在線RFT。
離線RFT首先使用基礎(chǔ)模型為所有任務(wù)收集軌跡,然后僅在正樣本上進(jìn)行微調(diào)。其性能受限于收集的軌跡與更新后的策略之間的分布不匹配,并且無法利用策略更新后發(fā)現(xiàn)的新任務(wù)的獎勵。
在線RFT表現(xiàn)更好,但仍落后于在線RL。這主要是因為RFT丟棄了所有負(fù)樣本,而RL使模型能夠從中學(xué)習(xí)并避免重復(fù)過去的錯誤。
研究還評估了將原始GRPO中的k3-KL損失替換為k2-KL損失的效果。結(jié)果表明,k2-KL產(chǎn)生更高、更穩(wěn)定的訓(xùn)練準(zhǔn)確率。測試成功率進(jìn)一步驗證了k2-KL在這種設(shè)置下的優(yōu)越性。
**關(guān)于KL損失的進(jìn)一步分析**
雖然一些現(xiàn)有工作建議為一般推理任務(wù)移除KL懲罰,但研究團(tuán)隊在訓(xùn)練GUI代理的背景下發(fā)現(xiàn)了不同的結(jié)果。他們觀察到,設(shè)置β=0.1產(chǎn)生最佳測試性能。完全移除KL損失(β=0)或使用較小的β(如0.01)會導(dǎo)致性能下降,可能是因為策略分布漂移導(dǎo)致模型過度擬合當(dāng)前任務(wù)。相比之下,較大的β(如1)對優(yōu)化施加過多約束,也會導(dǎo)致更差的結(jié)果。
六、ZeroGUI的案例研究:從困境到成功的轉(zhuǎn)變
研究團(tuán)隊進(jìn)行了案例研究,進(jìn)一步展示了ZeroGUI的有效性。他們觀察到,基礎(chǔ)模型UI-TARS-7B-DPO在任務(wù)理解和對細(xì)節(jié)的關(guān)注方面有限,在任務(wù)執(zhí)行過程中經(jīng)常陷入重復(fù)動作循環(huán)。相比之下,經(jīng)過ZeroGUI訓(xùn)練后,模型表現(xiàn)出明顯更穩(wěn)定的行為策略和更強的任務(wù)執(zhí)行能力。
例如,在OSWorld的VS Code領(lǐng)域中,有一個指令是:"我想讓標(biāo)簽在超出可用空間時換行成多行,請幫助修改VS Code的設(shè)置。"在執(zhí)行過程中,基礎(chǔ)模型嘗試修改"Tab Size"參數(shù),但在輸入新值之前未能刪除默認(rèn)值。相反,它將新數(shù)字添加到現(xiàn)有值之前,導(dǎo)致設(shè)置錯誤。然后,這種錯誤操作被重復(fù)多次,表明模型缺乏檢測無效動作的能力。相比之下,ZeroGUI訓(xùn)練后的模型采用了更穩(wěn)健的動作策略:它首先使用鍵盤快捷鍵選擇所有現(xiàn)有內(nèi)容,然后輸入正確的值,成功完成任務(wù)。
另一個例子來自LibreOffice Impress領(lǐng)域,指令是:"將桌面上的圖像'none.png'添加到幻燈片2,大小為1cm*1cm。"在點擊"插入"菜單后,基礎(chǔ)模型嘗試選擇"圖像"選項,但由于定位不準(zhǔn)確而誤點了一個空白區(qū)域,導(dǎo)致菜單過早關(guān)閉。然而,模型未能檢測到這種變化,繼續(xù)嘗試點擊現(xiàn)已關(guān)閉的"插入"菜單下的"圖像"選項,導(dǎo)致無效重復(fù)。相比之下,ZeroGUI訓(xùn)練后的模型更可靠地完成了完整的插入過程。它成功打開了圖像插入界面,選擇了正確的圖像文件,逐步調(diào)整了寬度和高度,最終準(zhǔn)確地完成了這個長期任務(wù)。
在執(zhí)行AndroidLab任務(wù)時,模型同樣顯示出顯著的性能提升。以日歷任務(wù)為例,指令是:"你應(yīng)該使用日歷完成以下任務(wù):為我在5月21日安排一個標(biāo)題為'homework'的事件,并將通知時間設(shè)置為提前10分鐘。"基礎(chǔ)模型對指令的理解不足,忽略了事件標(biāo)題和通知時間等細(xì)節(jié)。它既沒有添加事件標(biāo)題也沒有設(shè)置通知,最終關(guān)閉了界面。相比之下,ZeroGUI訓(xùn)練后的模型準(zhǔn)確地捕捉并執(zhí)行了這些詳細(xì)要求,成功在指定日期添加了事件并設(shè)置了通知,這證明了該訓(xùn)練框架在緩解忽略細(xì)節(jié)的問題和提高任務(wù)準(zhǔn)確性方面的有效性。
值得注意的是,基礎(chǔ)模型未能完成上述任何任務(wù),表明缺乏來自成功軌跡的監(jiān)督。通過在生成任務(wù)上進(jìn)行訓(xùn)練,ZeroGUI訓(xùn)練后的模型學(xué)習(xí)了更具泛化性的交互策略。這種能力不僅提升了其在特定任務(wù)上的表現(xiàn),還展示了所提出的訓(xùn)練框架在使模型適應(yīng)復(fù)雜GUI環(huán)境方面的重要潛力和實際效果。
七、ZeroGUI的意義與未來展望
ZeroGUI代表了GUI代理訓(xùn)練領(lǐng)域的重大突破。通過消除對人工收集和標(biāo)注的離線訓(xùn)練數(shù)據(jù)的需求,它為GUI代理的大規(guī)模開發(fā)鋪平了道路。研究團(tuán)隊的兩階段強化學(xué)習(xí)策略不僅提高了代理的基本能力,還增強了其適應(yīng)具體任務(wù)的能力。
這項研究的突出貢獻(xiàn)包括:
1. 提出了ZeroGUI,一個完全自動化的在線學(xué)習(xí)框架,使GUI代理能夠通過與GUI環(huán)境的交互來提高,消除了收集和標(biāo)注離線訓(xùn)練數(shù)據(jù)的需求。
2. 設(shè)計了基于VLM的自動任務(wù)生成和獎勵估計,在沒有人工標(biāo)注的情況下生成訓(xùn)練任務(wù)并提供監(jiān)督獎勵。
3. 引入了兩階段強化學(xué)習(xí)策略。第一階段,在生成的任務(wù)上的訓(xùn)練建立了代理的一般能力;第二階段,測試時訓(xùn)練使代理能夠適應(yīng)目標(biāo)測試任務(wù)。
4. 所提出的ZeroGUI顯著提高了不同GUI環(huán)境的任務(wù)成功率,并很好地泛化到不同的基礎(chǔ)模型。
盡管ZeroGUI取得了顯著成功,但仍存在一些局限性和未來研究方向:
1. **獎勵估計精度**:當(dāng)前的獎勵估計仍然不夠完美,尤其是在處理復(fù)雜任務(wù)或需要細(xì)粒度理解的情況時。改進(jìn)VLM的獎勵估計能力或探索更復(fù)雜的獎勵模型是未來工作的重要方向。
2. **任務(wù)多樣性**:雖然當(dāng)前的任務(wù)生成方法產(chǎn)生了多樣化的任務(wù),但它們可能仍然無法完全覆蓋所有可能的用戶行為和交互模式。開發(fā)能夠生成更廣泛、更具挑戰(zhàn)性任務(wù)的方法將進(jìn)一步提高GUI代理的魯棒性。
3. **跨環(huán)境泛化**:當(dāng)前的實驗主要集中在特定的GUI環(huán)境中。探索代理如何將在一個環(huán)境中學(xué)到的技能轉(zhuǎn)移到新環(huán)境是一個有價值的研究方向。
4. **效率優(yōu)化**:在線學(xué)習(xí)過程需要大量的環(huán)境交互,這在計算資源方面可能很昂貴。開發(fā)更高效的學(xué)習(xí)算法和探索策略可以降低這些成本。
總的來說,ZeroGUI代表了GUI代理訓(xùn)練的范式轉(zhuǎn)變,從依賴人工標(biāo)注的靜態(tài)數(shù)據(jù)集轉(zhuǎn)向自主、持續(xù)的在線學(xué)習(xí)。這種方法不僅更具可擴(kuò)展性,而且可能導(dǎo)致更適應(yīng)性強、更通用的GUI代理,能夠有效地操作各種數(shù)字界面,最終為用戶提供更強大、更個性化的數(shù)字助手。
隨著該領(lǐng)域的發(fā)展,我們可以期待看到更多基于ZeroGUI框架的創(chuàng)新,以及這些創(chuàng)新如何使GUI代理更加智能、響應(yīng)迅速且適應(yīng)性強,最終改變我們與數(shù)字世界的交互方式。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機(jī)制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。