av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

ZeroGUI：零人工成本下自動化在線GUI學(xué)習(xí)的突破性研究

GUI代理在線強化學(xué)習(xí)零標(biāo)注學(xué)習(xí)

ZeroGUI：零人工成本下自動化在線GUI學(xué)習(xí)的突破性研究

作者：科技行者

2025-06-03 18:35

分享至：

ZeroGUI是一項突破性研究，實現(xiàn)了零人工成本下的GUI代理自動化在線學(xué)習(xí)。由上海人工智能實驗室和清華大學(xué)等機(jī)構(gòu)聯(lián)合開發(fā)，這一框架利用視覺-語言模型自動生成訓(xùn)練任務(wù)并提供獎勵反饋，使AI助手能夠自主學(xué)習(xí)操作各種圖形界面。通過兩階段強化學(xué)習(xí)策略，ZeroGUI顯著提升了代理性能，在OSWorld環(huán)境中使UI-TARS和Aguvis模型分別獲得14%和63%的相對改進(jìn)。該研究徹底消除了傳統(tǒng)方法對昂貴人工標(biāo)注的依賴，為GUI代理技術(shù)的大規(guī)模應(yīng)用鋪平了道路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-03 18:35 ? 科技行者

在現(xiàn)代數(shù)字世界，與圖形用戶界面（GUI）交互是我們?nèi)粘Ｉ畹囊徊糠?，無論是使用手機(jī)應(yīng)用、瀏覽網(wǎng)站還是操作電腦軟件。2025年5月，來自上海人工智能實驗室、清華大學(xué)、上海交通大學(xué)、香港科技大學(xué)和香港中文大學(xué)的研究團(tuán)隊發(fā)布了一項名為"ZeroGUI: Automating Online GUI Learning at Zero Human Cost"的突破性研究。這項研究由楊辰宇、蘇世謙、劉世、董軒、于越、蘇維杰等人共同完成，已在arXiv（arXiv:2505.23762v1）上發(fā)表。該研究團(tuán)隊開發(fā)了一種創(chuàng)新框架，讓AI助手能夠自主學(xué)習(xí)如何操作各種圖形界面，而無需人類提供任何標(biāo)注數(shù)據(jù)。

一、為什么需要ZeroGUI？理解GUI代理的現(xiàn)狀與挑戰(zhàn)

想象一下，你剛買了一部新手機(jī)，面對全新的操作界面和應(yīng)用程序，你需要一段時間才能熟悉。同樣，AI也需要學(xué)習(xí)如何理解和操作這些圖形界面。在過去，這種學(xué)習(xí)過程通常需要人類提供大量的標(biāo)注數(shù)據(jù)——就像有人手把手教你如何使用新手機(jī)一樣。研究人員需要記錄界面上每個按鈕的位置和功能，以及完成特定任務(wù)的詳細(xì)步驟。這個過程不僅費時費力，還難以擴(kuò)展到各種不同的應(yīng)用和平臺。

隨著大型視覺-語言模型（VLMs）的發(fā)展，如OpenAI的GPT-4V和谷歌的Gemini，基于純視覺的GUI代理（即能夠"看到"屏幕并執(zhí)行操作的AI系統(tǒng)）取得了顯著進(jìn)展。這些系統(tǒng)能夠感知用戶界面并根據(jù)指令執(zhí)行點擊、滾動或輸入等操作。然而，現(xiàn)有方法仍然面臨兩個核心限制：

首先，它們嚴(yán)重依賴高質(zhì)量的人工標(biāo)注，包括界面元素的識別（例如，確定屏幕上的按鈕、文本框等位置）和行動軌跡（即完成任務(wù)的一系列操作）。這些人工標(biāo)注非常昂貴且耗時，難以跨不同平臺和任務(wù)進(jìn)行擴(kuò)展。

其次，它們在適應(yīng)動態(tài)和交互式環(huán)境方面能力有限?，F(xiàn)實世界中的GUI是非靜態(tài)且不確定的：元素可能會移動、消失或根據(jù)系統(tǒng)狀態(tài)表現(xiàn)出不同的行為?，F(xiàn)有代理往往過度擬合于靜態(tài)或定義狹窄的任務(wù)，難以在開放式場景中泛化。

研究團(tuán)隊提出了一個關(guān)鍵問題：我們能否創(chuàng)建一個系統(tǒng)，讓AI代理能夠通過與GUI環(huán)境的持續(xù)交互來學(xué)習(xí)和改進(jìn)，而無需人類提供任何標(biāo)注？這就像讓AI"自己玩"各種應(yīng)用程序，從中學(xué)習(xí)如何操作，而不需要人類教導(dǎo)。

二、ZeroGUI：一種自動化的在線學(xué)習(xí)框架

為了解決上述挑戰(zhàn)，研究團(tuán)隊開發(fā)了ZeroGUI，這是一個完全自動化的在線學(xué)習(xí)框架，使GUI代理能夠在沒有任何人工成本的情況下不斷提升性能。

想象你在教一個孩子使用新游戲。傳統(tǒng)方法就像你一步步地給孩子詳細(xì)說明和演示，而ZeroGUI則是給孩子一個安全的環(huán)境，讓他自己嘗試，系統(tǒng)會自動告訴他做得對不對，并且會不斷給他設(shè)計新的練習(xí)任務(wù)來提高技能。

ZeroGUI的核心理念是利用現(xiàn)有的視覺-語言模型（VLMs）來自動化兩個關(guān)鍵過程：任務(wù)生成和獎勵估計。這些VLMs已經(jīng)在大規(guī)模GUI相關(guān)數(shù)據(jù)上進(jìn)行了訓(xùn)練，擅長理解GUI元素、動作和狀態(tài)轉(zhuǎn)換。它們可以評估任務(wù)完成情況并基于觀察到的信息提出相關(guān)任務(wù)。

該框架包含三個主要組件：

1. **基于VLM的自動任務(wù)生成**：系統(tǒng)會根據(jù)隨機(jī)初始狀態(tài)提出多樣化的訓(xùn)練任務(wù)。就像一個創(chuàng)意豐富的老師，能夠根據(jù)當(dāng)前屏幕內(nèi)容設(shè)計各種練習(xí)題目。例如，看到一個文本編輯器界面，系統(tǒng)可能會生成"將第一段文字設(shè)為粗體"或"更改文檔的頁面設(shè)置"等任務(wù)。

2. **基于VLM的自動獎勵估計**：系統(tǒng)能夠預(yù)測任務(wù)是否成功完成，提供二元獎勵（成功/失?。┳鳛楸O(jiān)督信號。這消除了對手工制作的任務(wù)驗證器的需求。就像有一個能夠自動判斷任務(wù)是否正確完成的評判員，而不需要人類來檢查每一步操作。

3. **兩階段在線強化學(xué)習(xí)**：包括在生成的任務(wù)上進(jìn)行訓(xùn)練，然后在測試時進(jìn)行適應(yīng)性調(diào)整。系統(tǒng)支持GUI代理與環(huán)境之間的多步交互。這就像先讓學(xué)生在模擬環(huán)境中練習(xí)，然后再讓他們應(yīng)對真實場景中的挑戰(zhàn)。

與傳統(tǒng)的離線學(xué)習(xí)方法相比，ZeroGUI具有兩個顯著優(yōu)勢：首先，它完全消除了收集和標(biāo)注訓(xùn)練數(shù)據(jù)的人力成本；其次，它能夠持續(xù)適應(yīng)動態(tài)變化的GUI環(huán)境，使代理在復(fù)雜的實際應(yīng)用場景中表現(xiàn)更出色。

三、技術(shù)實現(xiàn)：ZeroGUI如何工作？

讓我們深入了解ZeroGUI的工作原理，就像拆解一臺精密機(jī)器，看看它的核心部件是如何協(xié)同工作的。

首先，讓我們理解GUI任務(wù)完成過程可以被視為一個馬爾可夫決策過程（MDP）。這聽起來很復(fù)雜，但其實很簡單：給定一個任務(wù)指令，GUI代理與環(huán)境交互。在每一步，代理根據(jù)當(dāng)前觀察到的屏幕內(nèi)容和歷史信息預(yù)測下一個動作。這個過程會一直持續(xù)，直到遇到終止動作或達(dá)到最大步數(shù)，最終形成一個操作軌跡。

ZeroGUI的實現(xiàn)分為三個關(guān)鍵部分：

**1. 自動任務(wù)生成**

想象你有一個非常聰明的朋友，他看一眼電腦屏幕就能想出各種有用的任務(wù)讓你練習(xí)。ZeroGUI的任務(wù)生成器就是這樣工作的。

研究團(tuán)隊使用先進(jìn)的視覺-語言模型（如GPT-4o）來生成任務(wù)。他們發(fā)現(xiàn)，在任務(wù)生成過程中面臨的一個關(guān)鍵挑戰(zhàn)是確保生成的任務(wù)足夠多樣化，能夠覆蓋廣泛的行為空間，同時又能與目標(biāo)環(huán)境的操作約束保持一致。

為此，他們采用了以下設(shè)計：

- **示例引導(dǎo)式提示**：系統(tǒng)會結(jié)合指令示例和隨機(jī)采樣的初始狀態(tài)截圖，引導(dǎo)模型生成特定環(huán)境下的真實任務(wù)。就像給AI看一張瀏覽器截圖和一些瀏覽器任務(wù)的例子，AI就能創(chuàng)造出新的合理的瀏覽器任務(wù)。

- **多候選生成**：在每次生成步驟中，系統(tǒng)會同時請求多個任務(wù)候選，鼓勵模型生成多樣化的任務(wù)集，而不是過度擬合于某一特定任務(wù)風(fēng)格。這就像讓AI一次提出10個不同的練習(xí)，而不是反復(fù)提出類似的任務(wù)。

此外，為了訓(xùn)練代理識別不可實現(xiàn)的目標(biāo)并提供適當(dāng)?shù)姆答?，研究團(tuán)隊還特意讓系統(tǒng)生成一部分不可行的任務(wù)。這些任務(wù)在環(huán)境中有意設(shè)計為無法解決，要求代理明確輸出"FAIL"響應(yīng)。這就像故意給學(xué)生出一些無解的題目，教會他們識別問題的可解性。

**2. 自動獎勵估計**

傳統(tǒng)的交互式環(huán)境通常使用基于腳本的驗證器來確定任務(wù)是否成功（例如，檢查文件內(nèi)容或系統(tǒng)狀態(tài)）。這些驗證器通常涉及復(fù)雜的命令和邏輯來覆蓋所有可能的情況，嚴(yán)重依賴手動實現(xiàn)和調(diào)試。

ZeroGUI使用視覺-語言模型為軌跡分配二元獎勵。然而，基于VLM的評估并不完美，它可能會忽略細(xì)節(jié)或受到幻覺的影響，導(dǎo)致錯誤的標(biāo)記。在兩種錯誤類型中（假陽性和假陰性），研究表明假陽性影響更大，因為它們會扭曲代理的學(xué)習(xí)過程。

為了解決這個問題，獎勵估計器專注于減少假陽性并提高精確度：

- **包含軌跡中的所有截圖**：有些任務(wù)的成功只能通過動作前后環(huán)境的變化來確定，因此需要所有截圖。

- **排除代理的響應(yīng)**：這些響應(yīng)可能包含成功的幻覺，即使任務(wù)實際上失敗了，也可能誤導(dǎo)VLM給出假陽性獎勵。

- **采用投票機(jī)制**：系統(tǒng)會多次查詢VLM，基于多數(shù)同意或更嚴(yán)格的一致同意（即只有當(dāng)所有輸出都表明成功時才分配獎勵）來分配獎勵。這進(jìn)一步降低了假陽性的風(fēng)險。

**3. 兩階段在線強化學(xué)習(xí)**

有了自動任務(wù)生成和獎勵估計機(jī)制，GUI代理可以通過持續(xù)與GUI環(huán)境交互并根據(jù)獎勵更新其策略來進(jìn)行在線學(xué)習(xí)。由于獎勵估計器不依賴內(nèi)部環(huán)境狀態(tài)或標(biāo)準(zhǔn)標(biāo)簽，它也可以為測試任務(wù)提供獎勵，實現(xiàn)測試時適應(yīng)。

研究團(tuán)隊引入了兩階段訓(xùn)練策略：

- **在生成的任務(wù)上訓(xùn)練**：代理從生成的任務(wù)中學(xué)習(xí)基本能力。就像在模擬環(huán)境中練習(xí)基礎(chǔ)技能。

- **測試時訓(xùn)練**：代理使用來自獎勵估計器的獎勵適應(yīng)目標(biāo)測試任務(wù)。這就像在實際考試中進(jìn)一步調(diào)整和完善技能。

他們采用強化學(xué)習(xí)（RL）進(jìn)行這種兩階段在線訓(xùn)練，使用了組相對策略優(yōu)化（GRPO）算法，該算法消除了對額外價值函數(shù)的需求，并在其他場景中對大型語言模型和視覺語言模型的后訓(xùn)練非常有效。

為了適應(yīng)GUI代理的在線RL，研究團(tuán)隊對原始GRPO算法進(jìn)行了以下修改：

- **將優(yōu)化目標(biāo)擴(kuò)展到多步軌跡**：原始GRPO中，每個樣本是單個生成序列，而在GUI代理設(shè)置中，每個軌跡由多個操作預(yù)測序列組成。

- **修改KL損失項以提高訓(xùn)練穩(wěn)定性**：原始GRPO使用k3-估計器計算KL散度，但研究團(tuán)隊發(fā)現(xiàn)這可能導(dǎo)致梯度過大，容易出現(xiàn)溢出或下溢。他們將其替換為k2-估計器（即逐標(biāo)記MSE損失），提供更穩(wěn)定的梯度，避免數(shù)值溢出。

實驗證明，這些修改顯著提高了訓(xùn)練的穩(wěn)定性和性能。

四、實驗評估：ZeroGUI的驚人效果

研究團(tuán)隊在兩個先進(jìn)的GUI代理（UI-TARS和Aguvis）上應(yīng)用了ZeroGUI，并利用桌面（OSWorld）和移動（AndroidLab）環(huán)境進(jìn)行評估。他們的實驗設(shè)計得非常全面，讓我們了解這個系統(tǒng)在真實世界中的表現(xiàn)。

**OSWorld實驗**

OSWorld是一個基于計算機(jī)環(huán)境構(gòu)建的基準(zhǔn)，用于評估多模態(tài)代理在復(fù)雜真實世界任務(wù)上的表現(xiàn)。它包含369個任務(wù)，涵蓋Web應(yīng)用程序、桌面軟件和操作系統(tǒng)級操作。其中，30個任務(wù)（測試集的8.1%）被設(shè)計為不可行的，用于評估代理檢測已棄用或幻覺功能的能力。

在Ubuntu平臺上，使用僅屏幕截圖模式，研究團(tuán)隊在分辨率為1920×1080的屏幕上進(jìn)行了評估，最大步數(shù)限制為15步。為了減少網(wǎng)絡(luò)不穩(wěn)定性和環(huán)境變異性的影響，他們報告了4次運行的平均值和標(biāo)準(zhǔn)差。

實驗結(jié)果令人振奮：

1. 與基礎(chǔ)模型相比，ZeroGUI顯著提高了任務(wù)成功率，尤其是在可行子集上。具體來說，對于UI-TARS-7B-DPO，在所有任務(wù)上取得了+2.5（14%）的提升，在可行子集上取得了+4.5（40%）的提升。對于Aguvis-7B，盡管基礎(chǔ)模型表現(xiàn)較差，但ZeroGUI仍然帶來了+1.9（63%）和+2.1（88%）的提升，相對改進(jìn)甚至更大。

2. 兩個訓(xùn)練階段（生成任務(wù)訓(xùn)練和測試時訓(xùn)練）都對性能提升有所貢獻(xiàn)。通過pass@4和all-pass@4指標(biāo)進(jìn)一步揭示了它們的互補角色：生成任務(wù)訓(xùn)練顯著提高了pass@4，表明大規(guī)模多樣化生成任務(wù)有助于擴(kuò)展模型的能力覆蓋范圍；測試時訓(xùn)練主要提升了all-pass@4，表明模型在適應(yīng)目標(biāo)任務(wù)后行為一致性得到增強。

3. 僅使用測試時訓(xùn)練的表現(xiàn)不如兩階段設(shè)置，這突顯了生成訓(xùn)練在提供有益能力基礎(chǔ)方面的作用，使RL在下一階段能夠解鎖更多任務(wù)并獲得更多信息性獎勵。

4. 在全測試集上的改進(jìn)小于可行子集（例如，UI-TARS-7B-DPO的平均成功率+2.5 vs. +4.5），表明在不可行性檢測方面有所下降。這可能有兩個原因：(a)VLM缺乏特定軟件的詳細(xì)知識，難以判斷不可行性；(b)帶有假陽性的噪聲獎勵可能導(dǎo)致模型變得過于自信。為了緩解這一問題，研究團(tuán)隊在訓(xùn)練集中包含了一部分生成的不可行任務(wù)，這在很大程度上緩解了這個問題。

**AndroidLab實驗**

AndroidLab是一個交互式Android環(huán)境，包括Android系統(tǒng)和9個可離線部署的應(yīng)用程序（如時鐘、日歷等）。它包含138個測試任務(wù)，分為兩類：操作任務(wù)和查詢檢測任務(wù)。操作任務(wù)涉及通過操作完成目標(biāo)，并通過預(yù)定義規(guī)則進(jìn)行評估；查詢檢測任務(wù)要求模型提取信息并返回文本答案，由GPT進(jìn)行評分。

由于某些任務(wù)的GPT評估不完全可靠，研究團(tuán)隊報告了全測試集和操作任務(wù)子集的評估結(jié)果。在截圖模式下，ZeroGUI在操作子集上實現(xiàn)了+2.8的提升，在全測試集上實現(xiàn)了+1.8的提升，這表明所提出的ZeroGUI在不同交互式GUI環(huán)境中具有良好的泛化能力。

從子目標(biāo)成功率（Sub-SR）的角度來看，ZeroGUI在操作子集上實現(xiàn)了+2.9的提升。盡管僅利用整體任務(wù)獎勵，它仍然在子任務(wù)指標(biāo)上取得了性能提升。

**實驗細(xì)節(jié)**

在任務(wù)生成方面，研究團(tuán)隊使用GPT-4o為OSWorld一次生成10個任務(wù)，為AndroidLab一次生成5個任務(wù)?？偣采闪?,000多個基于Ubuntu的任務(wù)和225個基于Android的任務(wù)。在訓(xùn)練時，他們從生成池中隨機(jī)抽樣了725個Ubuntu任務(wù)和175個Android任務(wù)，約為各自測試集大小的兩倍。

對于獎勵估計，他們本地部署了Qwen2.5-VL-32B以提高效率。他們使用溫度為1.0的VLM進(jìn)行4次查詢，并使用一致同意投票來確定獎勵。

對于訓(xùn)練，他們選擇了UI-TARS-7B-DPO和Aguvis-7B作為基礎(chǔ)模型，使用AdamW優(yōu)化器，學(xué)習(xí)率恒定為2e-6。對于GRPO，他們設(shè)置組大小G=64，KL系數(shù)β=0.1，并采用DAPO動態(tài)采樣，過濾掉準(zhǔn)確率等于1或0的任務(wù)。對于每個rollout步驟，采樣持續(xù)到收集16k序列，然后進(jìn)行單次梯度更新。他們對生成任務(wù)和測試時任務(wù)各訓(xùn)練1個epoch。

五、深入分析：ZeroGUI的組件效果

研究團(tuán)隊進(jìn)行了全面的消融研究，以理解ZeroGUI各個組件的貢獻(xiàn)。這些研究就像拆解一臺機(jī)器，單獨測試每個零件的作用，幫助我們理解系統(tǒng)中真正重要的部分。

**任務(wù)生成**

研究表明，移除任務(wù)生成過程中的示例或一次只生成一個任務(wù)會導(dǎo)致測試性能下降。這可以歸因于兩個因素：提供任務(wù)示例有助于將生成任務(wù)的分布與目標(biāo)領(lǐng)域?qū)R，而生成多個任務(wù)增加了多樣性，這對訓(xùn)練數(shù)據(jù)至關(guān)重要。

此外，排除不可行任務(wù)會導(dǎo)致在不可行子集上的表現(xiàn)急劇下降，表明這類任務(wù)幫助模型識別不可實現(xiàn)的目標(biāo)并減少過度自信。

**獎勵估計**

研究團(tuán)隊先隨機(jī)選擇一組軌跡（UI-TARS-7B-DPO在生成任務(wù)上的表現(xiàn)）并手動標(biāo)注了基礎(chǔ)事實獎勵。然后，他們將不同的獎勵估計方法應(yīng)用于這組軌跡，評估它們的精確度和召回率。此外，他們使用每種方法估計的獎勵訓(xùn)練了單獨的模型，并比較它們在測試任務(wù)上的成功率。

結(jié)果表明：

1. 使用最終截圖而非所有截圖會導(dǎo)致精確度、召回率和測試成功率較低。

2. 在獎勵估計過程中包括代理的響應(yīng)會產(chǎn)生最高的召回率，但顯著降低了精確度和測試成功率，表明VLM被響應(yīng)誤導(dǎo)，產(chǎn)生了許多假陽性。

3. 排除代理的響應(yīng)并應(yīng)用投票機(jī)制會增加精確度同時降低召回率，并導(dǎo)致測試成功率顯著提高。這表明假陽性錯誤對模型訓(xùn)練的影響更大。

**強化學(xué)習(xí)訓(xùn)練**

為了評估在線RL訓(xùn)練的有效性，研究團(tuán)隊將其與兩個基線進(jìn)行了比較：離線拒絕采樣微調(diào)（RFT）和在線RFT。

離線RFT首先使用基礎(chǔ)模型為所有任務(wù)收集軌跡，然后僅在正樣本上進(jìn)行微調(diào)。其性能受限于收集的軌跡與更新后的策略之間的分布不匹配，并且無法利用策略更新后發(fā)現(xiàn)的新任務(wù)的獎勵。

在線RFT表現(xiàn)更好，但仍落后于在線RL。這主要是因為RFT丟棄了所有負(fù)樣本，而RL使模型能夠從中學(xué)習(xí)并避免重復(fù)過去的錯誤。

研究還評估了將原始GRPO中的k3-KL損失替換為k2-KL損失的效果。結(jié)果表明，k2-KL產(chǎn)生更高、更穩(wěn)定的訓(xùn)練準(zhǔn)確率。測試成功率進(jìn)一步驗證了k2-KL在這種設(shè)置下的優(yōu)越性。

**關(guān)于KL損失的進(jìn)一步分析**

雖然一些現(xiàn)有工作建議為一般推理任務(wù)移除KL懲罰，但研究團(tuán)隊在訓(xùn)練GUI代理的背景下發(fā)現(xiàn)了不同的結(jié)果。他們觀察到，設(shè)置β=0.1產(chǎn)生最佳測試性能。完全移除KL損失（β=0）或使用較小的β（如0.01）會導(dǎo)致性能下降，可能是因為策略分布漂移導(dǎo)致模型過度擬合當(dāng)前任務(wù)。相比之下，較大的β（如1）對優(yōu)化施加過多約束，也會導(dǎo)致更差的結(jié)果。

六、ZeroGUI的案例研究：從困境到成功的轉(zhuǎn)變

研究團(tuán)隊進(jìn)行了案例研究，進(jìn)一步展示了ZeroGUI的有效性。他們觀察到，基礎(chǔ)模型UI-TARS-7B-DPO在任務(wù)理解和對細(xì)節(jié)的關(guān)注方面有限，在任務(wù)執(zhí)行過程中經(jīng)常陷入重復(fù)動作循環(huán)。相比之下，經(jīng)過ZeroGUI訓(xùn)練后，模型表現(xiàn)出明顯更穩(wěn)定的行為策略和更強的任務(wù)執(zhí)行能力。

例如，在OSWorld的VS Code領(lǐng)域中，有一個指令是："我想讓標(biāo)簽在超出可用空間時換行成多行，請幫助修改VS Code的設(shè)置。"在執(zhí)行過程中，基礎(chǔ)模型嘗試修改"Tab Size"參數(shù)，但在輸入新值之前未能刪除默認(rèn)值。相反，它將新數(shù)字添加到現(xiàn)有值之前，導(dǎo)致設(shè)置錯誤。然后，這種錯誤操作被重復(fù)多次，表明模型缺乏檢測無效動作的能力。相比之下，ZeroGUI訓(xùn)練后的模型采用了更穩(wěn)健的動作策略：它首先使用鍵盤快捷鍵選擇所有現(xiàn)有內(nèi)容，然后輸入正確的值，成功完成任務(wù)。

另一個例子來自LibreOffice Impress領(lǐng)域，指令是："將桌面上的圖像'none.png'添加到幻燈片2，大小為1cm*1cm。"在點擊"插入"菜單后，基礎(chǔ)模型嘗試選擇"圖像"選項，但由于定位不準(zhǔn)確而誤點了一個空白區(qū)域，導(dǎo)致菜單過早關(guān)閉。然而，模型未能檢測到這種變化，繼續(xù)嘗試點擊現(xiàn)已關(guān)閉的"插入"菜單下的"圖像"選項，導(dǎo)致無效重復(fù)。相比之下，ZeroGUI訓(xùn)練后的模型更可靠地完成了完整的插入過程。它成功打開了圖像插入界面，選擇了正確的圖像文件，逐步調(diào)整了寬度和高度，最終準(zhǔn)確地完成了這個長期任務(wù)。

在執(zhí)行AndroidLab任務(wù)時，模型同樣顯示出顯著的性能提升。以日歷任務(wù)為例，指令是："你應(yīng)該使用日歷完成以下任務(wù)：為我在5月21日安排一個標(biāo)題為'homework'的事件，并將通知時間設(shè)置為提前10分鐘。"基礎(chǔ)模型對指令的理解不足，忽略了事件標(biāo)題和通知時間等細(xì)節(jié)。它既沒有添加事件標(biāo)題也沒有設(shè)置通知，最終關(guān)閉了界面。相比之下，ZeroGUI訓(xùn)練后的模型準(zhǔn)確地捕捉并執(zhí)行了這些詳細(xì)要求，成功在指定日期添加了事件并設(shè)置了通知，這證明了該訓(xùn)練框架在緩解忽略細(xì)節(jié)的問題和提高任務(wù)準(zhǔn)確性方面的有效性。

值得注意的是，基礎(chǔ)模型未能完成上述任何任務(wù)，表明缺乏來自成功軌跡的監(jiān)督。通過在生成任務(wù)上進(jìn)行訓(xùn)練，ZeroGUI訓(xùn)練后的模型學(xué)習(xí)了更具泛化性的交互策略。這種能力不僅提升了其在特定任務(wù)上的表現(xiàn)，還展示了所提出的訓(xùn)練框架在使模型適應(yīng)復(fù)雜GUI環(huán)境方面的重要潛力和實際效果。

七、ZeroGUI的意義與未來展望

ZeroGUI代表了GUI代理訓(xùn)練領(lǐng)域的重大突破。通過消除對人工收集和標(biāo)注的離線訓(xùn)練數(shù)據(jù)的需求，它為GUI代理的大規(guī)模開發(fā)鋪平了道路。研究團(tuán)隊的兩階段強化學(xué)習(xí)策略不僅提高了代理的基本能力，還增強了其適應(yīng)具體任務(wù)的能力。

這項研究的突出貢獻(xiàn)包括：

1. 提出了ZeroGUI，一個完全自動化的在線學(xué)習(xí)框架，使GUI代理能夠通過與GUI環(huán)境的交互來提高，消除了收集和標(biāo)注離線訓(xùn)練數(shù)據(jù)的需求。

2. 設(shè)計了基于VLM的自動任務(wù)生成和獎勵估計，在沒有人工標(biāo)注的情況下生成訓(xùn)練任務(wù)并提供監(jiān)督獎勵。

3. 引入了兩階段強化學(xué)習(xí)策略。第一階段，在生成的任務(wù)上的訓(xùn)練建立了代理的一般能力；第二階段，測試時訓(xùn)練使代理能夠適應(yīng)目標(biāo)測試任務(wù)。

4. 所提出的ZeroGUI顯著提高了不同GUI環(huán)境的任務(wù)成功率，并很好地泛化到不同的基礎(chǔ)模型。

盡管ZeroGUI取得了顯著成功，但仍存在一些局限性和未來研究方向：

1. **獎勵估計精度**：當(dāng)前的獎勵估計仍然不夠完美，尤其是在處理復(fù)雜任務(wù)或需要細(xì)粒度理解的情況時。改進(jìn)VLM的獎勵估計能力或探索更復(fù)雜的獎勵模型是未來工作的重要方向。

2. **任務(wù)多樣性**：雖然當(dāng)前的任務(wù)生成方法產(chǎn)生了多樣化的任務(wù)，但它們可能仍然無法完全覆蓋所有可能的用戶行為和交互模式。開發(fā)能夠生成更廣泛、更具挑戰(zhàn)性任務(wù)的方法將進(jìn)一步提高GUI代理的魯棒性。

3. **跨環(huán)境泛化**：當(dāng)前的實驗主要集中在特定的GUI環(huán)境中。探索代理如何將在一個環(huán)境中學(xué)到的技能轉(zhuǎn)移到新環(huán)境是一個有價值的研究方向。

4. **效率優(yōu)化**：在線學(xué)習(xí)過程需要大量的環(huán)境交互，這在計算資源方面可能很昂貴。開發(fā)更高效的學(xué)習(xí)算法和探索策略可以降低這些成本。

總的來說，ZeroGUI代表了GUI代理訓(xùn)練的范式轉(zhuǎn)變，從依賴人工標(biāo)注的靜態(tài)數(shù)據(jù)集轉(zhuǎn)向自主、持續(xù)的在線學(xué)習(xí)。這種方法不僅更具可擴(kuò)展性，而且可能導(dǎo)致更適應(yīng)性強、更通用的GUI代理，能夠有效地操作各種數(shù)字界面，最終為用戶提供更強大、更個性化的數(shù)字助手。

隨著該領(lǐng)域的發(fā)展，我們可以期待看到更多基于ZeroGUI框架的創(chuàng)新，以及這些創(chuàng)新如何使GUI代理更加智能、響應(yīng)迅速且適應(yīng)性強，最終改變我們與數(shù)字世界的交互方式。

GUI代理在線強化學(xué)習(xí)零標(biāo)注學(xué)習(xí)

分享至

0贊

好文章，需要你的鼓勵

推薦文章

人工智能
動態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示，該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時，輸出長度減少46.9%，真正實現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實時流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù)，實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機(jī)制和高效訓(xùn)練算法三項創(chuàng)新，解決了長視頻生成中的錯誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集，使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示，幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。

浙江大學(xué)突破：讓AI專家團(tuán)隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊在考試時"動態(tài)組隊"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<table id="i0cax"><strong id="i0cax"></strong></table>

<nobr id="i0cax"></nobr>