這項由中科院自動化研究所的萬彥陽團隊和阿里巴巴集團合作開展的突破性研究,發(fā)表于2025年6月的arXiv預(yù)印本平臺。研究團隊包括來自中科院自動化研究所、中科院大學(xué)人工智能學(xué)院、阿里巴巴集團以及北京交通大學(xué)的多位研究者。感興趣的讀者可以通過https://github.com/X-PLUG/MobileAgent/tree/main/GUI-Critic-R1訪問完整的研究代碼和資料。
想象一下這樣的場景:你正在使用AI助手幫你在手機上處理一些重要事務(wù),比如重命名一個珍貴的音頻文件。結(jié)果AI助手"手抖"了一下,竟然點擊了刪除按鈕而不是重命名按鈕。這個音頻文件瞬間消失,而且無法恢復(fù)?;蛘吣阕孉I助手幫你開啟藍牙,它卻選擇了一條繞遠路的方式,本來可以直接從控制中心開啟,它卻非要先打開設(shè)置應(yīng)用,再找到連接設(shè)備,再找到藍牙選項,最后才開啟藍牙,白白浪費了好幾個步驟。
這些聽起來像是科幻電影中的情節(jié),但實際上在今天的AI助手技術(shù)中經(jīng)常發(fā)生?,F(xiàn)在的多模態(tài)大語言模型(簡單理解就是既能看圖又能理解文字的AI大腦)在幫助人們自動操作手機或電腦時,經(jīng)常會犯這樣的錯誤。更糟糕的是,這些錯誤往往是累積性的——一步錯,步步錯,最終導(dǎo)致整個任務(wù)失敗,有時甚至造成不可挽回的損失。
中科院自動化研究所的研究團隊敏銳地察覺到了這個問題的嚴重性。他們意識到,在AI助手真正執(zhí)行操作之前,應(yīng)該有一個"智能檢查員"來提前審視即將執(zhí)行的動作,就像我們開車前會檢查后視鏡、系安全帶一樣。如果發(fā)現(xiàn)即將執(zhí)行的操作有問題,這個檢查員可以及時喊停并給出正確的建議。
為了解決這個關(guān)鍵問題,研究團隊開發(fā)了一個名為GUI-Critic-R1的"行前檢查員"模型。這個模型的工作原理就像一個經(jīng)驗豐富的駕駛教練坐在副駕駛座上,在學(xué)員即將犯錯時及時提醒。它會仔細觀察當前的手機屏幕狀態(tài),分析AI助手準備執(zhí)行的操作,預(yù)測這個操作可能帶來的結(jié)果,然后判斷這個操作是否正確。如果發(fā)現(xiàn)問題,它會立即給出警告并提供更好的建議。
這項研究的創(chuàng)新之處在于它是首次提出"預(yù)操作批評"機制的工作。以往的AI助手要么沒有檢查機制,要么只能在犯錯之后進行補救,就像已經(jīng)發(fā)生車禍后才想起系安全帶一樣。而這個新模型是在"事故"發(fā)生之前就進行預(yù)防,大大提高了操作的安全性和效率。
研究團隊還專門設(shè)計了一套名為"建議感知分組相對策略優(yōu)化"的訓(xùn)練方法,聽起來很復(fù)雜,但本質(zhì)上就是讓這個檢查員不僅能發(fā)現(xiàn)問題,還能給出靠譜的解決方案。他們還創(chuàng)建了專門的訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,包含了大量手機和網(wǎng)頁操作的真實場景,確保這個檢查員在各種情況下都能發(fā)揮作用。
實驗結(jié)果非常令人鼓舞。在靜態(tài)測試中,GUI-Critic-R1在判斷操作正確性方面顯著超越了目前最先進的AI模型。在動態(tài)的真實手機操作測試中,使用了這個檢查員的AI助手成功率從22.4%提升到了27.6%,同時還大大提高了操作效率,讓AI助手能夠用更少的步驟完成同樣的任務(wù)。
這項研究不僅解決了AI助手操作可靠性的關(guān)鍵問題,還為未來智能設(shè)備的人機交互指明了新的方向。隨著我們越來越依賴AI助手來處理日常事務(wù),這樣的"智能檢查員"將成為保障我們數(shù)字生活安全的重要防線。
在移動互聯(lián)網(wǎng)時代,人們對AI助手能夠直接操作手機完成復(fù)雜任務(wù)的需求越來越強烈。人們希望能夠用自然語言告訴AI助手"幫我預(yù)訂明晚的餐廳"或"幫我整理一下照片相冊",然后AI助手就能像真人助理一樣在手機上執(zhí)行一系列操作來完成任務(wù)。然而,由于手機界面的復(fù)雜性和操作的連續(xù)性,AI助手很容易在某個步驟出錯,導(dǎo)致整個任務(wù)鏈條斷裂。
傳統(tǒng)的解決方案通常是在AI助手犯錯之后進行糾錯,比如讓AI助手執(zhí)行操作,然后檢查結(jié)果,發(fā)現(xiàn)錯誤后再想辦法補救。但這種方法有很多局限性:首先,有些操作一旦執(zhí)行就無法撤銷,比如刪除文件、發(fā)送消息或進行支付;其次,每次犯錯都需要額外的步驟來糾正,大大降低了效率;最后,頻繁的錯誤和糾正會讓用戶對AI助手失去信心。
研究團隊意識到,最好的解決方案是預(yù)防而不是治療。他們提出了一個革命性的想法:在AI助手真正執(zhí)行操作之前,先讓一個專門的"批評者"模型來評估這個操作是否合適。這就像在建筑工程中,工程師會在施工前仔細檢查設(shè)計圖紙,發(fā)現(xiàn)潛在問題并提前修正,而不是等房子建好后再發(fā)現(xiàn)問題。
GUI-Critic-R1模型的工作流程可以用一個生動的比喻來說明。想象AI助手是一個剛學(xué)會開車的新手司機,而GUI-Critic-R1就是坐在副駕駛座上的經(jīng)驗豐富的駕駛教練。當新手司機準備做出某個駕駛動作時,比如準備變道,駕駛教練會快速觀察周圍的交通狀況,判斷現(xiàn)在變道是否安全。如果發(fā)現(xiàn)有危險,教練會立即喊停并告訴司機應(yīng)該怎么做:"等等,現(xiàn)在不能變道,左邊有輛車正在快速接近,等它超過后再變道。"
具體到手機操作上,GUI-Critic-R1會接收三個關(guān)鍵信息:用戶的指令(比如"重命名這個音頻文件")、當前的操作歷史(比如已經(jīng)打開了文件管理器,找到了目標文件),以及當前的屏幕截圖。然后它會分析AI助手準備執(zhí)行的下一步操作(比如點擊某個按鈕),預(yù)測這個操作會帶來什么結(jié)果,最后判斷這個操作是否有助于完成用戶的任務(wù)。
為了讓GUI-Critic-R1具備這種判斷能力,研究團隊采用了一種巧妙的訓(xùn)練方法。他們首先收集了大量真實的手機操作數(shù)據(jù),這些數(shù)據(jù)包含了正確的操作序列。然后他們故意生成一些錯誤的操作,讓模型學(xué)會區(qū)分什么是對的,什么是錯的。這個過程就像訓(xùn)練一個食品安全檢查員,讓他既見過新鮮的食品,也見過變質(zhì)的食品,這樣他就能準確判斷食品是否安全。
更重要的是,研究團隊還訓(xùn)練模型不僅要能發(fā)現(xiàn)問題,還要能給出建設(shè)性的建議。這就像一個好的老師不僅會指出學(xué)生的錯誤,還會告訴學(xué)生正確的做法。為了實現(xiàn)這一點,他們設(shè)計了一個特殊的獎勵機制,叫做"建議獎勵"。當模型給出的建議越接近正確答案,它就會得到越高的獎勵,這樣模型就會逐漸學(xué)會給出更有用的建議。
在數(shù)據(jù)準備方面,研究團隊面臨一個重大挑戰(zhàn):現(xiàn)有的公開數(shù)據(jù)集中并沒有專門用于訓(xùn)練操作批評模型的數(shù)據(jù)。這就像要培訓(xùn)食品安全檢查員,但市面上沒有現(xiàn)成的培訓(xùn)教材。于是他們開發(fā)了一套創(chuàng)新的數(shù)據(jù)生成方法,叫做"推理自舉"。
這個方法的核心思想是讓現(xiàn)有的強大AI模型(比如GPT-4)來充當"老師",生成大量的批評示例。但直接讓AI模型生成批評內(nèi)容會有一個問題:如果提前告訴模型正確答案,模型可能會過度依賴這個答案,而不是真正理解為什么這個操作是對的或錯的。這就像考試時如果提前知道答案,學(xué)生可能不會真正思考問題。
為了避免這個問題,研究團隊采用了一種更加巧妙的方法。他們只給AI模型提供當前的屏幕狀態(tài)和準備執(zhí)行的操作,讓模型自己推理這個操作是否正確,以及應(yīng)該給出什么建議。然后他們會比較模型的推理結(jié)果和真正的正確答案,只保留那些推理過程正確的數(shù)據(jù)。這樣生成的數(shù)據(jù)更加可靠,因為它反映了真正的推理過程。
在訓(xùn)練策略上,研究團隊采用了一種"兩階段"的方法。第一階段叫做"強化微調(diào)冷啟動",就像給新員工提供入職培訓(xùn),讓模型掌握基本的GUI批評能力。在這個階段,模型會學(xué)習(xí)如何分析屏幕內(nèi)容,如何預(yù)測操作結(jié)果,以及如何給出合理的建議。
第二階段叫做"建議感知分組相對策略優(yōu)化",這是研究團隊的一個重要創(chuàng)新。傳統(tǒng)的強化學(xué)習(xí)方法主要關(guān)注最終答案的正確性,但對于GUI批評任務(wù)來說,給出有用的建議同樣重要。研究團隊設(shè)計了一個綜合的獎勵函數(shù),它不僅會獎勵模型給出正確的判斷,還會獎勵模型給出有用的建議。
這個訓(xùn)練過程就像培訓(xùn)一個多技能的員工。不僅要求員工能夠準確識別問題(正確性獎勵),還要求員工能夠按照標準格式匯報工作(格式獎勵),更重要的是,還要求員工能夠提出建設(shè)性的解決方案(建議獎勵)。通過這種全面的培訓(xùn),模型最終能夠成為一個合格的"操作批評專家"。
為了驗證GUI-Critic-R1的效果,研究團隊設(shè)計了兩套評估方案:靜態(tài)評估和動態(tài)評估。靜態(tài)評估就像筆試,測試模型在各種預(yù)設(shè)場景下的判斷能力。動態(tài)評估則像實際工作考核,測試模型在真實手機操作環(huán)境中的表現(xiàn)。
在靜態(tài)評估中,研究團隊創(chuàng)建了一個包含三個不同難度級別的測試集。第一個級別測試模型對新指令的泛化能力,就像測試一個醫(yī)生能否診斷他在醫(yī)學(xué)院沒有見過的新病例。第二個級別測試模型對新應(yīng)用的適應(yīng)能力,就像測試一個IT技術(shù)員能否修理他從未見過的新型電腦。第三個級別測試模型跨平臺的能力,從手機操作擴展到網(wǎng)頁操作,就像測試一個司機能否從開轎車轉(zhuǎn)換到開卡車。
測試結(jié)果顯示,GUI-Critic-R1在所有三個級別上都表現(xiàn)出色。在判斷操作正確性方面,它顯著超越了包括GPT-4在內(nèi)的現(xiàn)有最強AI模型。特別值得注意的是,即使面對全新的應(yīng)用或跨平臺的挑戰(zhàn),GUI-Critic-R1仍然能夠保持穩(wěn)定的性能,這說明它真正學(xué)會了GUI操作的一般規(guī)律,而不僅僅是記住了訓(xùn)練數(shù)據(jù)。
在動態(tài)評估中,研究團隊使用了AndroidWorld這個專門的手機操作測試平臺。這個平臺提供了一個真實的Android手機模擬環(huán)境,包含116個不同難度的任務(wù),涵蓋20個不同的手機應(yīng)用。這就像為AI助手設(shè)置了一個完整的"駕照考試",測試它在各種真實場景下的表現(xiàn)。
動態(tài)測試的結(jié)果更加令人振奮。使用GUI-Critic-R1作為"檢查員"的AI助手,其任務(wù)成功率從原來的22.4%提升到27.6%,提升幅度達到23%。更重要的是,在操作效率方面也有顯著改善。研究團隊引入了一個叫做"效率優(yōu)勢率"的指標,用來衡量AI助手是否能用更少的步驟完成同樣的任務(wù)。結(jié)果顯示,使用GUI-Critic-R1的AI助手在31.8%的任務(wù)中都能找到更高效的操作路徑,而之前這個比例為零。
這種效率提升的原因很容易理解。就像有了經(jīng)驗豐富的導(dǎo)航員,司機不僅能避免走錯路,還能選擇最優(yōu)的路線。GUI-Critic-R1不僅能防止AI助手犯錯,還能引導(dǎo)它選擇更高效的操作方式。比如,當用戶要求開啟藍牙時,AI助手可能會選擇進入設(shè)置菜單的復(fù)雜路徑,但GUI-Critic-R1會建議直接從控制中心開啟,省去很多不必要的步驟。
為了深入理解GUI-Critic-R1的工作機制,研究團隊還進行了詳細的消融實驗。這些實驗就像拆解一臺精密機器,逐一檢查每個零件的作用。他們發(fā)現(xiàn),數(shù)據(jù)收集過程中的每個步驟都很關(guān)鍵。如果缺少了負樣本采樣(即故意生成錯誤操作的步驟),模型就無法有效識別錯誤;如果缺少了數(shù)據(jù)過濾步驟,訓(xùn)練數(shù)據(jù)的質(zhì)量就會下降;如果缺少了批評生成過程,模型就只能做簡單的對錯判斷,而無法給出有用的建議。
在訓(xùn)練策略方面,實驗結(jié)果證實了兩階段訓(xùn)練方法的必要性。如果跳過第一階段的基礎(chǔ)訓(xùn)練直接進行強化學(xué)習(xí),模型就像一個連基礎(chǔ)知識都沒掌握的學(xué)生直接參加高級考試,表現(xiàn)會很糟糕。而如果只進行第一階段的訓(xùn)練而不進行強化學(xué)習(xí)優(yōu)化,模型雖然有基礎(chǔ)能力,但無法達到最佳性能。
特別值得一提的是,研究團隊專門設(shè)計的"建議獎勵"機制發(fā)揮了關(guān)鍵作用。當他們移除這個獎勵機制時,模型在建議質(zhì)量方面的表現(xiàn)明顯下降,雖然仍能判斷對錯,但給出的建議往往不夠具體或不夠有用。這說明要訓(xùn)練一個真正有用的批評模型,不僅要教會它發(fā)現(xiàn)問題,更要教會它解決問題。
研究團隊還展示了幾個生動的案例來說明GUI-Critic-R1的實際效果。在一個音頻文件重命名的任務(wù)中,AI助手本來準備點擊刪除按鈕,這會導(dǎo)致重要文件永久丟失。GUI-Critic-R1及時發(fā)現(xiàn)了這個危險操作,警告說:"點擊刪除按鈕無法完成重命名任務(wù),而且會造成不必要的損失!正確的操作應(yīng)該是點擊重命名按鈕。"這個及時的提醒避免了一次潛在的數(shù)據(jù)災(zāi)難。
在另一個藍牙開啟的案例中,AI助手選擇了一條效率較低的路徑,準備通過設(shè)置應(yīng)用來開啟藍牙。GUI-Critic-R1識別出這雖然是可行的方法,但不是最優(yōu)的,于是建議:"從設(shè)置應(yīng)用開啟藍牙是可行的,但不是最優(yōu)方案。最快的方法是下拉屏幕打開控制中心,直接點擊藍牙圖標。"這個建議幫助AI助手選擇了更高效的操作路徑。
在一個視頻錄制的任務(wù)中,AI助手已經(jīng)成功錄制了一個視頻,但準備繼續(xù)錄制第二個視頻。GUI-Critic-R1準確識別出用戶的指令是"錄制一個視頻"而不是"錄制多個視頻",于是提醒:"用戶指令要求錄制一個視頻,現(xiàn)在已經(jīng)完成了這個要求,繼續(xù)錄制是多余的。正確的決定是結(jié)束任務(wù)。"這種對任務(wù)邊界的準確把握避免了不必要的操作。
這些案例清楚地展示了GUI-Critic-R1的三個核心價值:錯誤預(yù)防、效率優(yōu)化和任務(wù)邊界識別。它不僅是一個簡單的錯誤檢測器,更是一個智能的操作顧問,能夠在多個層面提升AI助手的表現(xiàn)。
從技術(shù)實現(xiàn)的角度來看,GUI-Critic-R1采用了7B參數(shù)的模型規(guī)模,這是在性能和效率之間的一個巧妙平衡。相比于動輒數(shù)百億參數(shù)的大模型,7B的規(guī)模讓GUI-Critic-R1能夠在普通設(shè)備上實時運行,滿足實際應(yīng)用的效率要求。同時,通過精心設(shè)計的訓(xùn)練方法和數(shù)據(jù)集,這個相對輕量的模型仍然能夠達到甚至超越大型模型的性能。
研究團隊還特別關(guān)注了模型的泛化能力。他們發(fā)現(xiàn),GUI-Critic-R1不僅在訓(xùn)練過的手機應(yīng)用上表現(xiàn)出色,在全新的應(yīng)用甚至跨平臺的網(wǎng)頁操作上也能保持良好的性能。這說明模型真正學(xué)會了GUI操作的一般規(guī)律,比如按鈕的視覺特征、操作的邏輯序列、界面的通用設(shè)計模式等,而不僅僅是機械地記憶訓(xùn)練數(shù)據(jù)。
在實際部署方面,GUI-Critic-R1的設(shè)計考慮了實用性。它可以作為一個獨立的模塊插入到現(xiàn)有的AI助手系統(tǒng)中,不需要對原有系統(tǒng)進行大規(guī)模改造。這種"即插即用"的設(shè)計大大降低了技術(shù)采用的門檻,讓現(xiàn)有的AI助手開發(fā)者能夠快速集成這項技術(shù)。
研究團隊還公開了他們的代碼和數(shù)據(jù)集,這對整個研究社區(qū)來說是一個重要貢獻。其他研究者可以基于這些資源進一步改進模型,或者將這種方法應(yīng)用到其他相關(guān)領(lǐng)域。這種開放的研究態(tài)度體現(xiàn)了科學(xué)研究的協(xié)作精神,有助于推動整個領(lǐng)域的快速發(fā)展。
值得注意的是,這項研究還揭示了AI助手領(lǐng)域的一些深層問題。傳統(tǒng)的AI助手開發(fā)主要關(guān)注單步操作的準確性,但忽略了多步操作的連貫性和錯誤的累積效應(yīng)。GUI-Critic-R1的成功表明,引入預(yù)操作檢查機制是解決這些問題的有效途徑。這個發(fā)現(xiàn)可能會影響未來AI助手的設(shè)計思路,讓開發(fā)者更加重視操作的可靠性和安全性。
從用戶體驗的角度來看,GUI-Critic-R1代表了AI助手向更可信賴方向的重要進步。用戶在使用AI助手處理重要任務(wù)時,最擔(dān)心的就是AI犯錯導(dǎo)致不可挽回的后果。有了這樣的檢查機制,用戶可以更加放心地讓AI助手處理復(fù)雜的手機操作任務(wù),這將大大擴展AI助手的應(yīng)用范圍。
研究團隊也誠實地指出了當前工作的一些局限性。首先,當前的模型主要基于單步的屏幕信息和操作歷史,未來可能需要考慮更長的操作序列來提供更全面的判斷。其次,雖然模型在手機和網(wǎng)頁操作上都表現(xiàn)良好,但對于其他類型的GUI界面(比如專業(yè)軟件的界面)還需要進一步驗證。最后,如何將這種方法擴展到更輕量的模型(比如3B參數(shù)的模型)以進一步提高效率,也是一個值得探索的方向。
這項研究的影響遠遠超出了技術(shù)層面。它提出了一個重要的設(shè)計理念:在AI系統(tǒng)中引入主動的錯誤預(yù)防機制,而不是被動的錯誤修復(fù)機制。這個理念可能會影響不僅僅是GUI自動化,還包括自動駕駛、機器人控制、智能制造等需要AI系統(tǒng)執(zhí)行復(fù)雜操作序列的所有領(lǐng)域。
在更廣闊的人工智能發(fā)展背景下,GUI-Critic-R1的成功也體現(xiàn)了一個重要趨勢:AI系統(tǒng)正在從單一功能的工具轉(zhuǎn)向多模塊協(xié)作的智能系統(tǒng)。未來的AI助手可能不再是一個單一的大模型,而是由多個專門化的模塊組成的協(xié)作系統(tǒng),每個模塊都有自己的專長和責(zé)任。GUI-Critic-R1作為專門的操作檢查模塊,就是這種趨勢的一個典型例子。
隨著移動設(shè)備在人們生活中地位的不斷提升,能夠可靠地自動化操作這些設(shè)備的AI助手將變得越來越重要。想象一下未來的生活場景:你可以簡單地對AI助手說"幫我整理今天拍的照片,把重復(fù)的刪掉,把好的傳到云盤",然后AI助手就能準確無誤地完成這個復(fù)雜的任務(wù)。GUI-Critic-R1這樣的技術(shù)讓這種未來場景變得更加可能。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。