這項(xiàng)由香港中文大學(xué)多媒體實(shí)驗(yàn)室(CUHK MMLab)和vivo AI實(shí)驗(yàn)室共同完成的研究,由Han Xiao、Guozhi Wang、Yuxiang Chai等人領(lǐng)導(dǎo),發(fā)表于2025年5月27日的arXiv預(yù)印本平臺(tái),論文編號(hào)為arXiv:2505.21496v1。感興趣的讀者可以通過GitHub項(xiàng)目頁面(https://github.com/Euphoria16/UI-Genie)進(jìn)一步了解并獲取完整代碼和數(shù)據(jù)集。
智能手機(jī)上的"數(shù)字助手"——現(xiàn)狀與挑戰(zhàn)
想象一下,如果你可以用自然語言告訴你的手機(jī):"幫我在CNN應(yīng)用中搜索關(guān)于熊貓的新聞",然后它就自動(dòng)完成所有操作——打開應(yīng)用、找到搜索按鈕、輸入關(guān)鍵詞、查看結(jié)果。這正是GUI智能體(Graphical User Interface Agent,圖形用戶界面智能體)所要實(shí)現(xiàn)的功能。
隨著大語言模型(LLM)的快速發(fā)展,特別是具備視覺理解能力的多模態(tài)大語言模型(MLLM)出現(xiàn)后,這種"看懂"屏幕內(nèi)容并執(zhí)行相應(yīng)操作的智能體已經(jīng)取得了顯著進(jìn)展。不過,構(gòu)建高性能的GUI智能體仍面臨兩大核心挑戰(zhàn):
首先,如何判斷智能體執(zhí)行的一系列操作是否正確?與簡(jiǎn)單的問答任務(wù)不同,GUI操作是一個(gè)連續(xù)的過程,不能僅看最終結(jié)果,還需要評(píng)估每一步操作是否合理。想象你在教一個(gè)小朋友使用手機(jī),你不僅需要看他最終是否完成了任務(wù),還要確保他的每一步操作都是正確的。
其次,獲取高質(zhì)量的訓(xùn)練數(shù)據(jù)成本高昂。目前,訓(xùn)練GUI智能體通常需要人工標(biāo)注大量操作軌跡,就像有人手把手記錄下完成某項(xiàng)任務(wù)的每一步點(diǎn)擊、滑動(dòng)操作,這不僅耗時(shí)費(fèi)力,而且難以大規(guī)模擴(kuò)展,特別是對(duì)于復(fù)雜的多步驟任務(wù)。
UI-Genie:自我成長(zhǎng)的智能助手
為解決這些問題,研究團(tuán)隊(duì)提出了UI-Genie,一個(gè)能夠自我改進(jìn)的框架,無需大量人工標(biāo)注就能生成高質(zhì)量的合成軌跡數(shù)據(jù)。這個(gè)框架有點(diǎn)像一個(gè)能夠自學(xué)成才的學(xué)徒,它通過不斷實(shí)踐和自我評(píng)估來提升能力。
UI-Genie的核心創(chuàng)新在于它包含兩個(gè)相互促進(jìn)的組件:一個(gè)專門的獎(jiǎng)勵(lì)模型(UI-Genie-RM)用于評(píng)估操作是否正確,以及一個(gè)自我改進(jìn)的流程,能夠不斷提升智能體的能力。
### 獎(jiǎng)勵(lì)模型:智能體的"內(nèi)部導(dǎo)師"
UI-Genie-RM是這個(gè)系統(tǒng)的關(guān)鍵創(chuàng)新,它就像智能體的"內(nèi)部導(dǎo)師",負(fù)責(zé)判斷每個(gè)操作步驟是否正確,以及整個(gè)任務(wù)是否完成。
想象你在學(xué)習(xí)使用一個(gè)新應(yīng)用,有一位導(dǎo)師在旁邊觀察你的每一步操作。他不僅會(huì)告訴你"這一步對(duì)了"或"這一步錯(cuò)了",還會(huì)根據(jù)你之前的所有操作和當(dāng)前的屏幕內(nèi)容來評(píng)判。這正是UI-Genie-RM的工作方式。
這個(gè)獎(jiǎng)勵(lì)模型有兩個(gè)特別之處:首先,它采用了圖像-文本交錯(cuò)的架構(gòu),能夠有效處理歷史操作記錄。簡(jiǎn)單來說,它不僅"看"當(dāng)前的屏幕,還"記得"之前的幾個(gè)屏幕和操作,這樣才能做出準(zhǔn)確的判斷。就像你需要知道前幾步的操作才能判斷當(dāng)前操作是否合理一樣。
其次,它統(tǒng)一了步驟級(jí)和任務(wù)級(jí)的獎(jiǎng)勵(lì)評(píng)估。這意味著同一個(gè)模型既能判斷單個(gè)操作是否正確(比如"點(diǎn)擊搜索按鈕"這一步是對(duì)的),也能判斷整個(gè)任務(wù)是否完成(比如"成功搜索到了熊貓新聞")。這就像一個(gè)導(dǎo)師既能糾正你的每一個(gè)小動(dòng)作,也能告訴你整個(gè)任務(wù)是否圓滿完成。
### 數(shù)據(jù)構(gòu)建:從無到有創(chuàng)建"訓(xùn)練教材"
為了訓(xùn)練這個(gè)獎(jiǎng)勵(lì)模型,研究團(tuán)隊(duì)開發(fā)了一系列精心設(shè)計(jì)的數(shù)據(jù)生成策略:
首先是基于規(guī)則的驗(yàn)證。想象你有一本操作手冊(cè),上面寫著完成任務(wù)的正確步驟。團(tuán)隊(duì)使用這些已知的正確操作作為參考,讓初始智能體嘗試預(yù)測(cè)操作,然后通過比較預(yù)測(cè)的操作與標(biāo)準(zhǔn)答案來判斷是否正確。比如檢查操作類型是否匹配(點(diǎn)擊vs滑動(dòng)),坐標(biāo)是否準(zhǔn)確(點(diǎn)擊的位置是否正確),以及語義是否一致(輸入的文本是否合適)。
其次是軌跡篡改。這就像故意在正確的操作序列中引入錯(cuò)誤,創(chuàng)造"負(fù)面教材"。研究團(tuán)隊(duì)通過三種方式篡改成功軌跡:提前終止(操作做到一半就停止),跨任務(wù)替換(混入其他任務(wù)的操作步驟),以及冗余繼續(xù)(任務(wù)已完成卻繼續(xù)操作)。
最后是困難樣本挖掘。研究團(tuán)隊(duì)找出那些容易被誤判為正確的錯(cuò)誤操作,這些"迷惑性"樣本對(duì)于提升模型的鑒別能力特別重要。就像找出最容易混淆學(xué)生的錯(cuò)誤案例進(jìn)行重點(diǎn)講解。
通過這些策略,研究團(tuán)隊(duì)創(chuàng)建了首個(gè)專門用于GUI智能體的獎(jiǎng)勵(lì)數(shù)據(jù)集——UI-Genie-RM-517k,包含超過51.7萬個(gè)標(biāo)注樣本。
### 自我改進(jìn):從簡(jiǎn)單到復(fù)雜的成長(zhǎng)之路
UI-Genie最與眾不同的特點(diǎn)是它的自我改進(jìn)機(jī)制。想象一個(gè)學(xué)習(xí)烹飪的學(xué)徒,一開始只會(huì)做簡(jiǎn)單的菜肴,隨著不斷實(shí)踐和反饋,逐漸掌握更復(fù)雜的料理技巧。UI-Genie就是通過這樣的方式不斷進(jìn)步的。
具體來說,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)循環(huán)漸進(jìn)的過程:
首先,智能體在動(dòng)態(tài)環(huán)境中探索可能的操作路徑。UI-Genie-Agent生成多個(gè)候選操作,UI-Genie-RM對(duì)這些操作進(jìn)行評(píng)分,只保留最有希望的路徑繼續(xù)探索。這有點(diǎn)像走迷宮時(shí),每到一個(gè)分叉口都選擇看起來最有希望的方向繼續(xù)前進(jìn)。
然后,對(duì)完整的操作軌跡進(jìn)行成功與否的驗(yàn)證。成功的軌跡會(huì)被添加到智能體的訓(xùn)練數(shù)據(jù)中,而失敗的軌跡中那些被確認(rèn)為正確的中間步驟也會(huì)被用來改進(jìn)獎(jiǎng)勵(lì)模型。
最后,通過這些新收集的數(shù)據(jù)對(duì)智能體和獎(jiǎng)勵(lì)模型進(jìn)行再訓(xùn)練,使它們變得更加強(qiáng)大。
研究團(tuán)隊(duì)通過三輪迭代,從簡(jiǎn)單任務(wù)逐步過渡到復(fù)雜任務(wù):第一輪使用基礎(chǔ)數(shù)據(jù)集中的任務(wù)指令建立基線性能;第二輪引入通過開源大語言模型生成的新任務(wù)指令;第三輪結(jié)合前兩輪中失敗的任務(wù)和手工制作的復(fù)雜場(chǎng)景,這些任務(wù)通常需要超過10個(gè)步驟才能完成。
通過這個(gè)過程,研究團(tuán)隊(duì)生成了UI-Genie-Agent-16k數(shù)據(jù)集,包含16000個(gè)高質(zhì)量的合成軌跡,無需人工標(biāo)注。更重要的是,這個(gè)自我改進(jìn)的循環(huán)創(chuàng)造了一個(gè)良性反饋:增強(qiáng)的智能體能夠生成更多成功軌跡;這些軌跡提供更豐富的監(jiān)督信號(hào)給獎(jiǎng)勵(lì)模型;改進(jìn)的獎(jiǎng)勵(lì)模型提供更精確的指導(dǎo);而這又能幫助發(fā)現(xiàn)更復(fù)雜任務(wù)的解決方案。
實(shí)驗(yàn)結(jié)果:UI-Genie展現(xiàn)出色表現(xiàn)
研究團(tuán)隊(duì)在多個(gè)基準(zhǔn)測(cè)試上評(píng)估了UI-Genie的性能,結(jié)果令人印象深刻。
在AndroidControl基準(zhǔn)測(cè)試中,UI-Genie在所有模型尺寸上都優(yōu)于現(xiàn)有方法。特別是在高級(jí)任務(wù)上,UI-Genie-Agent-72B達(dá)到了77.0%的成功率,比此前最好的UI-TARS高出2.3%。這就像在駕駛考試中,UI-Genie的通過率比最好的競(jìng)爭(zhēng)對(duì)手還要高出一截。
在AndroidLab基準(zhǔn)測(cè)試中,UI-Genie的表現(xiàn)更加出色。UI-Genie-Agent-7B實(shí)現(xiàn)了38.7%的任務(wù)成功率,遠(yuǎn)超包括GPT-4o在內(nèi)的商業(yè)系統(tǒng)和其他開源模型。這相當(dāng)于在一個(gè)復(fù)雜的技能測(cè)試中,UI-Genie比其他參賽者完成了更多的挑戰(zhàn)項(xiàng)目。
在更全面、更具挑戰(zhàn)性的Android Agent Arena (A3)在線評(píng)估中,UI-Genie同樣表現(xiàn)優(yōu)異,在功能評(píng)估和商業(yè)LLM評(píng)估兩種方法下都取得了更高的成功率。
這些結(jié)果清晰地表明,UI-Genie的自我改進(jìn)框架能夠有效提升GUI智能體的性能,特別是在復(fù)雜任務(wù)上的表現(xiàn)。
獎(jiǎng)勵(lì)模型的評(píng)估與優(yōu)勢(shì)
研究團(tuán)隊(duì)還專門評(píng)估了UI-Genie-RM的性能。由于目前沒有針對(duì)GUI智能體獎(jiǎng)勵(lì)模型的標(biāo)準(zhǔn)基準(zhǔn)測(cè)試,團(tuán)隊(duì)創(chuàng)建了一個(gè)自定義的評(píng)估基準(zhǔn),包含超過1050個(gè)樣本。
結(jié)果顯示,UI-Genie-RM在步驟級(jí)和結(jié)果級(jí)評(píng)估上都優(yōu)于所有基線模型,包括GPT-4o、Gemini系列等先進(jìn)的專有模型。特別是在困難任務(wù)上,UI-Genie-RM保持了穩(wěn)健的表現(xiàn)(步驟級(jí)F1分?jǐn)?shù)為68.7%,結(jié)果級(jí)為70.5%),而其他模型的性能則顯著下降。
這說明UI-Genie-RM的特殊架構(gòu)和訓(xùn)練方法使其特別適合評(píng)估復(fù)雜的GUI交互,尤其是那些需要理解大量歷史上下文的場(chǎng)景。
案例分析:UI-Genie如何解決實(shí)際任務(wù)
為了更直觀地理解UI-Genie的能力,我們來看兩個(gè)具體例子:
在AndroidLab中,UI-Genie-Agent-72B成功完成了一個(gè)金融任務(wù),將特定日期(2024年5月15日)的支出金額調(diào)整為500元人民幣。智能體能夠?qū)Ш降秸_的應(yīng)用界面,找到相應(yīng)的交易記錄,并準(zhǔn)確修改金額數(shù)據(jù)。
在Android Arena中,UI-Genie-Agent-7B展示了在CNN應(yīng)用中搜索熊貓新聞的能力,成功解釋任務(wù)指令,導(dǎo)航到應(yīng)用界面,找到并使用搜索功能,最終檢索到相關(guān)新聞文章。
這些例子展示了UI-Genie在處理日常手機(jī)任務(wù)中的實(shí)際應(yīng)用能力,從金融管理到信息檢索,都能夠理解用戶意圖并執(zhí)行相應(yīng)操作。
研究意義與局限性
UI-Genie代表了GUI智能體研發(fā)的重要進(jìn)步。通過解決軌跡驗(yàn)證和數(shù)據(jù)可擴(kuò)展性這兩個(gè)關(guān)鍵挑戰(zhàn),它為構(gòu)建更強(qiáng)大、更通用的移動(dòng)端智能助手鋪平了道路。
特別值得一提的是,UI-Genie減少了對(duì)人工標(biāo)注的依賴,這不僅降低了開發(fā)成本,還使得處理更多樣化、更復(fù)雜的任務(wù)成為可能。通過持續(xù)的自我改進(jìn)循環(huán),UI-Genie能夠不斷擴(kuò)展其能力邊界,適應(yīng)新的應(yīng)用場(chǎng)景。
當(dāng)然,UI-Genie也存在一些局限性。獎(jiǎng)勵(lì)模型偶爾可能會(huì)生成次優(yōu)的獎(jiǎng)勵(lì)信號(hào),導(dǎo)致訓(xùn)練數(shù)據(jù)擴(kuò)展過程中出現(xiàn)失敗軌跡。盡管合成數(shù)據(jù)顯著提升了智能體性能,但框架無法保證在所有GUI任務(wù)上都能生成完全正確的軌跡。
此外,訓(xùn)練這樣的模型需要大量計(jì)算資源,產(chǎn)生顯著的碳排放,這對(duì)環(huán)境可能造成一定影響。
結(jié)語:邁向更智能的移動(dòng)體驗(yàn)
UI-Genie的研發(fā)為移動(dòng)設(shè)備上的智能交互開辟了新的可能性。想象一下,未來你可以簡(jiǎn)單地告訴手機(jī)你想做什么,而不必親自導(dǎo)航復(fù)雜的應(yīng)用界面、點(diǎn)擊精確的按鈕位置或輸入詳細(xì)信息。這對(duì)于普通用戶來說意味著更便捷的手機(jī)使用體驗(yàn),對(duì)于行動(dòng)不便的人群則可能帶來更好的科技可及性。
研究團(tuán)隊(duì)已經(jīng)開源了完整的框架實(shí)現(xiàn)和生成的數(shù)據(jù)集,為未來的GUI智能體研究提供了寶貴資源。隨著這一領(lǐng)域的持續(xù)發(fā)展,我們可以期待看到更加智能、更加自然的人機(jī)交互方式逐漸成為現(xiàn)實(shí)。
如果你對(duì)這項(xiàng)研究感興趣,可以通過GitHub項(xiàng)目頁面(https://github.com/Euphoria16/UI-Genie)獲取更多信息,包括代碼、數(shù)據(jù)集和實(shí)現(xiàn)細(xì)節(jié)。這些資源將幫助研究人員和開發(fā)者進(jìn)一步探索和擴(kuò)展UI-Genie的能力,推動(dòng)移動(dòng)智能體技術(shù)的進(jìn)步。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。