av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 UI-Genie: 一種自我改進(jìn)的方法,通過迭代提升基于多模態(tài)大語言模型的移動(dòng)端GUI智能體

UI-Genie: 一種自我改進(jìn)的方法,通過迭代提升基于多模態(tài)大語言模型的移動(dòng)端GUI智能體

2025-05-31 10:06
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-31 10:06 ? 科技行者

這項(xiàng)由香港中文大學(xué)多媒體實(shí)驗(yàn)室(CUHK MMLab)和vivo AI實(shí)驗(yàn)室共同完成的研究,由Han Xiao、Guozhi Wang、Yuxiang Chai等人領(lǐng)導(dǎo),發(fā)表于2025年5月27日的arXiv預(yù)印本平臺(tái),論文編號(hào)為arXiv:2505.21496v1。感興趣的讀者可以通過GitHub項(xiàng)目頁面(https://github.com/Euphoria16/UI-Genie)進(jìn)一步了解并獲取完整代碼和數(shù)據(jù)集。

智能手機(jī)上的"數(shù)字助手"——現(xiàn)狀與挑戰(zhàn)

想象一下,如果你可以用自然語言告訴你的手機(jī):"幫我在CNN應(yīng)用中搜索關(guān)于熊貓的新聞",然后它就自動(dòng)完成所有操作——打開應(yīng)用、找到搜索按鈕、輸入關(guān)鍵詞、查看結(jié)果。這正是GUI智能體(Graphical User Interface Agent,圖形用戶界面智能體)所要實(shí)現(xiàn)的功能。

隨著大語言模型(LLM)的快速發(fā)展,特別是具備視覺理解能力的多模態(tài)大語言模型(MLLM)出現(xiàn)后,這種"看懂"屏幕內(nèi)容并執(zhí)行相應(yīng)操作的智能體已經(jīng)取得了顯著進(jìn)展。不過,構(gòu)建高性能的GUI智能體仍面臨兩大核心挑戰(zhàn):

首先,如何判斷智能體執(zhí)行的一系列操作是否正確?與簡(jiǎn)單的問答任務(wù)不同,GUI操作是一個(gè)連續(xù)的過程,不能僅看最終結(jié)果,還需要評(píng)估每一步操作是否合理。想象你在教一個(gè)小朋友使用手機(jī),你不僅需要看他最終是否完成了任務(wù),還要確保他的每一步操作都是正確的。

其次,獲取高質(zhì)量的訓(xùn)練數(shù)據(jù)成本高昂。目前,訓(xùn)練GUI智能體通常需要人工標(biāo)注大量操作軌跡,就像有人手把手記錄下完成某項(xiàng)任務(wù)的每一步點(diǎn)擊、滑動(dòng)操作,這不僅耗時(shí)費(fèi)力,而且難以大規(guī)模擴(kuò)展,特別是對(duì)于復(fù)雜的多步驟任務(wù)。

UI-Genie:自我成長(zhǎng)的智能助手

為解決這些問題,研究團(tuán)隊(duì)提出了UI-Genie,一個(gè)能夠自我改進(jìn)的框架,無需大量人工標(biāo)注就能生成高質(zhì)量的合成軌跡數(shù)據(jù)。這個(gè)框架有點(diǎn)像一個(gè)能夠自學(xué)成才的學(xué)徒,它通過不斷實(shí)踐和自我評(píng)估來提升能力。

UI-Genie的核心創(chuàng)新在于它包含兩個(gè)相互促進(jìn)的組件:一個(gè)專門的獎(jiǎng)勵(lì)模型(UI-Genie-RM)用于評(píng)估操作是否正確,以及一個(gè)自我改進(jìn)的流程,能夠不斷提升智能體的能力。

### 獎(jiǎng)勵(lì)模型:智能體的"內(nèi)部導(dǎo)師"

UI-Genie-RM是這個(gè)系統(tǒng)的關(guān)鍵創(chuàng)新,它就像智能體的"內(nèi)部導(dǎo)師",負(fù)責(zé)判斷每個(gè)操作步驟是否正確,以及整個(gè)任務(wù)是否完成。

想象你在學(xué)習(xí)使用一個(gè)新應(yīng)用,有一位導(dǎo)師在旁邊觀察你的每一步操作。他不僅會(huì)告訴你"這一步對(duì)了"或"這一步錯(cuò)了",還會(huì)根據(jù)你之前的所有操作和當(dāng)前的屏幕內(nèi)容來評(píng)判。這正是UI-Genie-RM的工作方式。

這個(gè)獎(jiǎng)勵(lì)模型有兩個(gè)特別之處:首先,它采用了圖像-文本交錯(cuò)的架構(gòu),能夠有效處理歷史操作記錄。簡(jiǎn)單來說,它不僅"看"當(dāng)前的屏幕,還"記得"之前的幾個(gè)屏幕和操作,這樣才能做出準(zhǔn)確的判斷。就像你需要知道前幾步的操作才能判斷當(dāng)前操作是否合理一樣。

其次,它統(tǒng)一了步驟級(jí)和任務(wù)級(jí)的獎(jiǎng)勵(lì)評(píng)估。這意味著同一個(gè)模型既能判斷單個(gè)操作是否正確(比如"點(diǎn)擊搜索按鈕"這一步是對(duì)的),也能判斷整個(gè)任務(wù)是否完成(比如"成功搜索到了熊貓新聞")。這就像一個(gè)導(dǎo)師既能糾正你的每一個(gè)小動(dòng)作,也能告訴你整個(gè)任務(wù)是否圓滿完成。

### 數(shù)據(jù)構(gòu)建:從無到有創(chuàng)建"訓(xùn)練教材"

為了訓(xùn)練這個(gè)獎(jiǎng)勵(lì)模型,研究團(tuán)隊(duì)開發(fā)了一系列精心設(shè)計(jì)的數(shù)據(jù)生成策略:

首先是基于規(guī)則的驗(yàn)證。想象你有一本操作手冊(cè),上面寫著完成任務(wù)的正確步驟。團(tuán)隊(duì)使用這些已知的正確操作作為參考,讓初始智能體嘗試預(yù)測(cè)操作,然后通過比較預(yù)測(cè)的操作與標(biāo)準(zhǔn)答案來判斷是否正確。比如檢查操作類型是否匹配(點(diǎn)擊vs滑動(dòng)),坐標(biāo)是否準(zhǔn)確(點(diǎn)擊的位置是否正確),以及語義是否一致(輸入的文本是否合適)。

其次是軌跡篡改。這就像故意在正確的操作序列中引入錯(cuò)誤,創(chuàng)造"負(fù)面教材"。研究團(tuán)隊(duì)通過三種方式篡改成功軌跡:提前終止(操作做到一半就停止),跨任務(wù)替換(混入其他任務(wù)的操作步驟),以及冗余繼續(xù)(任務(wù)已完成卻繼續(xù)操作)。

最后是困難樣本挖掘。研究團(tuán)隊(duì)找出那些容易被誤判為正確的錯(cuò)誤操作,這些"迷惑性"樣本對(duì)于提升模型的鑒別能力特別重要。就像找出最容易混淆學(xué)生的錯(cuò)誤案例進(jìn)行重點(diǎn)講解。

通過這些策略,研究團(tuán)隊(duì)創(chuàng)建了首個(gè)專門用于GUI智能體的獎(jiǎng)勵(lì)數(shù)據(jù)集——UI-Genie-RM-517k,包含超過51.7萬個(gè)標(biāo)注樣本。

### 自我改進(jìn):從簡(jiǎn)單到復(fù)雜的成長(zhǎng)之路

UI-Genie最與眾不同的特點(diǎn)是它的自我改進(jìn)機(jī)制。想象一個(gè)學(xué)習(xí)烹飪的學(xué)徒,一開始只會(huì)做簡(jiǎn)單的菜肴,隨著不斷實(shí)踐和反饋,逐漸掌握更復(fù)雜的料理技巧。UI-Genie就是通過這樣的方式不斷進(jìn)步的。

具體來說,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)循環(huán)漸進(jìn)的過程:

首先,智能體在動(dòng)態(tài)環(huán)境中探索可能的操作路徑。UI-Genie-Agent生成多個(gè)候選操作,UI-Genie-RM對(duì)這些操作進(jìn)行評(píng)分,只保留最有希望的路徑繼續(xù)探索。這有點(diǎn)像走迷宮時(shí),每到一個(gè)分叉口都選擇看起來最有希望的方向繼續(xù)前進(jìn)。

然后,對(duì)完整的操作軌跡進(jìn)行成功與否的驗(yàn)證。成功的軌跡會(huì)被添加到智能體的訓(xùn)練數(shù)據(jù)中,而失敗的軌跡中那些被確認(rèn)為正確的中間步驟也會(huì)被用來改進(jìn)獎(jiǎng)勵(lì)模型。

最后,通過這些新收集的數(shù)據(jù)對(duì)智能體和獎(jiǎng)勵(lì)模型進(jìn)行再訓(xùn)練,使它們變得更加強(qiáng)大。

研究團(tuán)隊(duì)通過三輪迭代,從簡(jiǎn)單任務(wù)逐步過渡到復(fù)雜任務(wù):第一輪使用基礎(chǔ)數(shù)據(jù)集中的任務(wù)指令建立基線性能;第二輪引入通過開源大語言模型生成的新任務(wù)指令;第三輪結(jié)合前兩輪中失敗的任務(wù)和手工制作的復(fù)雜場(chǎng)景,這些任務(wù)通常需要超過10個(gè)步驟才能完成。

通過這個(gè)過程,研究團(tuán)隊(duì)生成了UI-Genie-Agent-16k數(shù)據(jù)集,包含16000個(gè)高質(zhì)量的合成軌跡,無需人工標(biāo)注。更重要的是,這個(gè)自我改進(jìn)的循環(huán)創(chuàng)造了一個(gè)良性反饋:增強(qiáng)的智能體能夠生成更多成功軌跡;這些軌跡提供更豐富的監(jiān)督信號(hào)給獎(jiǎng)勵(lì)模型;改進(jìn)的獎(jiǎng)勵(lì)模型提供更精確的指導(dǎo);而這又能幫助發(fā)現(xiàn)更復(fù)雜任務(wù)的解決方案。

實(shí)驗(yàn)結(jié)果:UI-Genie展現(xiàn)出色表現(xiàn)

研究團(tuán)隊(duì)在多個(gè)基準(zhǔn)測(cè)試上評(píng)估了UI-Genie的性能,結(jié)果令人印象深刻。

在AndroidControl基準(zhǔn)測(cè)試中,UI-Genie在所有模型尺寸上都優(yōu)于現(xiàn)有方法。特別是在高級(jí)任務(wù)上,UI-Genie-Agent-72B達(dá)到了77.0%的成功率,比此前最好的UI-TARS高出2.3%。這就像在駕駛考試中,UI-Genie的通過率比最好的競(jìng)爭(zhēng)對(duì)手還要高出一截。

在AndroidLab基準(zhǔn)測(cè)試中,UI-Genie的表現(xiàn)更加出色。UI-Genie-Agent-7B實(shí)現(xiàn)了38.7%的任務(wù)成功率,遠(yuǎn)超包括GPT-4o在內(nèi)的商業(yè)系統(tǒng)和其他開源模型。這相當(dāng)于在一個(gè)復(fù)雜的技能測(cè)試中,UI-Genie比其他參賽者完成了更多的挑戰(zhàn)項(xiàng)目。

在更全面、更具挑戰(zhàn)性的Android Agent Arena (A3)在線評(píng)估中,UI-Genie同樣表現(xiàn)優(yōu)異,在功能評(píng)估和商業(yè)LLM評(píng)估兩種方法下都取得了更高的成功率。

這些結(jié)果清晰地表明,UI-Genie的自我改進(jìn)框架能夠有效提升GUI智能體的性能,特別是在復(fù)雜任務(wù)上的表現(xiàn)。

獎(jiǎng)勵(lì)模型的評(píng)估與優(yōu)勢(shì)

研究團(tuán)隊(duì)還專門評(píng)估了UI-Genie-RM的性能。由于目前沒有針對(duì)GUI智能體獎(jiǎng)勵(lì)模型的標(biāo)準(zhǔn)基準(zhǔn)測(cè)試,團(tuán)隊(duì)創(chuàng)建了一個(gè)自定義的評(píng)估基準(zhǔn),包含超過1050個(gè)樣本。

結(jié)果顯示,UI-Genie-RM在步驟級(jí)和結(jié)果級(jí)評(píng)估上都優(yōu)于所有基線模型,包括GPT-4o、Gemini系列等先進(jìn)的專有模型。特別是在困難任務(wù)上,UI-Genie-RM保持了穩(wěn)健的表現(xiàn)(步驟級(jí)F1分?jǐn)?shù)為68.7%,結(jié)果級(jí)為70.5%),而其他模型的性能則顯著下降。

這說明UI-Genie-RM的特殊架構(gòu)和訓(xùn)練方法使其特別適合評(píng)估復(fù)雜的GUI交互,尤其是那些需要理解大量歷史上下文的場(chǎng)景。

案例分析:UI-Genie如何解決實(shí)際任務(wù)

為了更直觀地理解UI-Genie的能力,我們來看兩個(gè)具體例子:

在AndroidLab中,UI-Genie-Agent-72B成功完成了一個(gè)金融任務(wù),將特定日期(2024年5月15日)的支出金額調(diào)整為500元人民幣。智能體能夠?qū)Ш降秸_的應(yīng)用界面,找到相應(yīng)的交易記錄,并準(zhǔn)確修改金額數(shù)據(jù)。

在Android Arena中,UI-Genie-Agent-7B展示了在CNN應(yīng)用中搜索熊貓新聞的能力,成功解釋任務(wù)指令,導(dǎo)航到應(yīng)用界面,找到并使用搜索功能,最終檢索到相關(guān)新聞文章。

這些例子展示了UI-Genie在處理日常手機(jī)任務(wù)中的實(shí)際應(yīng)用能力,從金融管理到信息檢索,都能夠理解用戶意圖并執(zhí)行相應(yīng)操作。

研究意義與局限性

UI-Genie代表了GUI智能體研發(fā)的重要進(jìn)步。通過解決軌跡驗(yàn)證和數(shù)據(jù)可擴(kuò)展性這兩個(gè)關(guān)鍵挑戰(zhàn),它為構(gòu)建更強(qiáng)大、更通用的移動(dòng)端智能助手鋪平了道路。

特別值得一提的是,UI-Genie減少了對(duì)人工標(biāo)注的依賴,這不僅降低了開發(fā)成本,還使得處理更多樣化、更復(fù)雜的任務(wù)成為可能。通過持續(xù)的自我改進(jìn)循環(huán),UI-Genie能夠不斷擴(kuò)展其能力邊界,適應(yīng)新的應(yīng)用場(chǎng)景。

當(dāng)然,UI-Genie也存在一些局限性。獎(jiǎng)勵(lì)模型偶爾可能會(huì)生成次優(yōu)的獎(jiǎng)勵(lì)信號(hào),導(dǎo)致訓(xùn)練數(shù)據(jù)擴(kuò)展過程中出現(xiàn)失敗軌跡。盡管合成數(shù)據(jù)顯著提升了智能體性能,但框架無法保證在所有GUI任務(wù)上都能生成完全正確的軌跡。

此外,訓(xùn)練這樣的模型需要大量計(jì)算資源,產(chǎn)生顯著的碳排放,這對(duì)環(huán)境可能造成一定影響。

結(jié)語:邁向更智能的移動(dòng)體驗(yàn)

UI-Genie的研發(fā)為移動(dòng)設(shè)備上的智能交互開辟了新的可能性。想象一下,未來你可以簡(jiǎn)單地告訴手機(jī)你想做什么,而不必親自導(dǎo)航復(fù)雜的應(yīng)用界面、點(diǎn)擊精確的按鈕位置或輸入詳細(xì)信息。這對(duì)于普通用戶來說意味著更便捷的手機(jī)使用體驗(yàn),對(duì)于行動(dòng)不便的人群則可能帶來更好的科技可及性。

研究團(tuán)隊(duì)已經(jīng)開源了完整的框架實(shí)現(xiàn)和生成的數(shù)據(jù)集,為未來的GUI智能體研究提供了寶貴資源。隨著這一領(lǐng)域的持續(xù)發(fā)展,我們可以期待看到更加智能、更加自然的人機(jī)交互方式逐漸成為現(xiàn)實(shí)。

如果你對(duì)這項(xiàng)研究感興趣,可以通過GitHub項(xiàng)目頁面(https://github.com/Euphoria16/UI-Genie)獲取更多信息,包括代碼、數(shù)據(jù)集和實(shí)現(xiàn)細(xì)節(jié)。這些資源將幫助研究人員和開發(fā)者進(jìn)一步探索和擴(kuò)展UI-Genie的能力,推動(dòng)移動(dòng)智能體技術(shù)的進(jìn)步。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-