在這個(gè)人人都離不開智能手機(jī)的時(shí)代,我們平均每天要在手機(jī)上花費(fèi)4.5小時(shí)。然而,當(dāng)你需要在多個(gè)應(yīng)用之間跳轉(zhuǎn)比價(jià)購(gòu)物,或者需要從不同網(wǎng)站收集信息時(shí),是否感到過frustrated?伊利諾伊大學(xué)厄巴納-香檳分校的Zhenhailong Wang、Heng Ji等研究者,聯(lián)合阿里巴巴集團(tuán)的Haiyang Xu、Ming Yan等科學(xué)家,在2025年1月發(fā)表了一項(xiàng)突破性研究成果Mobile-Agent-E。這項(xiàng)研究發(fā)表在預(yù)印本平臺(tái)arXiv上,感興趣的讀者可以通過DOI: arXiv:2501.11733v2訪問完整論文。
想象一下,如果你的手機(jī)有一個(gè)超級(jí)聰明的數(shù)字助手,它不僅能幫你完成復(fù)雜的多步驟任務(wù),還能從每次使用中學(xué)習(xí)經(jīng)驗(yàn),變得越來(lái)越高效。這正是Mobile-Agent-E要實(shí)現(xiàn)的愿景。這個(gè)系統(tǒng)就像一個(gè)會(huì)學(xué)習(xí)成長(zhǎng)的智能管家,能夠代替你在手機(jī)上完成那些繁瑣的操作序列。
當(dāng)前的手機(jī)智能助手面臨兩個(gè)關(guān)鍵問題。第一個(gè)問題是能力不足:現(xiàn)有的手機(jī)助手通常只能處理簡(jiǎn)單、直接的任務(wù),比如"導(dǎo)航到附近的加油站"。但真實(shí)生活中我們需要的任務(wù)要復(fù)雜得多——比如在多個(gè)購(gòu)物應(yīng)用中比較價(jià)格找到最優(yōu)惠的商品,或者制定一份綜合考慮多種因素的旅行計(jì)劃。這些任務(wù)需要深度推理、跨多個(gè)應(yīng)用的長(zhǎng)期規(guī)劃,以及在模糊指令下的主動(dòng)探索。
第二個(gè)問題更加根本:現(xiàn)有的智能助手就像患了健忘癥的新手,每次執(zhí)行任務(wù)時(shí)都從零開始,重復(fù)犯同樣的錯(cuò)誤。相比之下,當(dāng)人類用戶第一次打開一個(gè)新應(yīng)用時(shí),可能需要一些嘗試才能理解布局并成功執(zhí)行搜索。但通過每次交互,用戶會(huì)學(xué)習(xí)和改進(jìn),下次使用時(shí)會(huì)更快更準(zhǔn)確?,F(xiàn)有的手機(jī)助手卻缺乏這種從過往經(jīng)驗(yàn)中學(xué)習(xí)的能力。
為了解決這些核心問題,研究團(tuán)隊(duì)開發(fā)了Mobile-Agent-E,這是一個(gè)具有自我進(jìn)化能力的分層多智能體框架。這個(gè)系統(tǒng)的設(shè)計(jì)理念就像一個(gè)高效的公司組織架構(gòu):有一個(gè)負(fù)責(zé)制定總體戰(zhàn)略的經(jīng)理,以及幾個(gè)各司其職的專門員工。
一、分層管理的智能團(tuán)隊(duì)
Mobile-Agent-E的核心創(chuàng)新在于將復(fù)雜的決策過程分解成兩個(gè)層次:高層規(guī)劃和低層執(zhí)行。這種分層設(shè)計(jì)就像建筑工程一樣,有總工程師負(fù)責(zé)整體設(shè)計(jì),有各種專業(yè)工人負(fù)責(zé)具體施工。
系統(tǒng)的"經(jīng)理"(Manager)專門負(fù)責(zé)制定總體計(jì)劃。當(dāng)你給出一個(gè)復(fù)雜任務(wù)時(shí),比如"我想買一個(gè)全新的任天堂Switch Joy-Con手柄,任何顏色都可以,請(qǐng)?jiān)趤嗰R遜、沃爾瑪和百思買中比較價(jià)格,找到最便宜的選項(xiàng)",經(jīng)理會(huì)將這個(gè)大任務(wù)分解成一系列子目標(biāo):首先打開亞馬遜搜索產(chǎn)品,然后記錄價(jià)格,接著切換到沃爾瑪重復(fù)同樣操作,最后在百思買進(jìn)行搜索,并比較三家的價(jià)格。
在經(jīng)理制定計(jì)劃的同時(shí),四個(gè)專業(yè)的下屬智能體分工協(xié)作。感知者(Perceptor)就像系統(tǒng)的"眼睛",專門負(fù)責(zé)理解當(dāng)前手機(jī)屏幕上顯示的內(nèi)容,識(shí)別圖標(biāo)、文字和界面元素。操作者(Operator)是系統(tǒng)的"雙手",根據(jù)經(jīng)理的指示執(zhí)行具體的點(diǎn)擊、滑動(dòng)、輸入等操作。動(dòng)作反思者(Action Reflector)充當(dāng)"質(zhì)檢員",檢查每個(gè)操作是否達(dá)到了預(yù)期效果,如果發(fā)現(xiàn)錯(cuò)誤會(huì)及時(shí)反饋。記錄員(Notetaker)則負(fù)責(zé)收集和整理任務(wù)過程中的重要信息,比如商品價(jià)格、餐廳電話等。
這種分層架構(gòu)的優(yōu)勢(shì)非常明顯。經(jīng)理專注于全局規(guī)劃,不會(huì)被具體操作細(xì)節(jié)分散注意力,因此能夠制定更合理的長(zhǎng)期策略。同時(shí),當(dāng)?shù)蛯硬僮饔龅絾栴}時(shí),系統(tǒng)有完善的錯(cuò)誤恢復(fù)機(jī)制。如果操作者連續(xù)犯錯(cuò),錯(cuò)誤會(huì)被上報(bào)給經(jīng)理,經(jīng)理會(huì)從更高的角度重新調(diào)整策略來(lái)解決問題。
二、會(huì)學(xué)習(xí)的數(shù)字大腦
Mobile-Agent-E最令人印象深刻的功能是它的自我進(jìn)化能力。系統(tǒng)擁有一個(gè)持續(xù)的長(zhǎng)期記憶,存儲(chǔ)兩種類型的知識(shí):技巧(Tips)和快捷方式(Shortcuts)。
技巧就像人類的經(jīng)驗(yàn)教訓(xùn),是系統(tǒng)從之前的試錯(cuò)過程中學(xué)到的一般性指導(dǎo)原則。比如,在經(jīng)過多次購(gòu)物比價(jià)任務(wù)后,系統(tǒng)可能學(xué)會(huì)這樣的技巧:"在確定最佳交易時(shí),要同時(shí)考慮價(jià)格和功能特性,并確保任何折扣或促銷信息都被清楚標(biāo)注",或者"在使用篩選器時(shí),滑動(dòng)操作通常比點(diǎn)擊更有效"。這些技巧類似于人類的情節(jié)記憶,幫助系統(tǒng)在未來(lái)遇到類似情況時(shí)做出更好的決策。
快捷方式則像熟練工人掌握的標(biāo)準(zhǔn)操作程序,是可以重復(fù)使用的操作序列。比如,系統(tǒng)可能學(xué)會(huì)創(chuàng)建一個(gè)名為"點(diǎn)擊輸入并搜索"的快捷方式,將"點(diǎn)擊搜索框、輸入文字、按回車"這三個(gè)步驟合并成一個(gè)可復(fù)用的功能模塊。由于手機(jī)環(huán)境變化很快,每個(gè)快捷方式都配有明確的使用條件,確保只在合適的情況下使用。
系統(tǒng)配備了兩個(gè)專門的"經(jīng)驗(yàn)反思者",它們像認(rèn)真的學(xué)生一樣,在每個(gè)任務(wù)完成后分析整個(gè)過程,更新技巧庫(kù)和快捷方式庫(kù)。這些反思者會(huì)考慮當(dāng)前任務(wù)的執(zhí)行情況、遇到的問題,以及未來(lái)可能面臨的類似任務(wù),從而提取出有價(jià)值的經(jīng)驗(yàn)。
這種學(xué)習(xí)機(jī)制的效果是累積的。隨著系統(tǒng)執(zhí)行的任務(wù)越來(lái)越多,它的表現(xiàn)會(huì)逐步提升。實(shí)驗(yàn)結(jié)果顯示,啟用自我進(jìn)化功能后,系統(tǒng)的滿意度得分提升了6.5%,而且隨著任務(wù)序列的推進(jìn),后續(xù)任務(wù)的改進(jìn)效果更加顯著。
三、更貼近真實(shí)需求的測(cè)試標(biāo)準(zhǔn)
為了驗(yàn)證Mobile-Agent-E的效果,研究團(tuán)隊(duì)還開發(fā)了一個(gè)全新的測(cè)試基準(zhǔn)Mobile-Eval-E。現(xiàn)有的手機(jī)智能體測(cè)試大多關(guān)注簡(jiǎn)單、短期的任務(wù),而且性能已經(jīng)接近飽和。Mobile-Eval-E專門設(shè)計(jì)了復(fù)雜的真實(shí)世界任務(wù),更貼近普通用戶的實(shí)際需求。
這個(gè)基準(zhǔn)包含25個(gè)精心設(shè)計(jì)的任務(wù),覆蓋5個(gè)真實(shí)場(chǎng)景:餐廳推薦、信息搜索、網(wǎng)購(gòu)比價(jià)、熱門趨勢(shì)和旅行規(guī)劃。與之前的測(cè)試相比,Mobile-Eval-E的任務(wù)復(fù)雜度大幅提升,平均每個(gè)任務(wù)需要執(zhí)行14.56個(gè)操作,是之前測(cè)試的兩倍多。更重要的是,76%的任務(wù)需要在多個(gè)應(yīng)用之間切換,而之前的測(cè)試中這一比例不到10%。
由于真實(shí)世界的任務(wù)往往沒有標(biāo)準(zhǔn)答案,研究團(tuán)隊(duì)還創(chuàng)新了評(píng)價(jià)方法。他們不再簡(jiǎn)單地判斷"成功"或"失敗",而是制定詳細(xì)的評(píng)分準(zhǔn)則,既考慮里程碑式的完成情況(比如"成功打開了地圖應(yīng)用"),也考慮探索性的行為表現(xiàn)(比如"查看了多條用戶評(píng)論")。這種"滿意度得分"更能反映用戶對(duì)智能助手表現(xiàn)的真實(shí)感受。
四、令人矚目的性能表現(xiàn)
實(shí)驗(yàn)結(jié)果證明了Mobile-Agent-E的有效性。在Mobile-Eval-E基準(zhǔn)測(cè)試中,Mobile-Agent-E相比之前最好的方法實(shí)現(xiàn)了22.1%的絕對(duì)性能提升。在GPT-4o、Claude-3.5-Sonnet和Gemini-1.5-pro三種不同的基礎(chǔ)模型上,這種改進(jìn)都是一致的。
更令人印象深刻的是系統(tǒng)的學(xué)習(xí)效果。隨著任務(wù)執(zhí)行順序的推進(jìn),后期任務(wù)顯示出更顯著的性能提升,證明了自我進(jìn)化機(jī)制的有效性。系統(tǒng)不僅能夠積累經(jīng)驗(yàn),還能將這些經(jīng)驗(yàn)有效地應(yīng)用到新任務(wù)中。
在效率方面,快捷方式的使用顯著減少了計(jì)算開銷。雖然分層多智能體架構(gòu)在理論上增加了計(jì)算復(fù)雜度,但快捷方式能夠在單次決策中執(zhí)行多個(gè)操作,實(shí)際上提高了整體效率。啟用自我進(jìn)化后的系統(tǒng)執(zhí)行速度甚至可以與之前的簡(jiǎn)單框架相媲美,但性能卻顯著更好。
研究團(tuán)隊(duì)還進(jìn)行了一個(gè)閉環(huán)自我進(jìn)化的案例研究。當(dāng)系統(tǒng)積累了大量技巧和快捷方式后,它能夠智能地檢索出與當(dāng)前任務(wù)相關(guān)的經(jīng)驗(yàn)知識(shí),并成功完成全新的復(fù)雜任務(wù)。這展示了系統(tǒng)在實(shí)際應(yīng)用中的可擴(kuò)展性。
五、技術(shù)創(chuàng)新的深層意義
Mobile-Agent-E的技術(shù)創(chuàng)新不僅僅體現(xiàn)在性能數(shù)字上,更重要的是它代表了智能手機(jī)助手發(fā)展的新方向。傳統(tǒng)的單一智能體方法就像讓一個(gè)人同時(shí)擔(dān)任建筑師、工程師、施工隊(duì)長(zhǎng)和質(zhì)檢員,難免顧此失彼。分層多智能體架構(gòu)通過合理的分工協(xié)作,讓每個(gè)組件都能專注于自己最擅長(zhǎng)的任務(wù)。
自我進(jìn)化功能更是具有深遠(yuǎn)意義。它不僅解決了重復(fù)任務(wù)的效率問題,更重要的是為智能系統(tǒng)的持續(xù)改進(jìn)提供了框架。系統(tǒng)能夠從失敗中學(xué)習(xí),將偶然的成功轉(zhuǎn)化為可復(fù)用的經(jīng)驗(yàn),這正是人工智能向更高智能水平發(fā)展的關(guān)鍵特征。
當(dāng)然,系統(tǒng)目前還存在一些限制。比如,有時(shí)會(huì)因?yàn)殄e(cuò)誤理解手機(jī)界面狀態(tài)而誤用快捷方式,或者生成的快捷方式本身可能存在缺陷。但這些問題為未來(lái)的改進(jìn)指明了方向。
研究團(tuán)隊(duì)特別強(qiáng)調(diào)了安全性考慮。隨著智能助手能力的增強(qiáng),如何確保它們的行為始終符合用戶意圖變得越來(lái)越重要。未來(lái)的工作將重點(diǎn)加強(qiáng)隱私保護(hù)、用戶同意確認(rèn)和潛在危險(xiǎn)操作的預(yù)警機(jī)制。
Mobile-Agent-E的出現(xiàn)標(biāo)志著智能手機(jī)助手從簡(jiǎn)單的指令執(zhí)行工具向真正智能的數(shù)字伙伴轉(zhuǎn)變。它不僅能夠處理復(fù)雜的現(xiàn)實(shí)任務(wù),還能從經(jīng)驗(yàn)中持續(xù)學(xué)習(xí)和改進(jìn)。雖然目前還處于研究階段,但這項(xiàng)技術(shù)的發(fā)展方向清晰地指向一個(gè)未來(lái):我們的智能手機(jī)將擁有真正理解我們需求、能夠獨(dú)立思考和學(xué)習(xí)的數(shù)字助手。
說到底,Mobile-Agent-E展示了人工智能技術(shù)如何從實(shí)驗(yàn)室走向真實(shí)應(yīng)用的可能路徑。它不是簡(jiǎn)單的技術(shù)炫技,而是針對(duì)用戶實(shí)際痛點(diǎn)的系統(tǒng)性解決方案。隨著這類技術(shù)的成熟和普及,我們與智能設(shè)備的交互方式將發(fā)生根本性變革,手機(jī)真正成為我們生活中不可或缺的智能伙伴。
Q&A
Q1:Mobile-Agent-E和普通手機(jī)助手有什么區(qū)別?
A:Mobile-Agent-E最大的不同在于它會(huì)學(xué)習(xí)和進(jìn)化。普通手機(jī)助手每次都從零開始執(zhí)行任務(wù),而Mobile-Agent-E能從過往經(jīng)驗(yàn)中學(xué)習(xí)技巧和快捷方式,變得越來(lái)越聰明高效。它還采用分層架構(gòu),有專門的"經(jīng)理"負(fù)責(zé)規(guī)劃,多個(gè)"員工"負(fù)責(zé)執(zhí)行,能處理更復(fù)雜的多應(yīng)用任務(wù)。
Q2:Mobile-Agent-E的自我進(jìn)化功能是如何實(shí)現(xiàn)的?
A:系統(tǒng)擁有長(zhǎng)期記憶,存儲(chǔ)兩種知識(shí):技巧(從試錯(cuò)中學(xué)到的經(jīng)驗(yàn)教訓(xùn))和快捷方式(可重復(fù)使用的操作序列)。每完成一個(gè)任務(wù),兩個(gè)"經(jīng)驗(yàn)反思者"會(huì)分析整個(gè)過程,更新知識(shí)庫(kù)。這些經(jīng)驗(yàn)會(huì)在后續(xù)任務(wù)中被調(diào)用,讓系統(tǒng)表現(xiàn)越來(lái)越好。
Q3:這項(xiàng)技術(shù)什么時(shí)候能在普通手機(jī)上使用?
A:目前Mobile-Agent-E還處于研究階段,論文發(fā)表在學(xué)術(shù)預(yù)印本平臺(tái)上。雖然實(shí)驗(yàn)結(jié)果很有前景,但要真正應(yīng)用到消費(fèi)級(jí)手機(jī)產(chǎn)品中,還需要解決安全性、隱私保護(hù)、用戶界面設(shè)計(jì)等問題。研究團(tuán)隊(duì)正在開發(fā)相關(guān)的安全機(jī)制和用戶確認(rèn)流程。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。