av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 哈工大團(tuán)隊(duì)革命性突破:AI智能體終于學(xué)會了像人類一樣長期規(guī)劃和思考

哈工大團(tuán)隊(duì)革命性突破:AI智能體終于學(xué)會了像人類一樣長期規(guī)劃和思考

2025-06-19 16:57
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-19 16:57 ? 科技行者

這項(xiàng)由哈爾濱工業(yè)技術(shù)深圳校區(qū)的謝雨權(quán)、李再錦、邵瑞、陳公威等研究人員,聯(lián)合鵬程實(shí)驗(yàn)室和華為諾亞方舟實(shí)驗(yàn)室共同完成的研究發(fā)表于2025年6月12日的arXiv預(yù)印本平臺。有興趣深入了解的讀者可以通過arXiv:2506.10387v1訪問完整論文。

當(dāng)你打開手機(jī)想要完成一個(gè)看似簡單的任務(wù)時(shí),比如給朋友創(chuàng)建聯(lián)系人、打電話、然后發(fā)送一條短信,你會發(fā)現(xiàn)自己需要在多個(gè)應(yīng)用之間切換,記住每一步的操作順序,并且根據(jù)界面的變化隨時(shí)調(diào)整策略。這種看起來毫不費(fèi)力的多步驟操作,對于目前的AI智能體來說卻是一個(gè)巨大的挑戰(zhàn)。

現(xiàn)在,哈工大的研究團(tuán)隊(duì)提出了一個(gè)名為Mirage-1的AI智能體系統(tǒng),它就像一個(gè)經(jīng)驗(yàn)豐富的手機(jī)使用專家,不僅能夠理解復(fù)雜的多步驟任務(wù),還能像人類一樣進(jìn)行長期規(guī)劃和靈活應(yīng)對。這個(gè)系統(tǒng)的核心創(chuàng)新在于它擁有一個(gè)分層式的技能學(xué)習(xí)系統(tǒng),就好比一個(gè)廚師不僅記住了具體的菜譜,還掌握了烹飪的基本技法,甚至理解了不同菜系之間的共通原理。

研究團(tuán)隊(duì)發(fā)現(xiàn),目前的AI智能體在處理圖形用戶界面時(shí)面臨兩個(gè)主要困境。第一個(gè)困境就像是一個(gè)只會照著菜譜做菜的新手廚師,遇到需要準(zhǔn)備一桌子菜的復(fù)雜任務(wù)時(shí)就手忙腳亂,因?yàn)樗狈φw規(guī)劃能力?,F(xiàn)有的AI智能體只能根據(jù)最終目標(biāo)做出簡單決策,就像只知道"要做紅燒肉"但不知道先準(zhǔn)備什么、后做什么、如何協(xié)調(diào)時(shí)間安排的廚師一樣。

第二個(gè)困境則像是一個(gè)只在廚房練習(xí)過的廚師突然要在野外生火做飯,環(huán)境的變化讓它無所適從。AI智能體在離線環(huán)境中訓(xùn)練時(shí)表現(xiàn)不錯(cuò),但一旦面對真實(shí)的在線環(huán)境,應(yīng)用界面的更新、按鈕位置的變化、甚至不同應(yīng)用之間的差異都會讓它們陷入困境。這就像是一個(gè)只會用電磁爐的廚師突然要用燃?xì)庠钜粯?,同樣的烹飪技能卻因?yàn)楣ぞ攮h(huán)境的不同而無法發(fā)揮。

為了解決這些問題,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)革命性的解決方案。他們的Mirage-1系統(tǒng)包含了一個(gè)叫做"分層多模態(tài)技能模塊"的核心組件,這個(gè)模塊就像是一個(gè)經(jīng)驗(yàn)豐富的師傅建立的知識體系。這個(gè)體系分為三個(gè)層次,就好比廚藝學(xué)習(xí)的三個(gè)階段。

最基礎(chǔ)的層次叫做"執(zhí)行技能",它記錄的是具體的操作步驟,就像詳細(xì)記錄"如何做麻婆豆腐"的完整菜譜,包括每一個(gè)具體步驟、用料分量和操作細(xì)節(jié)。這一層記錄了智能體在完成特定任務(wù)時(shí)的具體操作軌跡,為后續(xù)的抽象學(xué)習(xí)奠定基礎(chǔ)。

中間層次是"核心技能",它將多個(gè)相似的具體操作抽象成通用的功能模塊,就像從"做麻婆豆腐"、"做紅燒肉"、"做糖醋里脊"等具體菜譜中抽象出"炒菜技法"這樣的通用技能。比如,多個(gè)添加聯(lián)系人的具體操作可以抽象成一個(gè)通用的"添加聯(lián)系人"核心技能,這個(gè)技能可以應(yīng)用到不同的聯(lián)系人和不同的場景中。

最高層次是"元技能",它統(tǒng)籌協(xié)調(diào)多個(gè)核心技能來完成復(fù)雜任務(wù),就像一個(gè)總廚師長不僅掌握各種烹飪技法,還知道如何搭配菜譜、安排烹飪順序、協(xié)調(diào)廚房工作流程。元技能能夠理解不同核心技能之間的關(guān)系,并將它們組合起來解決復(fù)雜的多步驟問題。

這種分層設(shè)計(jì)的巧妙之處在于,它模仿了人類學(xué)習(xí)和應(yīng)用技能的方式。當(dāng)我們學(xué)會了發(fā)短信的基本操作后,就能夠?qū)⑦@個(gè)技能應(yīng)用到給不同人發(fā)送不同內(nèi)容的消息中。當(dāng)我們掌握了添加聯(lián)系人、打電話、發(fā)短信等多個(gè)基本技能后,就能夠組合使用這些技能完成更復(fù)雜的社交任務(wù)。

除了這個(gè)分層技能系統(tǒng),研究團(tuán)隊(duì)還開發(fā)了一種叫做"技能增強(qiáng)蒙特卡洛樹搜索"的在線學(xué)習(xí)算法。這個(gè)算法解決了從離線訓(xùn)練環(huán)境到在線真實(shí)環(huán)境的適應(yīng)問題,就像是幫助廚師從練習(xí)廚房順利過渡到真實(shí)餐廳工作的培訓(xùn)方法。

傳統(tǒng)的蒙特卡洛樹搜索就像是一個(gè)探險(xiǎn)者在未知森林中隨機(jī)探索尋找出路,雖然最終能找到目標(biāo),但過程效率很低。而技能增強(qiáng)版本則像是給探險(xiǎn)者配備了地圖和指南針,讓探索過程更加有方向性和效率。具體來說,當(dāng)AI智能體在在線環(huán)境中遇到新任務(wù)時(shí),它不是盲目地嘗試各種可能的操作,而是首先利用已有的技能知識來分解任務(wù)目標(biāo),生成可能的子目標(biāo),然后有針對性地探索最有希望的路徑。

這種方法的優(yōu)勢在于它能夠顯著減少無效探索。就像一個(gè)有經(jīng)驗(yàn)的導(dǎo)游帶領(lǐng)游客游覽城市,會根據(jù)以往的經(jīng)驗(yàn)規(guī)劃最優(yōu)路線,避免走彎路,同時(shí)在遇到新情況時(shí)能夠靈活調(diào)整。當(dāng)AI智能體在探索過程中發(fā)現(xiàn)新的有效操作序列時(shí),這些經(jīng)驗(yàn)會被整合到分層技能系統(tǒng)中,不斷豐富和完善智能體的知識庫。

研究團(tuán)隊(duì)還為Mirage-1設(shè)計(jì)了一個(gè)分層規(guī)劃器,這個(gè)組件就像是一個(gè)經(jīng)驗(yàn)豐富的項(xiàng)目經(jīng)理,能夠?qū)?fù)雜的任務(wù)分解成可管理的子任務(wù)。當(dāng)接到一個(gè)復(fù)雜任務(wù)時(shí),分層規(guī)劃器首先從元技能庫中檢索最相關(guān)的高級策略,然后利用對應(yīng)的核心技能來生成具體的子目標(biāo)序列。這個(gè)過程就像是一個(gè)建筑師先確定整體設(shè)計(jì)理念,然后制定詳細(xì)的施工計(jì)劃,最后安排具體的施工步驟。

系統(tǒng)中的操作器負(fù)責(zé)執(zhí)行具體的動作,它可以與不同的底層技術(shù)組件結(jié)合,包括各種視覺定位模型。這種設(shè)計(jì)使得Mirage-1具有很強(qiáng)的適應(yīng)性,就像是一個(gè)萬能插頭可以適配不同標(biāo)準(zhǔn)的電源插座。無論是在手機(jī)還是網(wǎng)頁環(huán)境中,無論使用哪種具體的界面元素識別技術(shù),Mirage-1都能夠正常工作。

特別值得一提的是,研究團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)決策反思器,這個(gè)組件就像是一個(gè)謹(jǐn)慎的顧問,在每個(gè)關(guān)鍵操作執(zhí)行前進(jìn)行評估和建議。決策反思器會分析當(dāng)前的操作是否有助于完成任務(wù)目標(biāo),預(yù)測可能的結(jié)果,并在發(fā)現(xiàn)問題時(shí)及時(shí)提醒操作器重新考慮。這種機(jī)制大大提高了系統(tǒng)的可靠性和成功率。

為了驗(yàn)證Mirage-1的性能,研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的實(shí)驗(yàn)測試。他們選擇了多個(gè)具有代表性的測試平臺,包括AndroidWorld這個(gè)Android手機(jī)環(huán)境的在線基準(zhǔn)測試,以及Mind2Web-Live這個(gè)網(wǎng)頁環(huán)境的動態(tài)測試平臺。這些測試平臺就像是為AI智能體設(shè)計(jì)的"駕照考試場地",能夠全面評估智能體在真實(shí)環(huán)境中的表現(xiàn)。

實(shí)驗(yàn)結(jié)果令人印象深刻。在AndroidWorld測試中,Mirage-1相比現(xiàn)有最好的方法取得了32%的性能提升。在MobileMiniWob++測試中,提升幅度達(dá)到了19%。在Mind2Web-Live網(wǎng)頁測試中,也獲得了15%的顯著改進(jìn)。這些數(shù)字背后反映的是AI智能體在處理復(fù)雜多步驟任務(wù)時(shí)能力的顯著增強(qiáng)。

更重要的是,研究團(tuán)隊(duì)還專門創(chuàng)建了一個(gè)名為AndroidLH的新測試基準(zhǔn),用于評估AI智能體在長期任務(wù)規(guī)劃方面的能力。這個(gè)基準(zhǔn)包含了30個(gè)復(fù)雜的多應(yīng)用操作任務(wù),更接近真實(shí)用戶的使用場景。在這個(gè)更具挑戰(zhàn)性的測試中,Mirage-1取得了79%的驚人性能提升,證明了其在長期規(guī)劃任務(wù)中的卓越表現(xiàn)。

為了深入理解系統(tǒng)各個(gè)組件的貢獻(xiàn),研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的分解分析。他們發(fā)現(xiàn),分層技能系統(tǒng)中的不同層次都發(fā)揮著重要作用。元技能層的移除導(dǎo)致了19.5%的性能下降,說明高級規(guī)劃能力的重要性。核心技能和元技能的同時(shí)移除導(dǎo)致了29.1%的性能下降,進(jìn)一步證實(shí)了抽象技能對于復(fù)雜任務(wù)處理的關(guān)鍵作用。

同時(shí),研究團(tuán)隊(duì)還比較了不同記憶機(jī)制的效果。相比于簡單的示例記憶方法,分層多模態(tài)技能系統(tǒng)展現(xiàn)出了明顯的優(yōu)勢。這說明結(jié)構(gòu)化的知識組織方式比簡單的經(jīng)驗(yàn)存儲更加有效,就像是有序整理的圖書館比隨意堆放的書堆更容易找到需要的信息。

在線探索策略的對比實(shí)驗(yàn)也證實(shí)了技能增強(qiáng)蒙特卡洛樹搜索的優(yōu)越性。相比于直接探索方法,這種技能引導(dǎo)的探索方式在相同時(shí)間內(nèi)能夠獲得2.8倍的技能積累,并且比標(biāo)準(zhǔn)蒙特卡洛樹搜索方法提高了41%的探索效率。這就像是有GPS導(dǎo)航的司機(jī)比盲目摸索的司機(jī)能夠更快到達(dá)目的地并學(xué)會更多有用的路線。

研究團(tuán)隊(duì)還通過具體案例展示了Mirage-1的工作過程。在一個(gè)創(chuàng)建聯(lián)系人并發(fā)送消息的任務(wù)中,系統(tǒng)首先從元技能庫中識別出需要"聯(lián)系人管理"和"短信消息管理"兩個(gè)高級能力。然后,它調(diào)用相應(yīng)的核心技能"添加聯(lián)系人"和"發(fā)送短信"來生成具體的操作計(jì)劃。最后,通過執(zhí)行技能庫中的具體操作序列來完成任務(wù)。整個(gè)過程體現(xiàn)了從抽象規(guī)劃到具體執(zhí)行的完整鏈條。

這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面的突破。它代表了AI智能體向真正智能化邁出的重要一步。過去的AI智能體更像是只會執(zhí)行簡單指令的機(jī)器人,而Mirage-1則更像是一個(gè)能夠理解復(fù)雜任務(wù)、進(jìn)行長期規(guī)劃、并且能夠從經(jīng)驗(yàn)中學(xué)習(xí)的智能助手。

從實(shí)用角度來看,這種技術(shù)將使AI智能體能夠處理更加復(fù)雜和真實(shí)的任務(wù)場景。用戶將能夠通過自然語言指令讓AI助手完成跨應(yīng)用的復(fù)雜操作,比如"幫我預(yù)訂明天的會議室,然后給所有參會人員發(fā)送邀請,再在日歷中創(chuàng)建提醒"。這種能力將大大提高數(shù)字設(shè)備的易用性和實(shí)用性。

研究團(tuán)隊(duì)也認(rèn)識到當(dāng)前系統(tǒng)的一些局限性。由于依賴大型語言模型,系統(tǒng)在推理過程中存在一定的計(jì)算開銷。同時(shí),規(guī)劃器和底層操作組件之間的緊密耦合意味著底層組件的錯(cuò)誤可能會影響整體任務(wù)的成功率。這些問題為未來的研究指明了方向。

從更廣闊的視角來看,這項(xiàng)研究為AI智能體的發(fā)展開辟了新的路徑。通過模仿人類的分層學(xué)習(xí)和技能積累方式,AI系統(tǒng)能夠更加高效地掌握復(fù)雜技能并應(yīng)用到新的場景中。這種思路不僅適用于圖形界面操作,也可能推廣到其他需要長期規(guī)劃和技能積累的AI應(yīng)用領(lǐng)域。

說到底,Mirage-1代表了AI智能體從"工具"向"助手"轉(zhuǎn)變的重要里程碑。它不再是簡單地執(zhí)行預(yù)設(shè)指令的程序,而是能夠理解復(fù)雜需求、制定執(zhí)行計(jì)劃、從經(jīng)驗(yàn)中學(xué)習(xí)并適應(yīng)新環(huán)境的智能實(shí)體。這種能力的提升將使AI技術(shù)更好地融入我們的日常生活,成為真正有用的數(shù)字伙伴。

雖然距離完全自主的AI助手還有一定距離,但Mirage-1已經(jīng)展示了這種可能性的曙光。隨著技術(shù)的不斷發(fā)展和完善,我們有理由期待未來會出現(xiàn)更加智能、更加實(shí)用的AI助手,能夠真正理解和滿足人類的復(fù)雜需求。這不僅是技術(shù)進(jìn)步的體現(xiàn),更是人工智能向著更加人性化和實(shí)用化方向發(fā)展的重要標(biāo)志。

對于有興趣深入了解這項(xiàng)研究的讀者,完整的技術(shù)細(xì)節(jié)和實(shí)驗(yàn)數(shù)據(jù)可以在arXiv平臺上獲得,論文編號為2506.10387v1。這項(xiàng)研究的開源代碼和演示也可以通過項(xiàng)目主頁https://cybertronagent.github.io/Mirage-1.github.io/訪問,為研究者和開發(fā)者提供了寶貴的參考資源。

Q&A

Q1:Mirage-1是什么?它能做什么?

A:Mirage-1是由哈工大團(tuán)隊(duì)開發(fā)的AI智能體系統(tǒng),它的核心能力是像人類一樣處理復(fù)雜的多步驟任務(wù)。比如它能夠在手機(jī)或網(wǎng)頁上自動完成創(chuàng)建聯(lián)系人、打電話、發(fā)短信這樣需要跨應(yīng)用操作的復(fù)雜任務(wù)。它最大的特點(diǎn)是具備長期規(guī)劃能力和從經(jīng)驗(yàn)中學(xué)習(xí)的能力。

Q2:Mirage-1會不會取代人類操作手機(jī)和電腦?

A:目前不會完全取代,但會大大簡化復(fù)雜操作。Mirage-1更像是一個(gè)智能助手,能夠幫助用戶自動完成繁瑣的多步驟操作,比如跨應(yīng)用的復(fù)雜任務(wù)。它讓用戶可以通過簡單的語言指令完成原本需要多個(gè)步驟的操作,提高效率而不是替代人類。

Q3:普通人什么時(shí)候能用上Mirage-1技術(shù)?

A:雖然Mirage-1目前還處于研究階段,但其核心技術(shù)已經(jīng)展現(xiàn)出很強(qiáng)的實(shí)用潛力。研究團(tuán)隊(duì)已經(jīng)開源了相關(guān)代碼,這意味著技術(shù)公司可以基于這些成果開發(fā)商業(yè)產(chǎn)品。預(yù)計(jì)在未來幾年內(nèi),我們可能會在智能手機(jī)助手、自動化軟件等產(chǎn)品中看到類似技術(shù)的應(yīng)用。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-