當(dāng)我們面對復(fù)雜的網(wǎng)頁任務(wù)時,比如在電商網(wǎng)站上找到最便宜的商品,或者在論壇里找到特定的帖子,往往需要進(jìn)行大量的點擊、搜索和篩選操作。現(xiàn)在,一個名為Recon-Act的智能系統(tǒng)正在改變這種狀況。這項由AWorld團(tuán)隊的何凱文、王志偉、莊晨宇和顧金杰等研究人員開發(fā)的成果,發(fā)表于2025年9月的arXiv預(yù)印本平臺(論文編號:arXiv:2509.21072v1),為我們展示了一種全新的瀏覽器操作方式。
說起Recon-Act,我們可以把它想象成一個專業(yè)的網(wǎng)頁操作團(tuán)隊。就像一個建筑工地需要不同職能的工人一樣,這個系統(tǒng)也分為兩個核心團(tuán)隊:偵察隊和行動隊。偵察隊就像是工地上的勘探員,他們會先仔細(xì)觀察環(huán)境,分析問題,然后制定工具和策略。行動隊則像是實際施工的工人,他們使用偵察隊提供的工具來完成具體的任務(wù)。
這個系統(tǒng)的最大特點是它能夠"自我進(jìn)化"。當(dāng)系統(tǒng)在某個網(wǎng)站上遇到困難時,偵察隊會分析失敗的原因,然后開發(fā)出專門的工具來解決這類問題。這些工具會被存儲起來,供后續(xù)遇到類似情況時使用。就好比一個經(jīng)驗豐富的工匠,每次遇到新的問題都會制作一個新工具,隨著時間推移,工具箱里的工具越來越多,解決問題的能力也越來越強(qiáng)。
研究團(tuán)隊設(shè)計了一個六級發(fā)展路線圖來逐步實現(xiàn)這個系統(tǒng)。目前他們已經(jīng)達(dá)到了第三級,在這個級別下,除了分析師和工具管理員仍需要人工干預(yù)外,其他組件都可以由人工智能模型自動完成。在著名的VisualWebArena數(shù)據(jù)集上,Recon-Act取得了36.48%的成功率,超越了之前的所有自動化系統(tǒng),雖然距離人類88.7%的表現(xiàn)還有差距,但已經(jīng)是一個重大進(jìn)步。
一、偵察隊的工作原理
在Recon-Act系統(tǒng)中,偵察隊扮演著至關(guān)重要的角色。我們可以把偵察隊比作一個專業(yè)的調(diào)研團(tuán)隊,他們的工作就是深入了解問題的本質(zhì),然后為解決問題提供有針對性的方案。
偵察隊由兩個核心成員組成:分析師和程序員。分析師就像是一個經(jīng)驗豐富的偵探,當(dāng)系統(tǒng)在執(zhí)行任務(wù)時遇到失敗,分析師會仔細(xì)對比成功和失敗的操作軌跡,找出問題的根源。比如,當(dāng)系統(tǒng)在購物網(wǎng)站上無法正確排序商品價格時,分析師會分析是因為找不到排序按鈕,還是因為點擊了錯誤的位置,或者是因為網(wǎng)頁結(jié)構(gòu)與預(yù)期不符。
程序員則負(fù)責(zé)將分析師的發(fā)現(xiàn)轉(zhuǎn)化為實際可用的工具。這些工具被稱為"通用工具",可以是簡單的提示信息,也可以是復(fù)雜的自動化程序。繼續(xù)以購物網(wǎng)站為例,如果分析師發(fā)現(xiàn)問題在于商品圖片太小導(dǎo)致系統(tǒng)無法準(zhǔn)確識別,程序員就會開發(fā)一個工具,自動將網(wǎng)頁從列表視圖切換到網(wǎng)格視圖,讓圖片變大,提高識別準(zhǔn)確率。
偵察隊還配備了一套基礎(chǔ)的偵察工具包,包括獲取網(wǎng)頁鏈接、截取圖片、解析頁面結(jié)構(gòu)等功能。這些工具就像是偵探手中的放大鏡和指紋識別器,幫助他們更好地理解網(wǎng)頁環(huán)境。當(dāng)遇到復(fù)雜問題時,偵察隊會使用這些基礎(chǔ)工具進(jìn)行更深入的探索,收集更多信息來指導(dǎo)后續(xù)的工具開發(fā)。
整個偵察過程是一個循環(huán)往復(fù)的學(xué)習(xí)過程。系統(tǒng)會不斷執(zhí)行任務(wù),收集成功和失敗的案例,然后通過對比分析來發(fā)現(xiàn)新的解決方案。每當(dāng)開發(fā)出新工具,系統(tǒng)就會在訓(xùn)練集上重新測試,驗證工具的效果。如果工具能夠提高成功率,就會被正式注冊到工具庫中,供后續(xù)任務(wù)使用。
二、行動隊的協(xié)作機(jī)制
行動隊是Recon-Act系統(tǒng)中負(fù)責(zé)實際執(zhí)行任務(wù)的團(tuán)隊,可以把它想象成一個精密的施工隊伍。這個隊伍有三個關(guān)鍵角色:項目經(jīng)理、工具管理員和執(zhí)行工程師。
項目經(jīng)理是整個行動隊的指揮中樞,就像建筑工地上的工頭一樣。當(dāng)接到用戶的任務(wù)時,項目經(jīng)理會仔細(xì)分析當(dāng)前的網(wǎng)頁環(huán)境和任務(wù)要求,然后決定使用哪種工具或者調(diào)用哪個團(tuán)隊成員。比如,當(dāng)用戶要求在Reddit論壇上給某個帖子點贊時,項目經(jīng)理會識別出這是一個投票任務(wù),然后選擇合適的投票工具。
工具管理員扮演著庫房管理員的角色,負(fù)責(zé)維護(hù)整個工具庫。當(dāng)偵察隊開發(fā)出新工具時,工具管理員會決定是添加全新工具還是更新現(xiàn)有工具。這個決策過程需要考慮工具的功能重疊性和兼容性。為了避免工具之間的沖突,工具管理員會為每個工具添加條件邏輯,確保它們能在適當(dāng)?shù)那闆r下被調(diào)用,而不會干擾其他工具的正常運(yùn)行。
執(zhí)行工程師是行動隊的最后一道保障,就像是一個全能的維修工。當(dāng)其他工具都無法處理當(dāng)前情況時,執(zhí)行工程師會接手任務(wù),生成基本的操作指令。這種設(shè)計確保了系統(tǒng)始終能夠給出某種回應(yīng),不會因為缺乏合適的工具而完全卡住。
系統(tǒng)中的工具分為兩種類型:提示型工具和決策型工具。提示型工具類似于經(jīng)驗豐富的顧問,它們會向執(zhí)行工程師提供建議和指導(dǎo),但最終的決策仍由執(zhí)行工程師做出。決策型工具則更像是專業(yè)的自動化設(shè)備,它們會直接生成具體的操作指令,系統(tǒng)會立即執(zhí)行這些指令而無需進(jìn)一步處理。
在執(zhí)行任務(wù)時,整個流程就像是一條高效的生產(chǎn)線。項目經(jīng)理接收任務(wù)后,通過工具路由器選擇合適的工具。如果選擇的是提示型工具,系統(tǒng)會先運(yùn)行該工具獲取建議,然后讓執(zhí)行工程師基于這些建議生成最終操作。如果選擇的是決策型工具,系統(tǒng)會直接執(zhí)行工具輸出的指令。每次操作后,瀏覽器環(huán)境會更新,為下一步操作提供新的上下文信息。
三、工具生成與進(jìn)化機(jī)制
Recon-Act系統(tǒng)最令人印象深刻的特性是它的自我進(jìn)化能力,這個過程就像是一個工匠不斷改進(jìn)自己的工藝和工具一樣。整個進(jìn)化過程建立在一個閉環(huán)的學(xué)習(xí)機(jī)制之上,數(shù)據(jù)、工具、行動和反饋形成了一個完整的循環(huán)。
系統(tǒng)的進(jìn)化從對比學(xué)習(xí)開始。當(dāng)行動隊執(zhí)行任務(wù)失敗時,偵察隊會將失敗的操作軌跡與成功的操作軌跡進(jìn)行詳細(xì)對比。這種對比不是簡單的表面比較,而是深入到每個操作步驟的分析。比如,在分類廣告網(wǎng)站上搜索商品時,如果系統(tǒng)無法正確按價格排序,分析師會發(fā)現(xiàn)成功軌跡中使用了特定的排序功能,而失敗軌跡中要么沒有找到這個功能,要么使用了錯誤的方法。
基于這種對比分析,系統(tǒng)會抽象出通用的解決方案。這些解決方案被統(tǒng)一封裝為"通用工具",可能是簡單的操作提示,也可能是復(fù)雜的自動化程序。所有工具都遵循統(tǒng)一的接口標(biāo)準(zhǔn):它們接受一組標(biāo)準(zhǔn)化的參數(shù),返回字符串格式的結(jié)果。這種設(shè)計避免了為每個任務(wù)單獨(dú)定制參數(shù)的復(fù)雜性,大大簡化了系統(tǒng)的維護(hù)工作。
工具的注冊過程體現(xiàn)了系統(tǒng)的智能化特點。當(dāng)新工具被開發(fā)出來時,工具管理員會評估它與現(xiàn)有工具的關(guān)系。如果功能相似,系統(tǒng)會選擇更新現(xiàn)有工具而不是創(chuàng)建新工具。更新過程使用條件邏輯來擴(kuò)展工具功能,確保新功能不會影響工具在其他場景下的表現(xiàn)。
研究團(tuán)隊目前已經(jīng)開發(fā)出11個專用工具,涵蓋了三個主要網(wǎng)站類型的典型操作。在分類廣告網(wǎng)站上,有專門的價格排序工具;在Reddit論壇上,有投票工具、作者查找工具和子版塊導(dǎo)航工具;在購物網(wǎng)站上,有類別導(dǎo)航工具、圖片搜索工具和價格排序工具。每個工具都針對特定網(wǎng)站的特殊需求進(jìn)行了優(yōu)化。
值得注意的是,系統(tǒng)在開發(fā)工具時會特別考慮網(wǎng)站的獨(dú)特性。不同網(wǎng)站有不同的頁面結(jié)構(gòu)和交互方式,同樣的功能在不同網(wǎng)站上可能需要完全不同的實現(xiàn)方法。因此,每個工具都明確標(biāo)注了它適用的網(wǎng)站類型和使用條件,避免在錯誤的環(huán)境中被調(diào)用。
整個進(jìn)化過程是增量式的。系統(tǒng)不會一次性開發(fā)所有需要的工具,而是根據(jù)遇到的問題逐步擴(kuò)展工具庫。這種方式確保了每個工具都是針對實際需求開發(fā)的,避免了不必要的復(fù)雜性。隨著系統(tǒng)處理的任務(wù)類型增多,工具庫也會相應(yīng)地豐富和完善。
四、實驗結(jié)果與性能表現(xiàn)
在VisualWebArena這個具有挑戰(zhàn)性的基準(zhǔn)測試中,Recon-Act展現(xiàn)出了令人矚目的性能。這個測試包含約910個查詢?nèi)蝿?wù),涵蓋分類廣告、購物網(wǎng)站和Reddit論壇三個主要領(lǐng)域,要求系統(tǒng)能夠理解視覺內(nèi)容并執(zhí)行復(fù)雜的多步驟操作。
從整體表現(xiàn)來看,Recon-Act達(dá)到了36.48%的成功率,超越了之前最好的自動化系統(tǒng)2.74個百分點。這個提升看似不大,但在這樣一個高難度的測試中,每一個百分點的提升都代表著巨大的技術(shù)進(jìn)步。相比于早期的方法,Recon-Act的改進(jìn)幅度通常超過10%,顯示出其設(shè)計理念的優(yōu)越性。
在不同領(lǐng)域的表現(xiàn)上,Recon-Act展現(xiàn)出了均衡的能力。在購物網(wǎng)站任務(wù)中,系統(tǒng)達(dá)到了39.27%的成功率,比之前的最佳成果提高了6.97%,這是一個相當(dāng)顯著的進(jìn)步。在分類廣告和Reddit論壇任務(wù)中,雖然略低于當(dāng)前最好的系統(tǒng),但差距很小,分別只有1.68%和1.56%。這種均衡的表現(xiàn)表明,Recon-Act的設(shè)計具有良好的通用性,不會在某個特定領(lǐng)域特別弱勢。
從執(zhí)行效率的角度來看,Recon-Act展現(xiàn)出了穩(wěn)定的操作風(fēng)格。系統(tǒng)平均需要4.9步完成任務(wù),這個數(shù)字處于合理范圍內(nèi),既不會因為步驟過少而顯得草率,也不會因為步驟過多而顯得低效。更重要的是,系統(tǒng)很少需要進(jìn)行自我糾錯操作,說明它的決策質(zhì)量較高,大多數(shù)操作都是有效的。
研究團(tuán)隊特別強(qiáng)調(diào)了他們的訓(xùn)練方法的高效性。與一些依賴大規(guī)模隨機(jī)探索的方法不同,Recon-Act使用了精心策劃的小規(guī)模訓(xùn)練集,每個領(lǐng)域不超過10個示例。這種方法避免了數(shù)據(jù)冗余問題,同時確保了訓(xùn)練質(zhì)量。研究團(tuán)隊認(rèn)為,隨機(jī)漫步式的探索往往會產(chǎn)生大量重復(fù)和低質(zhì)量的數(shù)據(jù),這與他們追求效率和精確性的目標(biāo)不符。
在系統(tǒng)架構(gòu)方面,當(dāng)前的Level 3配置顯示出了人機(jī)協(xié)作的有效性。雖然分析師和工具管理員仍需要人工參與,但程序員、項目經(jīng)理和執(zhí)行工程師已經(jīng)可以由大型語言模型驅(qū)動。這種混合架構(gòu)在保證系統(tǒng)性能的同時,也為未來的完全自動化奠定了基礎(chǔ)。
值得注意的是,與人類88.7%的表現(xiàn)相比,Recon-Act仍有很大的改進(jìn)空間。這個差距反映了當(dāng)前人工智能系統(tǒng)在理解復(fù)雜視覺內(nèi)容和執(zhí)行多步驟推理方面的局限性。不過,考慮到這是一個全新的研究領(lǐng)域,Recon-Act的表現(xiàn)已經(jīng)為未來的發(fā)展指明了方向。
五、技術(shù)創(chuàng)新與發(fā)展路線
Recon-Act的技術(shù)創(chuàng)新主要體現(xiàn)在其獨(dú)特的"偵察-行動"雙團(tuán)隊協(xié)作模式和工具中心的進(jìn)化機(jī)制上。這種設(shè)計理念的核心思想是將信息收集與任務(wù)執(zhí)行分離,讓專門的團(tuán)隊負(fù)責(zé)專門的工作,然后通過工具這個橋梁實現(xiàn)知識的傳遞和積累。
系統(tǒng)的六級發(fā)展路線圖展現(xiàn)了研究團(tuán)隊的清晰愿景。第一級是完全人工操作的基準(zhǔn)線,只有執(zhí)行工程師使用人工智能。第二級引入了視覺語言模型來驅(qū)動項目經(jīng)理和執(zhí)行工程師。第三級是當(dāng)前已實現(xiàn)的配置,程序員也加入了人工智能驅(qū)動的行列。第四級將進(jìn)一步自動化分析師,第五級實現(xiàn)所有組件的人工智能化,最終的第六級目標(biāo)是開發(fā)一個端到端的統(tǒng)一模型。
每個級別的推進(jìn)都面臨著不同的技術(shù)挑戰(zhàn)。當(dāng)前從第三級向更高級別發(fā)展的主要障礙在于推理和編程能力的提升。分析師需要具備強(qiáng)大的分析推理能力,能夠從復(fù)雜的操作軌跡中抽取有價值的模式。工具管理員則需要具備代碼理解和集成能力,能夠處理工具之間的復(fù)雜依賴關(guān)系和版本管理問題。
在工具設(shè)計方面,系統(tǒng)采用了統(tǒng)一的接口標(biāo)準(zhǔn),所有工具都接受相同的參數(shù)集合并返回標(biāo)準(zhǔn)格式的結(jié)果。這種設(shè)計雖然可能在某些特定場景下不夠精確,但大大簡化了工具的開發(fā)和維護(hù)工作。研究團(tuán)隊認(rèn)為,這種權(quán)衡是值得的,因為它降低了系統(tǒng)的復(fù)雜度,提高了可擴(kuò)展性。
系統(tǒng)的另一個重要創(chuàng)新是硬編碼的工具路由機(jī)制。在推理階段,為了確保工具調(diào)用的準(zhǔn)確性和系統(tǒng)的泛化能力,研究團(tuán)隊添加了這種機(jī)制來輔助項目經(jīng)理的決策。雖然這在一定程度上限制了系統(tǒng)的靈活性,但提高了執(zhí)行的可靠性,這在實際應(yīng)用中是一個重要考慮。
在偵察工具方面,系統(tǒng)配備了一套基礎(chǔ)的網(wǎng)頁分析工具,包括URL獲取、圖像捕獲和頁面結(jié)構(gòu)解析等功能。這些工具為更高級的分析提供了基礎(chǔ)能力。當(dāng)遇到新的挑戰(zhàn)時,偵察隊可以組合使用這些基礎(chǔ)工具來收集必要的信息,為新工具的開發(fā)提供數(shù)據(jù)支持。
研究團(tuán)隊特別注重工具的網(wǎng)站特異性設(shè)計。他們發(fā)現(xiàn),不同網(wǎng)站的交互模式差異很大,通用的解決方案往往效果不佳。因此,每個工具都明確標(biāo)注了適用的網(wǎng)站類型和使用條件。這種設(shè)計確保了工具在正確的環(huán)境中被調(diào)用,避免了跨網(wǎng)站使用時可能出現(xiàn)的問題。
六、挑戰(zhàn)與未來發(fā)展方向
盡管Recon-Act取得了顯著的進(jìn)展,但研究團(tuán)隊也清醒地認(rèn)識到當(dāng)前系統(tǒng)面臨的挑戰(zhàn)和局限性。這些挑戰(zhàn)主要集中在三個方面:自主性提升、推理編程能力增強(qiáng),以及偵察能力的擴(kuò)展。
在自主性方面,當(dāng)前系統(tǒng)的學(xué)習(xí)能力很大程度上依賴于人工構(gòu)建的訓(xùn)練數(shù)據(jù),特別是需要成功操作軌跡作為參考。這種依賴使得訓(xùn)練過程類似于"監(jiān)督學(xué)習(xí)",限制了系統(tǒng)的自主探索能力。為了解決這個問題,研究團(tuán)隊計劃引入隨機(jī)漫步式的自主探索機(jī)制,讓系統(tǒng)能夠在環(huán)境中獨(dú)立生成更多的成功軌跡,從而減少對人工數(shù)據(jù)的依賴。
推理和編程能力的提升是實現(xiàn)更高自動化級別的關(guān)鍵。目前的分析師需要具備強(qiáng)大的分析推理能力,能夠從復(fù)雜的操作軌跡中識別問題模式并提出解決方案。這不僅要求模型能夠理解任務(wù)相關(guān)的信息,還要能夠考慮如何降低任務(wù)難度,使其更適合大型模型處理。比如,在分類廣告網(wǎng)站上,當(dāng)圖像定位步驟經(jīng)常選擇錯誤邊界框時,系統(tǒng)應(yīng)該能夠發(fā)現(xiàn)從列表視圖切換到網(wǎng)格視圖可以放大縮略圖,從而減少視覺理解的難度。
工具管理方面的挑戰(zhàn)主要體現(xiàn)在代碼分支管理和迭代修改的復(fù)雜性上。當(dāng)系統(tǒng)需要為現(xiàn)有工具添加新功能時,必須確保新功能不會影響工具在其他場景下的表現(xiàn)。這需要精確的條件邏輯設(shè)計和版本控制機(jī)制。另外,當(dāng)前的項目經(jīng)理在工具調(diào)用時仍有一定的錯誤率,通過合并相似工具的功能來減少工具數(shù)量,可能是一個有效的解決方案。
偵察能力的擴(kuò)展是系統(tǒng)適應(yīng)更廣泛網(wǎng)絡(luò)環(huán)境的關(guān)鍵。目前的偵察模塊只在固定的幾個網(wǎng)站上表現(xiàn)良好,還沒有泛化到更異構(gòu)的網(wǎng)絡(luò)環(huán)境中。不同網(wǎng)站的結(jié)構(gòu)差異、交互模式差異和視覺設(shè)計差異都對系統(tǒng)的適應(yīng)能力提出了挑戰(zhàn)。研究團(tuán)隊需要開發(fā)更強(qiáng)大的網(wǎng)頁理解和適應(yīng)機(jī)制,使系統(tǒng)能夠快速適應(yīng)新的網(wǎng)站環(huán)境。
在技術(shù)路線方面,研究團(tuán)隊提出了幾個具體的改進(jìn)方向。首先是收集更多針對性的分析數(shù)據(jù),訓(xùn)練分析師在不同瀏覽器環(huán)境中獲得robust的上下文感知分析能力。其次是通過類似的目標(biāo)訓(xùn)練來增強(qiáng)工具管理員的編程能力,特別是在處理分支邏輯和版本控制方面。最后是擴(kuò)展基礎(chǔ)偵察工具的范圍和能力,使其能夠處理更多類型的網(wǎng)頁結(jié)構(gòu)和交互模式。
從長遠(yuǎn)來看,研究團(tuán)隊的最終目標(biāo)是實現(xiàn)第六級的端到端模型,這將是一個能夠獨(dú)立完成所有瀏覽器操作任務(wù)的統(tǒng)一系統(tǒng)。雖然這個目標(biāo)還很遙遠(yuǎn),但Recon-Act已經(jīng)為這個方向奠定了重要的基礎(chǔ),證明了工具中心的進(jìn)化方法在復(fù)雜環(huán)境中的可行性。
說到底,Recon-Act代表了人工智能在網(wǎng)頁操作領(lǐng)域的一個重要進(jìn)步。它不僅在技術(shù)性能上取得了突破,更重要的是提出了一種全新的系統(tǒng)設(shè)計理念。這種將偵察與行動分離、通過工具實現(xiàn)知識積累的方法,可能會對整個智能代理領(lǐng)域產(chǎn)生深遠(yuǎn)影響。雖然距離完全替代人工操作還有很長的路要走,但Recon-Act已經(jīng)向我們展示了未來智能瀏覽器助手的可能形態(tài)。對于普通用戶來說,這意味著將來我們可能只需要用自然語言描述需求,就能讓AI幫我們完成復(fù)雜的網(wǎng)頁操作任務(wù),大大提高我們的工作效率和生活便利性。
Q&A
Q1:Recon-Act是什么?它是如何工作的?
A:Recon-Act是由AWorld團(tuán)隊開發(fā)的智能瀏覽器操作系統(tǒng),它就像一個專業(yè)團(tuán)隊,分為偵察隊和行動隊兩部分。偵察隊負(fù)責(zé)分析網(wǎng)頁操作中的問題并開發(fā)解決工具,行動隊負(fù)責(zé)使用這些工具執(zhí)行具體任務(wù)。系統(tǒng)最大的特點是能夠自我進(jìn)化,遇到新問題時會開發(fā)新工具并存儲起來。
Q2:Recon-Act的成功率有多高?比人類操作差多少?
A:在VisualWebArena測試中,Recon-Act達(dá)到了36.48%的成功率,超越了之前最好的自動化系統(tǒng)2.74%。雖然與人類88.7%的表現(xiàn)還有較大差距,但已經(jīng)是這個領(lǐng)域的重大突破。在購物網(wǎng)站任務(wù)中表現(xiàn)最好,達(dá)到39.27%的成功率。
Q3:普通人什么時候能用上Recon-Act這樣的瀏覽器助手?
A:目前Recon-Act還處于研究階段,團(tuán)隊已經(jīng)實現(xiàn)了六級發(fā)展計劃中的第三級,仍需要一定程度的人工干預(yù)。要實現(xiàn)完全自動化還需要在推理能力、編程能力和網(wǎng)站適應(yīng)性方面繼續(xù)改進(jìn)。預(yù)計未來幾年內(nèi)可能會有類似技術(shù)的商業(yè)化應(yīng)用出現(xiàn)。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機(jī)制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。