av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 騰訊研究團(tuán)隊發(fā)明AI智能體訓(xùn)練新方法:讓機(jī)器學(xué)會"從成功中學(xué)習(xí)"

騰訊研究團(tuán)隊發(fā)明AI智能體訓(xùn)練新方法:讓機(jī)器學(xué)會"從成功中學(xué)習(xí)"

2025-10-17 14:07
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-17 14:07 ? 科技行者

這項(xiàng)由騰訊優(yōu)圖實(shí)驗(yàn)室的覃宇雷、譚曉宇、何正豹等多位研究者領(lǐng)導(dǎo)的研究,發(fā)表于2025年9月的arXiv論文庫,論文編號為arXiv:2509.22601v2。研究團(tuán)隊還包括來自上海交通大學(xué)、北京大學(xué)、復(fù)旦大學(xué)、廈門大學(xué)等高校的學(xué)者。這個名為SPEAR(Self-imitation with Progressive Exploration for Agentic Reinforcement Learning)的創(chuàng)新訓(xùn)練方法,就像給AI智能體配備了一個"經(jīng)驗(yàn)回憶錄",讓它能從自己的成功經(jīng)歷中不斷學(xué)習(xí)和改進(jìn)。

當(dāng)前的AI智能體就像初學(xué)者一樣,面對復(fù)雜任務(wù)時往往需要大量的試錯過程。比如讓AI學(xué)會使用各種工具解決數(shù)學(xué)問題、在網(wǎng)上購物或者操控虛擬環(huán)境,這些都需要多步驟的決策和行動。傳統(tǒng)的訓(xùn)練方法就像讓學(xué)生在考試中隨機(jī)答題,沒有充分利用之前成功的經(jīng)驗(yàn)。研究團(tuán)隊發(fā)現(xiàn),現(xiàn)有的強(qiáng)化學(xué)習(xí)方法在訓(xùn)練這類長期任務(wù)的AI時,容易陷入兩個極端:要么過度保守不敢嘗試新方法,要么過于激進(jìn)導(dǎo)致行為不穩(wěn)定。

這個問題就好比學(xué)習(xí)開車。新手司機(jī)剛開始可能會各種嘗試,有時過于謹(jǐn)慎在路上龜速行駛,有時又過于大膽導(dǎo)致危險駕駛。SPEAR方法的核心思想是讓AI建立一個"成功駕駛經(jīng)歷檔案",每當(dāng)它成功完成一次任務(wù),就把這次的操作步驟記錄下來,作為未來參考的寶貴經(jīng)驗(yàn)。同時,這個方法還設(shè)計了一個漸進(jìn)式的學(xué)習(xí)過程,讓AI先學(xué)會使用基本工具,再逐步掌握復(fù)雜的策略組合。

一、傳統(tǒng)AI訓(xùn)練的困境:在探索與保守間搖擺

要理解SPEAR方法的創(chuàng)新之處,我們首先需要了解當(dāng)前AI智能體訓(xùn)練面臨的核心挑戰(zhàn)?,F(xiàn)在的AI訓(xùn)練就像教一個人學(xué)習(xí)復(fù)雜的手工藝,比如制作精美的陶瓷。傳統(tǒng)方法往往讓學(xué)習(xí)者在沒有任何指導(dǎo)的情況下自己摸索,結(jié)果要么過于小心翼翼只會做最簡單的泥坯,要么過于激進(jìn)把陶土搞得一團(tuán)糟。

當(dāng)AI智能體需要處理長期任務(wù)時,這個問題變得更加突出。以讓AI學(xué)習(xí)使用計算器解決復(fù)雜數(shù)學(xué)問題為例,傳統(tǒng)的訓(xùn)練方法經(jīng)常遇到所謂的"熵坍塌"問題。熵在這里可以理解為AI行為的多樣性程度。當(dāng)熵過低時,AI就像一個只會背誦公式的學(xué)生,遇到新題型就束手無策;當(dāng)熵過高時,AI又像一個完全沒有章法的人,隨意按計算器按鍵,完全沒有邏輯可言。

更復(fù)雜的是,現(xiàn)有的訓(xùn)練方法往往只關(guān)注最終結(jié)果的好壞,而忽略了過程中的學(xué)習(xí)價值。這就像只告訴學(xué)生考試成績,卻不分析錯題和解題過程。研究團(tuán)隊發(fā)現(xiàn),很多AI在訓(xùn)練過程中會偶然找到正確的解決方案,但由于缺乏有效的經(jīng)驗(yàn)積累機(jī)制,這些寶貴的成功經(jīng)歷很快就被遺忘了。

傳統(tǒng)的組相對策略優(yōu)化(GRPO)方法雖然在某些方面有所改進(jìn),但仍然存在明顯不足。這種方法就像讓學(xué)生在小組中相互比較,雖然能提供一些相對的反饋,但缺乏絕對的標(biāo)準(zhǔn)和歷史經(jīng)驗(yàn)的積累。當(dāng)面對真正具有挑戰(zhàn)性的長期任務(wù)時,這種方法往往顯得力不從心。

研究團(tuán)隊通過大量實(shí)驗(yàn)發(fā)現(xiàn),現(xiàn)有方法在處理需要多步驟工具使用的任務(wù)時,經(jīng)常出現(xiàn)訓(xùn)練不穩(wěn)定的情況。AI可能在某一階段表現(xiàn)很好,但隨著訓(xùn)練的進(jìn)行,性能卻開始下降。這種現(xiàn)象在需要使用代碼解釋器、網(wǎng)絡(luò)搜索工具或虛擬環(huán)境操作的任務(wù)中尤為明顯。

二、SPEAR方法的核心理念:建立AI的"成功經(jīng)驗(yàn)庫"

面對這些挑戰(zhàn),研究團(tuán)隊提出了SPEAR方法,這個名字本身就體現(xiàn)了其核心理念:Self-imitation with Progressive Exploration,即"漸進(jìn)式探索的自我模仿學(xué)習(xí)"。如果把AI的學(xué)習(xí)過程比作一個人成長的歷程,那么SPEAR就是在教AI如何建立和使用自己的"成功日記"。

SPEAR的第一個核心組件是"經(jīng)驗(yàn)重放緩沖區(qū)",這就像給AI配備了一個專門的記憶庫。每當(dāng)AI成功完成一項(xiàng)任務(wù),系統(tǒng)就會自動將這次的完整操作序列保存下來,包括遇到的問題、采取的行動、使用的工具以及最終的結(jié)果。這個記憶庫不是簡單的流水賬,而是經(jīng)過精心篩選的優(yōu)質(zhì)經(jīng)驗(yàn)集合。

與人類學(xué)習(xí)不同的是,AI可以完美地重現(xiàn)之前的成功經(jīng)歷。SPEAR充分利用了這個優(yōu)勢,讓AI定期回顧這些成功案例,從中提取有價值的行為模式。這個過程類似于優(yōu)秀的運(yùn)動員通過反復(fù)觀看自己成功比賽的錄像來改進(jìn)技術(shù)動作。

SPEAR的第二個創(chuàng)新點(diǎn)是"漸進(jìn)式探索策略"。傳統(tǒng)方法往往一開始就讓AI面對完整的復(fù)雜任務(wù),這就像讓一個從未接觸過音樂的人直接演奏交響樂。SPEAR采用了更加人性化的學(xué)習(xí)路徑:首先讓AI掌握基本的工具使用技能,比如學(xué)會正確調(diào)用計算器、搜索引擎或代碼執(zhí)行器;然后逐步過渡到學(xué)習(xí)如何組合這些工具來解決復(fù)雜問題。

這種漸進(jìn)式策略通過一個巧妙的"課程調(diào)度"機(jī)制來實(shí)現(xiàn)。在訓(xùn)練的早期階段,系統(tǒng)會給予AI更多的內(nèi)在獎勵,鼓勵它大膽嘗試各種工具和方法。隨著訓(xùn)練的深入,這些內(nèi)在獎勵逐漸減少,而對最終結(jié)果正確性的要求則相應(yīng)提高。這就像學(xué)習(xí)駕駛時,教練一開始會鼓勵學(xué)員多練習(xí)基本操作,后期則更注重實(shí)際道路駕駛的安全性和效率。

三、優(yōu)勢重新校準(zhǔn):讓過往經(jīng)驗(yàn)保持時效性

SPEAR方法面臨的一個技術(shù)挑戰(zhàn)是如何處理"過時經(jīng)驗(yàn)"的問題。AI在學(xué)習(xí)過程中不斷進(jìn)步,今天的成功經(jīng)驗(yàn)可能對明天已經(jīng)升級的AI來說價值有限。這就像一個不斷進(jìn)步的棋手,初學(xué)階段的獲勝棋譜對高水平階段的參考價值會逐漸降低。

為了解決這個問題,研究團(tuán)隊設(shè)計了"優(yōu)勢重新校準(zhǔn)"機(jī)制。這個機(jī)制的工作原理類似于給歷史經(jīng)驗(yàn)重新評分。系統(tǒng)會維護(hù)一個動態(tài)的基準(zhǔn)線,反映當(dāng)前AI的平均表現(xiàn)水平。當(dāng)回顧歷史成功經(jīng)驗(yàn)時,系統(tǒng)會根據(jù)這個新的基準(zhǔn)線重新評估這些經(jīng)驗(yàn)的價值。

具體來說,系統(tǒng)會保存最近一段時間AI的平均表現(xiàn)數(shù)據(jù),然后用這個數(shù)據(jù)來重新計算歷史經(jīng)驗(yàn)的"優(yōu)勢值"。如果一個歷史經(jīng)驗(yàn)在當(dāng)前水平下仍然表現(xiàn)突出,它就會被保留并繼續(xù)用于學(xué)習(xí);如果它的表現(xiàn)已經(jīng)低于當(dāng)前平均水平,就會被從經(jīng)驗(yàn)庫中移除。這種機(jī)制確保了經(jīng)驗(yàn)庫始終保持高質(zhì)量,不會被過時的低水平經(jīng)驗(yàn)所污染。

這個重新校準(zhǔn)過程還避免了重復(fù)計算的開銷。傳統(tǒng)的自我模仿學(xué)習(xí)方法每次使用歷史經(jīng)驗(yàn)時都需要重新計算各種指標(biāo),這不僅耗時還可能引入計算誤差。SPEAR通過智能的增量更新策略,大大提高了計算效率。

四、熵正則化:在保守與激進(jìn)間找到平衡

AI訓(xùn)練中的另一個關(guān)鍵挑戰(zhàn)是控制"策略熵",這個概念可以用一個簡單的比喻來理解。策略熵就像衡量一個人行為可預(yù)測性的指標(biāo)。熵值高意味著行為多樣且難以預(yù)測,就像一個充滿創(chuàng)意但有時會做出意外決定的藝術(shù)家;熵值低則意味著行為模式固定,就像一個嚴(yán)格按照程序操作的工廠工人。

對于AI智能體來說,適當(dāng)?shù)撵刂抵陵P(guān)重要。太低的熵會讓AI過度保守,只會重復(fù)已知的安全操作,無法應(yīng)對新情況;太高的熵則會讓AI行為過于隨機(jī),失去解決問題的邏輯性。SPEAR通過精心設(shè)計的正則化機(jī)制來維持這個微妙的平衡。

研究團(tuán)隊發(fā)現(xiàn),當(dāng)AI使用自我模仿學(xué)習(xí)時,容易陷入"熵坍塌"的陷阱。這種現(xiàn)象類似于一個學(xué)生過度依賴標(biāo)準(zhǔn)答案,逐漸失去獨(dú)立思考的能力。為了防止這種情況,SPEAR引入了"協(xié)方差剪切"技術(shù)。這個技術(shù)的工作原理是識別那些與獎勵高度相關(guān)的行為模式,然后有選擇地降低對這些模式的過度依賴。

具體來說,系統(tǒng)會分析AI的每個決策與最終獎勵之間的關(guān)聯(lián)性。如果發(fā)現(xiàn)某些決策過度影響了獎勵的獲得,系統(tǒng)就會在訓(xùn)練過程中適當(dāng)"忽略"這些決策的梯度更新。這就像提醒學(xué)生不要過度依賴某個特定的解題技巧,而要培養(yǎng)多樣化的問題解決能力。

SPEAR還采用了"熱身調(diào)度"機(jī)制來平滑這個過程。在訓(xùn)練的早期階段,自我模仿的權(quán)重較低,AI主要通過正常的探索來學(xué)習(xí);隨著訓(xùn)練的進(jìn)行,自我模仿的權(quán)重逐漸增加,讓AI更多地參考成功經(jīng)驗(yàn)。這種漸進(jìn)式的調(diào)整避免了突然的行為模式變化,保證了訓(xùn)練過程的穩(wěn)定性。

五、內(nèi)在獎勵設(shè)計:從工具使用到策略制定

SPEAR的另一個創(chuàng)新之處在于其精心設(shè)計的內(nèi)在獎勵系統(tǒng)。這個系統(tǒng)就像為AI設(shè)計了一套個人成長激勵機(jī)制,不僅關(guān)注最終結(jié)果,還鼓勵學(xué)習(xí)過程中的積極行為。

內(nèi)在獎勵系統(tǒng)包含三個主要組成部分。首先是"結(jié)果獎勵",這是最直接的反饋,相當(dāng)于考試成績,要么成功得到正分,要么失敗得到負(fù)分。這種二元化的獎勵雖然簡單明確,但對于復(fù)雜的多步驟任務(wù)來說,反饋信息往往過于稀疏。

為了解決這個問題,SPEAR引入了"工具調(diào)用獎勵"。這種獎勵機(jī)制鼓勵A(yù)I積極使用各種可用工具,比如計算器、代碼執(zhí)行器或搜索引擎。獎勵的數(shù)量與AI使用工具的次數(shù)成正比,但設(shè)有上限以防止無意義的重復(fù)操作。這就像鼓勵學(xué)生多使用字典和參考書,但不希望他們?yōu)榱双@得獎勵而無目的地翻閱。

第三種是"格式獎勵",這是一個看似簡單但實(shí)際上很重要的設(shè)計。當(dāng)AI的輸出符合預(yù)期格式時(比如在代碼塊中包含實(shí)際代碼,在思考標(biāo)簽中包含推理過程),系統(tǒng)會給予小額獎勵。這種獎勵培養(yǎng)了AI良好的"表達(dá)習(xí)慣",使其輸出更加規(guī)范和易于理解。

特別值得注意的是,這三種獎勵的權(quán)重會隨著訓(xùn)練進(jìn)程動態(tài)調(diào)整。在訓(xùn)練初期,工具調(diào)用獎勵占較大比重,鼓勵A(yù)I大膽嘗試各種工具;隨著訓(xùn)練深入,結(jié)果獎勵的權(quán)重逐漸增加,促使AI更加關(guān)注任務(wù)的實(shí)際完成質(zhì)量。這種動態(tài)調(diào)整避免了AI為了獲得內(nèi)在獎勵而偏離主要目標(biāo)的問題。

六、Dr.BoT基準(zhǔn):集成工業(yè)級優(yōu)化技術(shù)

除了提出SPEAR方法外,研究團(tuán)隊還開發(fā)了一個名為Dr.BoT的強(qiáng)化基準(zhǔn)系統(tǒng)。這個系統(tǒng)的名稱暗示了其"醫(yī)生"般的診斷和治療能力,專門針對現(xiàn)有AI訓(xùn)練方法的各種"病癥"提供解決方案。

Dr.BoT集成了多項(xiàng)經(jīng)過工業(yè)驗(yàn)證的優(yōu)化技術(shù)。首先是移除KL散度約束,這個技術(shù)聽起來很專業(yè),但其實(shí)質(zhì)是給AI更大的學(xué)習(xí)自由度。傳統(tǒng)方法往往會限制AI的行為變化幅度,擔(dān)心過大的變化會導(dǎo)致性能下降。Dr.BoT的做法就像放寬了對學(xué)生答題方式的限制,允許他們采用更多樣化的解題思路。

第二個優(yōu)化是"高位剪切"技術(shù)。在傳統(tǒng)的訓(xùn)練過程中,系統(tǒng)會限制AI行為變化的上下邊界。Dr.BoT提高了上邊界的限制,這相當(dāng)于給AI更多向好的方向改進(jìn)的空間,同時保持對負(fù)面變化的嚴(yán)格控制。這種不對稱的處理方式反映了"獎勵進(jìn)步,限制退步"的教育理念。

Dr.BoT還移除了組內(nèi)標(biāo)準(zhǔn)化步驟。這個技術(shù)性改進(jìn)的實(shí)際意義是讓系統(tǒng)能夠更好地處理難度不同的任務(wù)。傳統(tǒng)方法可能會因?yàn)槟承┤蝿?wù)特別簡單或特別困難而產(chǎn)生偏見,Dr.BoT通過移除這種標(biāo)準(zhǔn)化,讓系統(tǒng)能夠更公平地對待各種難度的任務(wù)。

除此之外,Dr.BoT還包含了長度過濾、空白輪次過濾等多項(xiàng)實(shí)用功能。這些功能就像給AI配備了質(zhì)量檢查機(jī)制,自動過濾掉那些明顯有問題的訓(xùn)練樣本,比如過長的無意義輸出或者完全沒有進(jìn)行工具調(diào)用的無效嘗試。

七、實(shí)驗(yàn)驗(yàn)證:三大任務(wù)場景的全面測試

為了驗(yàn)證SPEAR方法的有效性,研究團(tuán)隊在三個具有代表性的任務(wù)場景中進(jìn)行了全面測試。這三個場景分別代表了AI智能體應(yīng)用的不同方向:虛擬環(huán)境交互、現(xiàn)實(shí)世界任務(wù)模擬和復(fù)雜問題解決。

第一個測試場景是ALFWorld,這是一個文本化的虛擬家庭環(huán)境。在這個環(huán)境中,AI需要通過自然語言指令來完成各種家務(wù)任務(wù),比如"把熱過的土豆放到垃圾桶里"或"用臺燈照亮茶杯"。這些任務(wù)看似簡單,但實(shí)際上需要AI理解復(fù)雜的物理關(guān)系和因果邏輯。比如要加熱土豆,AI需要先找到土豆,然后找到微波爐,打開微波爐,放入土豆,設(shè)定時間,等待完成,最后取出土豆。整個過程涉及多個步驟,任何一步出錯都會導(dǎo)致任務(wù)失敗。

測試結(jié)果顯示,使用SPEAR方法訓(xùn)練的AI在ALFWorld環(huán)境中的成功率有了顯著提升。以1.5B參數(shù)的Qwen2.5模型為例,傳統(tǒng)GRPO方法的總體成功率為72.8%,而使用SPEAR后提升到88.9%,增幅達(dá)到16.1%。更令人印象深刻的是,在某些特定任務(wù)上,比如"清潔并放置"類型的任務(wù),成功率從84.5%提升到96.4%,幾乎達(dá)到了完美水平。

第二個測試場景是WebShop,這是一個模擬在線購物的環(huán)境。AI需要根據(jù)用戶需求在虛擬的電商網(wǎng)站上搜索、比較和購買商品。這個任務(wù)考驗(yàn)的是AI的信息處理能力和決策邏輯。比如用戶要求"買一個藍(lán)色的、小號的、價格在50美元以下的T恤",AI需要使用搜索功能找到相關(guān)商品,然后在眾多選項(xiàng)中篩選出符合所有條件的產(chǎn)品。

在WebShop環(huán)境中,SPEAR的表現(xiàn)同樣出色。以7B參數(shù)模型為例,傳統(tǒng)方法的購物成功率為66.1%,使用SPEAR后提升到84.6%,改進(jìn)幅度達(dá)到18.5%。這意味著AI在理解復(fù)雜購物需求和執(zhí)行多步驟操作方面都有了質(zhì)的提升。

第三個測試場景是DAPO-Math-17K,這是一個競賽級數(shù)學(xué)問題解決任務(wù)。AI需要使用代碼解釋器來解決復(fù)雜的數(shù)學(xué)問題,這些問題通常來自奧林匹克競賽,需要高級的數(shù)學(xué)推理能力和編程技巧。比如解決一個關(guān)于數(shù)論的問題,AI可能需要編寫程序來計算大數(shù)的性質(zhì),驗(yàn)證數(shù)學(xué)猜想,或者進(jìn)行復(fù)雜的幾何計算。

在這個最具挑戰(zhàn)性的任務(wù)中,SPEAR同樣展現(xiàn)了其優(yōu)勢。在AIME 2024(美國數(shù)學(xué)邀請考試)的問題上,使用SPEAR的AI正確率從64.7%提升到66.3%,在AIME 2025上從54.0%提升到60.1%。雖然提升幅度看似較小,但考慮到這些都是人類數(shù)學(xué)天才才能解決的超難題,這樣的改進(jìn)已經(jīng)具有重要意義。

八、技術(shù)深入:架構(gòu)設(shè)計與實(shí)現(xiàn)細(xì)節(jié)

SPEAR方法的成功不僅在于其整體設(shè)計理念,更在于許多精巧的技術(shù)實(shí)現(xiàn)細(xì)節(jié)。整個系統(tǒng)的架構(gòu)就像一座精密的時鐘,每個組件都有其特定的作用,而且彼此之間協(xié)調(diào)配合。

經(jīng)驗(yàn)重放緩沖區(qū)的設(shè)計采用了智能的存儲策略。系統(tǒng)不是簡單地按時間順序存儲經(jīng)驗(yàn),而是維護(hù)一個動態(tài)的優(yōu)先級隊列。新的成功經(jīng)驗(yàn)會根據(jù)其質(zhì)量被分配不同的優(yōu)先級,高質(zhì)量的經(jīng)驗(yàn)會被保留更長時間。同時,系統(tǒng)還會定期清理那些已經(jīng)過時或質(zhì)量下降的經(jīng)驗(yàn),確保緩沖區(qū)始終保持最優(yōu)狀態(tài)。

在優(yōu)勢重新校準(zhǔn)方面,SPEAR使用了一個滑動窗口機(jī)制來估計當(dāng)前策略的基準(zhǔn)性能。這個窗口的大小是動態(tài)調(diào)整的:當(dāng)AI性能穩(wěn)定時,窗口較大,提供更平滑的基準(zhǔn)估計;當(dāng)性能快速變化時,窗口較小,能夠快速適應(yīng)新的性能水平。這種自適應(yīng)機(jī)制確保了重新校準(zhǔn)的準(zhǔn)確性和及時性。

熵正則化模塊使用了一種創(chuàng)新的"協(xié)方差感知"剪切策略。系統(tǒng)會實(shí)時監(jiān)控每個決策與獎勵之間的統(tǒng)計關(guān)系,當(dāng)發(fā)現(xiàn)某些決策過度主導(dǎo)獎勵時,就會在梯度更新中降低這些決策的權(quán)重。這個過程是動態(tài)的,不會永久性地抑制任何特定的行為模式,而是在保持探索性的同時避免過度擬合。

內(nèi)在獎勵的計算也經(jīng)過了精心設(shè)計。工具調(diào)用獎勵使用了遞減函數(shù),前幾次工具使用獲得較高獎勵,后續(xù)使用的獎勵逐漸降低,這樣既鼓勵了工具使用,又避免了無意義的重復(fù)操作。格式獎勵則使用了二元開關(guān),只要輸出格式正確就給予固定的小額獎勵,簡單但有效。

九、性能分析:計算開銷與實(shí)際收益

任何新的訓(xùn)練方法都需要在性能改進(jìn)和計算成本之間找到平衡。SPEAR在這方面表現(xiàn)出了良好的工程實(shí)用性,其額外的計算開銷相對有限,而性能收益卻相當(dāng)可觀。

從理論復(fù)雜度分析來看,SPEAR主要增加了兩部分計算開銷。第一部分是經(jīng)驗(yàn)重放的前向和反向傳播計算,這部分的開銷與重放樣本的數(shù)量成正比。第二部分是優(yōu)勢重新校準(zhǔn)和各種正則化操作,這些操作的計算量相對較小??傮w而言,SPEAR的額外計算開銷約為原始訓(xùn)練成本的10%-25%。

在實(shí)際運(yùn)行時間測試中,研究團(tuán)隊發(fā)現(xiàn)SPEAR的時間開銷甚至更小。這是因?yàn)榻?jīng)驗(yàn)重放使用的是已經(jīng)生成的軌跡數(shù)據(jù),避免了重復(fù)的環(huán)境交互成本,而環(huán)境交互往往是整個訓(xùn)練過程中最耗時的部分。在ALFWorld和WebShop任務(wù)中,使用SPEAR的訓(xùn)練時間與基準(zhǔn)方法幾乎相同;在更復(fù)雜的數(shù)學(xué)問題解決任務(wù)中,時間開銷增加了約5%-26%,但這個增加主要是由于AI生成了更長、更復(fù)雜的推理過程。

內(nèi)存使用方面,SPEAR需要維護(hù)經(jīng)驗(yàn)重放緩沖區(qū)和基準(zhǔn)性能緩沖區(qū),但這些緩沖區(qū)的大小都是可配置的。在實(shí)驗(yàn)中,研究團(tuán)隊使用了2048個軌跡的重放緩沖區(qū)和10240個基準(zhǔn)值的性能緩沖區(qū),這些存儲需求相對于現(xiàn)代GPU的內(nèi)存容量來說是完全可以接受的。

更重要的是,SPEAR帶來的性能改進(jìn)完全證明了這些額外成本的合理性。在某些任務(wù)上,20%的性能提升意味著AI能夠解決更多實(shí)際問題,這種能力的價值遠(yuǎn)遠(yuǎn)超過了modest的計算成本增加。

十、擴(kuò)展應(yīng)用:視覺智能體的初步驗(yàn)證

為了驗(yàn)證SPEAR方法的通用性,研究團(tuán)隊還在視覺智能體任務(wù)上進(jìn)行了初步測試。他們選擇了Sokoban(推箱子)游戲作為測試場景,這是一個經(jīng)典的空間推理問題,需要AI通過視覺信息理解環(huán)境并制定移動策略。

在Sokoban任務(wù)中,AI需要控制一個角色在網(wǎng)格世界中移動,將箱子推到指定位置。這個任務(wù)不僅需要空間推理能力,還需要長期規(guī)劃能力,因?yàn)殄e誤的移動可能導(dǎo)致箱子被困在死角,使得任務(wù)無法完成。使用Qwen2.5-VL-3B-Instruct模型進(jìn)行測試,結(jié)果顯示SPEAR在所有測試的基準(zhǔn)方法上都取得了改進(jìn)。

具體來說,在基礎(chǔ)GRPO方法上,成功率從67.1%提升到86.7%,改進(jìn)幅度達(dá)到19.6%。在更復(fù)雜的GiGPO變體上,也有6.7%的穩(wěn)定提升。這些結(jié)果表明,SPEAR的核心原理不僅適用于基于文本的智能體任務(wù),同樣適用于需要視覺理解的復(fù)雜任務(wù)。

視覺智能體任務(wù)的成功驗(yàn)證具有重要意義,因?yàn)樗砻鱏PEAR方法具有良好的模態(tài)泛化能力。無論是處理文本、代碼還是視覺信息,SPEAR的自我模仿學(xué)習(xí)機(jī)制都能夠有效地幫助AI從成功經(jīng)驗(yàn)中學(xué)習(xí)。這為SPEAR在更廣泛的AI應(yīng)用場景中的部署奠定了基礎(chǔ)。

十一、深入分析:AI能力的質(zhì)的變化

通過詳細(xì)的案例分析,研究團(tuán)隊發(fā)現(xiàn)SPEAR不僅提升了AI的任務(wù)完成率,更重要的是改變了AI解決問題的方式和質(zhì)量。這種變化是質(zhì)的飛躍,而不僅僅是量的改進(jìn)。

在數(shù)學(xué)問題解決方面,使用SPEAR訓(xùn)練的AI展現(xiàn)出了更加成熟的編程能力。訓(xùn)練前,AI編寫的代碼主要用于簡單的計算和驗(yàn)證;訓(xùn)練后,AI學(xué)會了編寫復(fù)雜的矩陣運(yùn)算程序,能夠進(jìn)行高效的數(shù)值計算和解決方案驗(yàn)證。這種進(jìn)步類似于從使用計算器的算術(shù)水平躍升到使用專業(yè)軟件進(jìn)行科學(xué)計算的水平。

在網(wǎng)購任務(wù)方面,AI的策略也發(fā)生了根本性改變。訓(xùn)練前,AI往往陷入"完美主義陷阱",試圖通過不斷重復(fù)搜索來找到完全符合所有條件的商品,結(jié)果經(jīng)常因?yàn)樗阉鞔螖?shù)限制而失敗。訓(xùn)練后,AI學(xué)會了更加實(shí)用的購物策略:先進(jìn)行粗略搜索找到大致符合要求的商品類別,然后進(jìn)入具體商品頁面查看詳細(xì)信息,最后根據(jù)實(shí)際可選項(xiàng)做出權(quán)衡決策。這種策略更接近人類的實(shí)際購物行為。

在虛擬環(huán)境操作方面,AI的空間理解能力也有了顯著提升。訓(xùn)練前,AI經(jīng)常在環(huán)境中"迷路",重復(fù)執(zhí)行無效操作;訓(xùn)練后,AI能夠建立更好的空間記憶,規(guī)劃更高效的行動路徑。比如在執(zhí)行"把熱過的土豆放到垃圾桶"這個任務(wù)時,訓(xùn)練后的AI會先規(guī)劃整個任務(wù)序列,確定土豆、微波爐和垃圾桶的位置關(guān)系,然后按照最優(yōu)路徑執(zhí)行,避免了無效的往返移動。

十二、技術(shù)局限與未來展望

盡管SPEAR方法取得了顯著成功,但研究團(tuán)隊也誠實(shí)地指出了當(dāng)前方法的一些局限性,并提出了未來的改進(jìn)方向。

首先是"好經(jīng)驗(yàn)"定義的模糊性問題。在高度復(fù)雜和隨機(jī)的環(huán)境中,成功和失敗的界限可能不那么清晰。比如在包含不可靠工具或噪聲環(huán)境的任務(wù)中,AI可能因?yàn)檫\(yùn)氣好而成功,這樣的經(jīng)驗(yàn)可能并不值得模仿。目前SPEAR主要依賴稀疏的結(jié)果獎勵來判斷經(jīng)驗(yàn)質(zhì)量,這種方法在某些情況下可能不夠精確。

研究團(tuán)隊建議的解決方案是引入更細(xì)粒度的過程監(jiān)督。比如使用另一個AI模型來評估每個工具調(diào)用的合理性,或者設(shè)計逐步獎勵機(jī)制來評估每個決策的邏輯一致性。雖然這會增加系統(tǒng)復(fù)雜性,但能夠提供更準(zhǔn)確的經(jīng)驗(yàn)質(zhì)量評估。

第二個局限是熵控制機(jī)制的剛性。當(dāng)前的協(xié)方差剪切和熱身調(diào)度都是基于預(yù)設(shè)規(guī)則的,可能不適應(yīng)所有類型的任務(wù)。不同任務(wù)可能需要不同的探索-利用平衡策略,而目前的方法還不能自動適應(yīng)這種差異。

對此,研究團(tuán)隊提出了自適應(yīng)熵控制的設(shè)想。系統(tǒng)可以根據(jù)任務(wù)的復(fù)雜性、AI的當(dāng)前性能和學(xué)習(xí)進(jìn)度來動態(tài)調(diào)整熵控制參數(shù)。這類似于為每個學(xué)生定制個性化的學(xué)習(xí)計劃,而不是使用統(tǒng)一的教學(xué)方法。

第三個挑戰(zhàn)是計算效率的進(jìn)一步優(yōu)化。雖然SPEAR的額外開銷相對可控,但隨著模型規(guī)模和任務(wù)復(fù)雜性的增加,這些開銷可能變得更加顯著。特別是在部署到資源受限的環(huán)境中時,這個問題會更加突出。

研究團(tuán)隊正在探索幾種優(yōu)化策略,包括經(jīng)驗(yàn)重放的異步處理、優(yōu)勢重新校準(zhǔn)的近似算法,以及基于重要性采樣的高效經(jīng)驗(yàn)選擇方法。這些技術(shù)有望在保持SPEAR效果的同時顯著降低計算成本。

說到底,SPEAR方法代表了AI智能體訓(xùn)練領(lǐng)域的一個重要進(jìn)步。它巧妙地解決了長期困擾研究者的探索-利用平衡問題,為AI智能體的實(shí)用化部署提供了新的技術(shù)路徑。雖然還存在一些局限性,但其核心理念和技術(shù)框架為未來的研究奠定了堅實(shí)基礎(chǔ)。

隨著AI技術(shù)的不斷發(fā)展,我們有理由相信,類似SPEAR這樣的創(chuàng)新方法將幫助AI智能體在更多實(shí)際應(yīng)用場景中發(fā)揮作用。從個人助手到專業(yè)工具,從教育輔導(dǎo)到科學(xué)研究,訓(xùn)練更加智能、可靠和高效的AI系統(tǒng)正在成為現(xiàn)實(shí)。對于關(guān)注AI發(fā)展前沿的讀者,這項(xiàng)研究無疑提供了一個觀察未來技術(shù)趨勢的重要窗口。

Q&A

Q1:SPEAR方法是什么?它解決了AI訓(xùn)練的什么問題?

A:SPEAR是騰訊研究團(tuán)隊開發(fā)的AI智能體訓(xùn)練新方法,全稱是"漸進(jìn)式探索的自我模仿學(xué)習(xí)"。它主要解決了AI在執(zhí)行復(fù)雜長期任務(wù)時面臨的探索與利用平衡問題,通過建立"成功經(jīng)驗(yàn)庫"讓AI從自己的歷史成功案例中學(xué)習(xí),避免了傳統(tǒng)方法中AI要么過于保守要么過于激進(jìn)的問題。

Q2:SPEAR方法在實(shí)際測試中效果如何?

A:SPEAR在三個主要測試場景中都取得了顯著改進(jìn)。在ALFWorld虛擬環(huán)境任務(wù)中,成功率提升了16.1%;在WebShop網(wǎng)購模擬中,提升了20.7%;在競賽級數(shù)學(xué)問題解決中,也有3.8%-6.1%的穩(wěn)定提升。更重要的是,這些改進(jìn)只增加了10%-25%的計算開銷,實(shí)際運(yùn)行時間增加很少。

Q3:普通人什么時候能用上SPEAR技術(shù)訓(xùn)練的AI?

A:SPEAR作為一種訓(xùn)練方法,主要服務(wù)于AI開發(fā)者和研究機(jī)構(gòu)。普通用戶將通過使用經(jīng)SPEAR方法訓(xùn)練的AI產(chǎn)品來間接受益,比如更智能的虛擬助手、更可靠的代碼生成工具或更高效的問題解決系統(tǒng)。由于該方法已經(jīng)開源,預(yù)計在未來1-2年內(nèi)會有商業(yè)化的AI產(chǎn)品采用這種技術(shù)。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-