在2025年5月31日發(fā)表于arXiv的一篇前沿研究論文中,來自復旦大學和字節(jié)跳動Seed團隊的研究者們提出了一種名為ARIA(Aggregates Rewards in Intention space)的創(chuàng)新方法,旨在解決語言智能體在開放式語言行動環(huán)境中面臨的訓練難題。這項由楊瑞涵、張亦凱(共同第一作者)、陳愛麗、王心濤、袁思雨、陳江杰、楊德清(通訊作者)和肖仰華領導的研究,為提升語言智能體的性能提供了全新思路。有興趣深入了解的讀者可以通過項目主頁(https://aria-agent.github.io)獲取更多信息。
一、像解謎一樣理解開放式語言行動的挑戰(zhàn)
想象一下,你在玩一個猜謎游戲,但游戲規(guī)則異常復雜:你可以用任何方式提問,而不是簡單的"是"或"否"。在這樣的情況下,你可能會面臨無數(shù)種提問方式,而每一種都可能帶來完全不同的結果。這就是大型語言模型(LLMs)在開放式語言行動環(huán)境中面臨的困境。
大型語言模型已經(jīng)展現(xiàn)出在文本理解和生成方面的強大能力,這使得開發(fā)通過自然語言操作的自主智能體(即語言智能體)成為可能。這些語言智能體被期望能夠通過語言驅動的行動與環(huán)境交互,完成各種任務,比如網(wǎng)頁導航、基于文本的游戲,以及談判等。這些任務通常需要長期規(guī)劃和推理才能實現(xiàn)高層次目標,對當前的語言智能體構成了重大挑戰(zhàn)。
根據(jù)行動空間的結構,語言智能體任務可以分為兩大類:限制性行動空間任務和開放式語言行動任務。前者要求智能體從預定義的、離散的和可驗證的行動集中執(zhí)行行動,其中語言僅作為結構化環(huán)境的模板或命令接口。相比之下,開放式語言行動任務的行動空間由不受嚴格有效性約束的自由形式自然語言構成。這些任務帶來了獨特的挑戰(zhàn):
1. 智能體必須生成多樣化、對上下文敏感的語言行動,這些行動會動態(tài)影響其他智能體或環(huán)境。 2. 語言行動的開放性導致了一個龐大、非結構化和高度策略性的行動空間,要求智能體進行推理、適應和優(yōu)化,超越固定模式。
基于這些挑戰(zhàn),研究團隊提出了一個關鍵問題:如何在開放式語言行動任務中提升語言智能體的性能?
二、強化學習的困境:在大海中尋找一粒沙
強化學習(RL)被廣泛用于在復雜任務中提升語言智能體的能力,通過互動和反饋使它們能夠學習。然而,在開放式語言行動環(huán)境中,RL面臨著由極度稀疏獎勵引起的嚴重挑戰(zhàn),這是由指數(shù)級大的行動空間導致的。
想象一下,你在一個裝滿數(shù)十億顆沙子的沙漠中尋找一顆特定的沙粒。在開放式語言行動任務中,情況甚至更加困難,因為行動是以標記序列的形式表示的。給定大小為V的詞匯表和平均序列長度L,行動空間會以V^L的規(guī)模擴展,導致組合和指數(shù)爆炸。
現(xiàn)有方法通過平均或衰減直接分配環(huán)境獎勵。然而,這些方法對于開放式任務不夠充分,因為基于采樣的方法如PPO和REINFORCE必須在稀疏和延遲獎勵的情況下搜索一個龐大、非結構化的空間。這導致獎勵估計的高方差和低效的策略優(yōu)化。
就像在沙漠中尋找一粒特定的沙子幾乎是不可能的任務,在如此龐大的行動空間中,通過傳統(tǒng)方法尋找有效的策略也是極其困難的。
三、ARIA:通過意圖空間的獎勵聚合點亮前行之路
為了解決這些挑戰(zhàn),研究團隊提出了一種稱為"語義投影"的操作,它將行動從高維標記空間投影到低維意圖空間,使得在語義上等價的行動之間可以聚合獎勵。
這就像是我們不再尋找一粒特定的沙子,而是將沙子按照顏色和大小分類,然后在這些更小的類別中搜索。LLM智能體的行動通常反映了潛在的意圖,這些意圖的數(shù)量遠少于標記組合。例如,"我會先讓步以鼓勵對手妥協(xié)"和"通過主動妥協(xié),我的目的是促使對方也這樣做"表達了相同的意圖:通過讓步促使對方妥協(xié)。通過將這類行動歸類到共享意圖下,我們將行動空間從V^L減少到意圖空間C,其中|C|遠小于|V^L|。這種轉換通過使稀疏獎勵變得密集來減少方差,并促進更有效的策略優(yōu)化。
建立在語義投影的基礎上,研究團隊提出了ARIA,一種通過意圖空間的獎勵聚合方法,用于訓練語言智能體。ARIA將自然語言行動映射到特定任務的意圖空間,實現(xiàn)對語義相似行動的獎勵聚合,從而穩(wěn)定和改進策略學習。為了自動構建意圖空間C,ARIA對句子嵌入應用層次聚類,并自適應調(diào)整聚類粒度。然后,它聚合共享相似意圖的行動的獎勵,并使用REINFORCE優(yōu)化壓縮空間上的策略。
研究團隊在四個語言行動任務上評估了ARIA,包括兩個單智能體游戲(Guess My City、20 Questions)和兩個對抗性游戲(Negotiation、Bargaining)。實驗結果表明:1)ARIA顯著降低了獎勵方差,使訓練更加穩(wěn)定,提高了策略梯度效率;2)它在所有任務中始終優(yōu)于離線和在線RL基線,在所有任務中平均提高了9.95%。
四、ARIA的工作原理:從混沌中創(chuàng)造秩序
ARIA的核心思想是將自然語言行動映射到一個更緊湊、更有意義的意圖空間,這樣語義相似的行動可以共享獎勵信號。這就像是將星星按照星座分組,而不是試圖單獨追蹤每一顆星星的位置。
首先,ARIA構建一個潛在的意圖空間。給定行動空間A和觀察空間O,每個元素x∈A∪O都會使用預訓練編碼器嵌入到語義向量中。研究團隊應用層次聚類算法將嵌入空間劃分為k個簇,形成意圖空間C^k。聚類數(shù)量k通過獎勵導向的粒度選擇方法確定。
在意圖空間C^k的基礎上,定義一個聚類函數(shù)c_k:A∪O→[k],將每個元素映射到一個簇索引。在每一步t,行動和觀察都被映射到簇標簽a_t=c_k(a_t)和o_t=c_k(o_t)。給定歷史h_t={a_1,o_1,...,a_{t-1},o_{t-1}},相應的標簽序列為h_t={c_k(a_1),c_k(o_1),...,c_k(a_{t-1}),c_k(o_{t-1})}。
ARIA通過聚合共享相同語義意圖的歷史-行動對的獎勵。軌跡獎勵R使用時間折扣分配給中間步驟:R(h_t,a_t)=γ^{T-t}R,其中γ是折扣因子。對于每個意圖對(h,a),通過平均所有映射到該意圖的歷史-行動對來計算聚合回報:
R^{(k)}(h,a) = (1/|S_{h,a}|) ∑_{(h_t,a_t)∈S_{h,a}} R(h_t,a_t)
其中S_{h,a}={(h_t,a_t):c_k(h_t)=h,c_k(a_t)=a}表示與意圖(h,a)相關的歷史-行動對集合。聚合回報R^{(k)}(h_t,a_t)用作策略優(yōu)化的優(yōu)勢估計A(h_t,a_t)。
這種獎勵聚合機制就像是一個智能分類系統(tǒng),它不再關注每個單獨的行動,而是關注行動背后的意圖,從而在龐大的行動空間中創(chuàng)造出一種有序結構。
五、精確的粒度選擇:找到恰到好處的平衡點
語義聚類幫助壓縮自然語言行動和觀察的自由形式、非結構化空間。然而,選擇合適的粒度k仍然具有挑戰(zhàn)性。例如,在談判情境中,標準聚類指標(輪廓得分、Calinski–Harabasz指數(shù)和Davies–Bouldin指數(shù))會因為行動之間的高相似性而傾向于過于粗糙的分組,忽略對任務至關重要的細粒度區(qū)別。
為了解決這個問題,研究團隊提出了一種獎勵導向的粒度選擇機制,它評估進一步分割簇是否會帶來有意義的獎勵變化。與基于幾何結構(即嵌入空間中的距離)的傳統(tǒng)指標不同,該方法通過直接評估對獎勵聚合的影響來與RL目標保持一致。
研究團隊使用SplitScore來選擇最優(yōu)粒度k*,定義為SplitScore(k)=δ_k/|D|,其中δ_k=∑_{(h_t,a_t)∈D}|R^{(k+1)}(h_t,a_t)-R^{(k)}(h_t,a_t)|表示當簇的數(shù)量從k變?yōu)閗+1時,所有(h_t,a_t)對的獎勵變化,D是所有(h_t,a_t)對的集合。
為了選擇最優(yōu)粒度k*,研究團隊定義了一個基于SplitScore的早停機制。給定閾值ε>0和窗口大小τ,當隨著k的增加,SplitScore(j)<ε對所有j∈[k,k+τ]成立時,停止分割。所選的k被視為k*。
這種獎勵導向的粒度選擇機制就像是一個精細的調(diào)諧旋鈕,它幫助ARIA找到最適合當前任務的聚類級別,既不會過于籠統(tǒng)而忽略重要差異,也不會過于細致而導致噪聲增加。
六、理論支持:方差降低與收斂改進
研究團隊通過理論分析證明,基于意圖聚類的獎勵聚合可以降低梯度下降的方差,同時保持小的偏差界限,從而提高訓練穩(wěn)定性和效率。
首先,他們證明了簇平均可以降低策略梯度算法的總方差和策略梯度的方差。具體來說,如果將A(h_t,a_t)表示為(h_t,a_t)的原始優(yōu)勢,將A表示為聚合優(yōu)勢,則有Var(A)≤Var(A)。
此外,對于單樣本策略梯度估計器?_θlog π_θ(a|h)A(h,a),使用聚合優(yōu)勢A時方差會降低。具體來說,Var(?_θlog π_θ·A)≤Var(?_θlog π_θ·A)。
基于這些引理,研究團隊證明了通過聚合減少方差改善了離線REINFORCE的收斂性能。給定N個獨立同分布的訓練集軌跡,令g=(1/N)∑^N_{i=1}∑_t?_θlog π_θ(a^i_t|h^i_t)A^i_t作為真實梯度g的估計器,定義σ^2=Var(?_θlog π_θ·A)。則有||g-g||_2=O(σ/√N)。
直觀地說,由于聚類減少了σ,如果我們希望|g-g|<ε,那么在給定誤差容忍度的情況下,收斂到ε范圍內(nèi)需要更少的樣本,或者等效地,可以使用更大的步長。
研究團隊還分析了獎勵聚合引入的偏差,引入了ε-雙模擬的概念。如果簇中的行動是ε-雙模擬的,則|Q^π(h,a)-Q^π(h,a')|≤2ε/(1-γ),這意味著簇均值之間的差異最多為O(ε)。由于?log π是有界的,內(nèi)積偏差為O(ε)。
總的來說,通過使用條件期望和方差分解,研究證明用簇平均優(yōu)勢A替換原始優(yōu)勢A移除了簇內(nèi)方差E[Var(A|C)],降低了策略梯度估計的總方差。只要期望保持近似不變,這種方差降低就會導致更穩(wěn)定的訓練和更快的收斂。它允許在不發(fā)散的情況下使用更大的優(yōu)化步驟,并增加每個樣本的效用,解釋了為什么簇平滑的優(yōu)勢產(chǎn)生更平滑的學習曲線。
七、實驗驗證:ARIA的出色表現(xiàn)
研究團隊在單智能體和對抗性環(huán)境中對ARIA進行了廣泛評估,以驗證其有效性。
對于單智能體環(huán)境,研究團隊評估了Twenty Questions和Guess My City兩個任務。在Twenty Questions中,智能體扮演猜測者角色,目標是通過提問最多二十個是非問題來識別從157個候選項中選出的隱藏詞。在Guess My City中,智能體嘗試在二十個問題內(nèi)從100個候選城市中識別隱藏的城市,可以提出任何類型的問題并獲得不限于是/否的自由形式回答。
對于對抗性環(huán)境,研究團隊考慮了Bargaining和Negotiation兩個競爭任務。在Bargaining中,Alice和Bob輪流提議如何在有限時間范圍內(nèi)分配固定金額。隨著游戲進行,每位玩家的收益都會按玩家特定的折扣因子折扣。在Negotiation中,賣家(Alice)和買家(Bob)就具有真實價值的產(chǎn)品價格進行談判,雙方各有主觀估值。
實驗結果令人印象深刻。在對抗性任務中,ARIA在Bargaining和Negotiation中都達到了最高的平均勝率,分別超過離線和在線基線9.67%和9.83%。同樣,在單智能體任務中,ARIA平均超過所有基線9.82%。
現(xiàn)有的離線和在線RL方法都依賴于行動采樣和獎勵分配,智能體與環(huán)境交互,收集行動樣本,并將獎勵分配給這些行動。這種方法在小型行動空間中效果不錯,重復采樣可以提供穩(wěn)定和準確的獎勵估計。然而,在開放式語言行動任務中,智能體通過自然語言行動,行動空間以V^L的規(guī)模增長。在如此龐大的空間中,每個樣本通常只接收二元獎勵信號,而樣本大小N遠小于行動空間,導致高度稀疏和嘈雜的獎勵信號,使準確的信用分配變得具有挑戰(zhàn)性。ARIA通過在意圖空間中引入獎勵聚合來解決這個問題,顯著降低了獎勵方差并提高了學習性能。
八、ARIA的迭代優(yōu)勢:持續(xù)提升的策略
確認ARIA顯著優(yōu)于基線后,研究團隊進一步研究了其在迭代更新下的性能。正如表1和表2所示,ARIA在兩次和三次迭代后分別額外提高了3.27%和1.85%。這表明獎勵聚合有效地降低了方差,同時保留了策略學習所需的基本判別信號,反映了有利的偏差-方差權衡。這進一步提高了樣本效率,減輕了過度平滑導致的過早收斂風險,證明獎勵聚合可以提供穩(wěn)定和累積的性能提升。
九、擴展到在線ARIA:動態(tài)樣本生成與獎勵建模
研究團隊還將ARIA擴展到在線設置,以探索其在動態(tài)環(huán)境中的表現(xiàn)。他們首先使用預收集的軌跡進行獎勵聚合,然后用聚合獎勵初始化點式獎勵模型(RM),該模型使用與策略模型一致的Llama-3.1-8B-Instruct實現(xiàn)。隨后,策略與環(huán)境交互動態(tài)生成新樣本,這些樣本由RM評分以更新策略。此外,RM定期使用最新收集的數(shù)據(jù)更新,允許它與策略一起演化。
如圖3所示,ARIA在不同迭代中實現(xiàn)了更快的獎勵改進和持續(xù)更高的回報,相比現(xiàn)有的在線方法(ArCHer和StarPO)。這種改進源于兩個關鍵優(yōu)勢:
1. 獎勵聚合提供了初始密集且低方差的獎勵信號,加速了早期階段的策略學習。 2. 動態(tài)RM更新確保了獎勵函數(shù)與不斷發(fā)展的策略之間的一致性,防止了靜態(tài)設置中常見的漂移和獎勵不對齊。
這些因素共同提高了樣本效率和獎勵塑造準確性,導致更快更穩(wěn)定的策略改進。
十、深入分析:ARIA如何工作的秘密
### 獎勵聚合顯著降低獎勵方差
研究團隊展示了聚合前后的獎勵方差變化。如圖4a所示,獎勵聚合顯著降低了行動獎勵的波動范圍。原始二元獎勵分布高度極化,值主要集中在0或1附近。在大型行動空間中,大多數(shù)行動只被采樣一次,相應的二元獎勵直接分配給每個行動,導致高獎勵方差。相比之下,獎勵聚合后,同一簇內(nèi)的行動共享共同獎勵,這顯著平滑了分布并降低了方差。圖4b進一步證明了所有四個任務中獎勵方差的降低,突顯了獎勵聚合在穩(wěn)定策略學習中的有效性和必要性。
### 獎勵聚合改進策略優(yōu)化
為了評估獎勵聚合是否改善了訓練效率,研究團隊首先比較了不同獎勵塑造策略下的策略損失曲線。結果表明,ARIA應用語義級獎勵聚合,加速了損失減少,相比原始REINFORCE基線。這表明通過聚合塑造獎勵提供了更強的學習信號,使策略更新更快,提高了離線訓練中的樣本效率。
研究團隊進一步觀察到,盡管收斂到類似的損失水平,方法在下游性能上表現(xiàn)出顯著差異。如圖5a所示,ARIA在Bargaining和Negotiation任務中分別超過其他變體17.91%和13.80%。研究團隊將這些收益歸因于獎勵衰減和獎勵聚合的互補效應:獎勵衰減引入了時間結構,有助于將信用分配給早期階段的行動,但在降低信號噪聲方面作用有限。相比之下,獎勵聚合通過為語義相似的行動分配共享信號,大幅降低了獎勵方差,從而提高了梯度估計的質量。這種方差降低使優(yōu)化更加穩(wěn)定和高效,在開放式語言行動環(huán)境中提升策略性能方面起著核心作用。
### ARIA對其他模型的泛化能力
為了進一步評估ARIA的可轉移性,研究團隊將其應用于Qwen模型(Qwen2.5-7B-Instruct和Qwen2.5-1.5B-Instruct),并在兩個對抗性游戲上進行比較實驗。如表3所示,更改基礎模型始終帶來改進。這表明獎勵聚合方法與模型無關,獨立于底層語言模型的特定架構特征或預訓練數(shù)據(jù)。研究團隊將這種泛化能力歸因于大規(guī)模語言模型學習的語義空間中的共享結構屬性。通過在意圖空間中進行聚合,ARIA利用這些共性來降低獎勵方差,同時保留任務特定的判別信號。
十一、結論:ARIA的意義與展望
在這項研究中,研究團隊解決了開放式語言行動任務中強化學習的核心挑戰(zhàn),即智能體必須在指數(shù)級大的行動空間中操作并從稀疏、延遲的獎勵中學習。為了解決策略優(yōu)化中的高方差問題,他們引入了語義投影,這是一種新穎的意圖感知框架,將自然語言行動從高維標記空間映射到低維意圖空間。這種投影使得在語義相似的行動之間聚合獎勵成為可能,有效地使稀疏獎勵變密集并降低梯度方差。
基于這一思想,研究團隊提出了ARIA,它通過層次聚類自動發(fā)現(xiàn)特定任務的意圖結構,并將聚合獎勵整合到REINFORCE中,以實現(xiàn)高效的策略學習。他們進一步提供了理論分析,表明用簇平均優(yōu)勢替代原始優(yōu)勢可以降低簇內(nèi)方差,從而降低策略梯度的總體方差并提高學習穩(wěn)定性。
在四個不同的任務上進行的廣泛實驗—包括單智能體和對抗性雙智能體游戲—表明,ARIA改善了訓練穩(wěn)定性,加速了收斂,并始終優(yōu)于強大的離線和在線RL基線。這些發(fā)現(xiàn)突顯了結構感知獎勵塑造在為開放環(huán)境中的語言智能體擴展強化學習方面的重要性。
總的來說,ARIA代表了一個重要的進步,它解決了語言智能體訓練中的一個基本挑戰(zhàn):如何在龐大、非結構化的自然語言行動空間中有效學習。通過引入語義投影和意圖驅動的獎勵聚合,ARIA為未來的語言智能體研究開辟了一條有希望的道路,使它們能夠在越來越復雜的交互環(huán)境中表現(xiàn)出更高的性能和適應性。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質量與分類性能的強相關性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應性。團隊承諾開源全部代碼,推動技術普及應用。
伊利諾伊大學研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復雜爭議、智能檢索相關文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學和政治爭議提供更全面客觀的分析,已在生物醫(yī)學和國際關系領域驗證有效性。
清華大學研究團隊首次提出情感認知融合網(wǎng)絡(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構,在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領域帶來革命性應用前景。
哈佛大學研究團隊通過創(chuàng)新的多智能體強化學習方法,讓AI在戰(zhàn)略游戲中學會復雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領域的應用奠定基礎,展現(xiàn)了通過模擬人類學習過程培養(yǎng)真正智能AI的新路徑。