2025年5月30日,來(lái)自清華大學(xué)和螞蟻研究院的研究團(tuán)隊(duì)在arXiv上發(fā)布了一篇標(biāo)題為《AREAL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning》的研究論文。這項(xiàng)由Wei Fu、Jiaxuan Gao、Yi Wu等人共同完成的研究,提出了一種全新的異步強(qiáng)化學(xué)習(xí)系統(tǒng),專為提升大語(yǔ)言模型的推理能力而設(shè)計(jì)。論文代碼已在GitHub上開(kāi)源,有興趣的讀者可通過(guò)https://github.com/inclusionAI/AReaL/查看完整代碼庫(kù)。
一、為什么我們需要異步強(qiáng)化學(xué)習(xí)系統(tǒng)?
想象你正在教一個(gè)聰明但經(jīng)驗(yàn)不足的學(xué)生解決復(fù)雜問(wèn)題。傳統(tǒng)的教學(xué)方式是:你給學(xué)生一道題,等他完全解答出來(lái)后,再根據(jù)他的答案給予反饋,然后修正他的思維方法,再給下一道題。這種教學(xué)方式雖然直觀,但效率低下——尤其是當(dāng)不同學(xué)生解題速度差異巨大時(shí),總是要等最慢的學(xué)生完成,其他人則在空等。
在大語(yǔ)言模型(LLM)的世界里,強(qiáng)化學(xué)習(xí)(RL)就像這樣的教學(xué)過(guò)程,而當(dāng)前主流的RL系統(tǒng)大多采用這種"同步"方式工作。這導(dǎo)致了嚴(yán)重的計(jì)算資源浪費(fèi)問(wèn)題,特別是在訓(xùn)練大型推理模型(Large Reasoning Models,LRMs)時(shí),不同輸入可能產(chǎn)生長(zhǎng)度從幾十到數(shù)萬(wàn)不等的思考過(guò)程,使得GPU利用率低下。
研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的強(qiáng)化學(xué)習(xí)系統(tǒng)面臨兩個(gè)核心問(wèn)題:首先,推理設(shè)備利用率低,因?yàn)橄到y(tǒng)必須等待最長(zhǎng)輸出完成才能開(kāi)始訓(xùn)練;其次,同步系統(tǒng)的可擴(kuò)展性差,因?yàn)閷⑸扇蝿?wù)分散到更多設(shè)備上會(huì)降低每個(gè)GPU的批處理大小,使得解碼過(guò)程變成內(nèi)存IO受限的狀態(tài),難以通過(guò)增加設(shè)備來(lái)提高吞吐量。
二、AREAL:一個(gè)全異步的強(qiáng)化學(xué)習(xí)系統(tǒng)
AREAL系統(tǒng)就像是完全重新設(shè)計(jì)的教學(xué)流程——不再要求所有學(xué)生同步提交答案,而是讓每個(gè)學(xué)生獨(dú)立作答,老師隨時(shí)收集已完成的答卷進(jìn)行批改,同時(shí)不斷更新教學(xué)方法。這種異步模式讓資源利用率大大提高。
具體來(lái)說(shuō),AREAL由四個(gè)核心組件組成:
首先是"可中斷的推理工作器"(Interruptible Rollout Worker)。這些工作器負(fù)責(zé)接收兩類請(qǐng)求:一是生成響應(yīng),二是更新權(quán)重。當(dāng)新的模型參數(shù)可用時(shí),這些工作器會(huì)中斷當(dāng)前正在進(jìn)行的生成任務(wù),加載新參數(shù),然后繼續(xù)未完成的序列生成。這就像學(xué)生正在解題過(guò)程中,老師提供了新的解題思路,學(xué)生立即采納并繼續(xù)解題。
其次是"獎(jiǎng)勵(lì)服務(wù)"(Reward Service),負(fù)責(zé)評(píng)估模型生成的回答質(zhì)量。比如在編程任務(wù)中,這個(gè)服務(wù)會(huì)提取代碼并運(yùn)行單元測(cè)試來(lái)驗(yàn)證其準(zhǔn)確性。
第三是"訓(xùn)練工作器"(Trainer Workers),它們從經(jīng)驗(yàn)回放緩沖區(qū)持續(xù)采樣數(shù)據(jù),直到達(dá)到配置的訓(xùn)練批量大小,然后執(zhí)行PPO(Proximal Policy Optimization)更新并將結(jié)果參數(shù)存儲(chǔ)在分布式存儲(chǔ)中。為確保數(shù)據(jù)新鮮度,回放緩沖區(qū)的數(shù)據(jù)只使用一次。
最后是"推理控制器"(Rollout Controller),作為推理工作器、獎(jiǎng)勵(lì)服務(wù)和模型工作器之間的關(guān)鍵橋梁。它從數(shù)據(jù)集讀取數(shù)據(jù)并調(diào)用推理工作器的生成請(qǐng)求,然后將收到的響應(yīng)發(fā)送給獎(jiǎng)勵(lì)服務(wù)以獲取獎(jiǎng)勵(lì)。軌跡和獎(jiǎng)勵(lì)存儲(chǔ)在回放緩沖區(qū)中,等待模型工作器進(jìn)行訓(xùn)練。當(dāng)模型工作器更新參數(shù)后,控制器會(huì)調(diào)用推理工作器的權(quán)重更新功能。
這種完全異步的設(shè)計(jì)確保了生成和訓(xùn)練資源的持續(xù)滿負(fù)荷運(yùn)行,大大提高了系統(tǒng)效率。想象一下,這就像是一個(gè)工廠的生產(chǎn)線,不同工位獨(dú)立運(yùn)作,材料流動(dòng)從不停止。
三、異步學(xué)習(xí)的算法挑戰(zhàn)與解決方案
然而,異步系統(tǒng)設(shè)計(jì)雖然提高了效率,但也帶來(lái)了幾個(gè)技術(shù)挑戰(zhàn)。
首先是"數(shù)據(jù)過(guò)時(shí)"問(wèn)題。由于系統(tǒng)的異步特性,每個(gè)訓(xùn)練批次包含的數(shù)據(jù)可能來(lái)自多個(gè)不同版本的策略。想象一下,如果學(xué)生用舊方法解的題被用來(lái)改進(jìn)最新的教學(xué)方法,效果可能并不理想。之前在強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)的研究表明,這種過(guò)時(shí)性會(huì)降低學(xué)習(xí)性能。
其次是"策略版本不一致"問(wèn)題。由于生成過(guò)程可能被中斷并使用新參數(shù)繼續(xù),同一軌跡可能包含由不同策略版本生成的片段,這違反了標(biāo)準(zhǔn)PPO假設(shè)——所有動(dòng)作都由單一策略生成。
為了解決這些問(wèn)題,研究團(tuán)隊(duì)提出了兩個(gè)關(guān)鍵的算法創(chuàng)新:
第一是"過(guò)時(shí)性感知訓(xùn)練"(Staleness-Aware Training)。他們引入了一個(gè)名為η的超參數(shù),代表最大允許過(guò)時(shí)度。給定最新參數(shù)版本i,總生成軌跡數(shù)Nr和訓(xùn)練批量大小B,系統(tǒng)強(qiáng)制執(zhí)行:?Nr/B? ≤ i + η。當(dāng)η=0時(shí),系統(tǒng)退化為同步RL設(shè)置;當(dāng)η=1時(shí),系統(tǒng)恢復(fù)為之前的一步重疊方法。在訓(xùn)練過(guò)程中,系統(tǒng)優(yōu)先處理較舊的軌跡,確保過(guò)時(shí)度保持在η以下。
第二是"解耦PPO目標(biāo)函數(shù)"(Decoupled PPO Objective)。研究團(tuán)隊(duì)?wèi)?yīng)用了一個(gè)解耦的PPO目標(biāo)函數(shù),將行為策略和近端策略分離。行為策略πbehav代表用于采樣軌跡的策略,代理策略πprox作為近期目標(biāo),用于規(guī)范πθ的更新。通過(guò)對(duì)采樣軌跡應(yīng)用重要性采樣,他們推導(dǎo)出適用于異步RL訓(xùn)練的解耦PPO目標(biāo)函數(shù)。
這個(gè)解耦的PPO目標(biāo)函數(shù)提供了一個(gè)自然的好處:它放寬了所有數(shù)據(jù)在一個(gè)訓(xùn)練批次中應(yīng)該由單一策略生成的要求。這對(duì)于結(jié)合可中斷生成與策略更新至關(guān)重要。研究團(tuán)隊(duì)證明,一個(gè)軌跡中不一致的策略版本等同于單一行為策略πbehav。
實(shí)際實(shí)現(xiàn)中,他們簡(jiǎn)單地使用每次模型更新前的參數(shù)作為πprox,并在每個(gè)訓(xùn)練步驟中全局批次到達(dá)時(shí)重新計(jì)算令牌概率。
四、AREAL的系統(tǒng)實(shí)現(xiàn)與優(yōu)化
AREAL系統(tǒng)是使用Python和PyTorch實(shí)現(xiàn)的,建立在ReaLHF框架基礎(chǔ)上。該系統(tǒng)結(jié)合了SGLang v0.4.6作為生成服務(wù)后端,以及Megatron-Core v0.11.0作為訓(xùn)練后端,由SLURM管理資源調(diào)度。
為了最大化生成和訓(xùn)練階段的吞吐量,研究團(tuán)隊(duì)實(shí)施了幾項(xiàng)關(guān)鍵的系統(tǒng)級(jí)優(yōu)化:
首先,AREAL將GPU計(jì)算與CPU操作解耦,包括基于規(guī)則的獎(jiǎng)勵(lì)計(jì)算(如數(shù)學(xué)問(wèn)題的字符串匹配或代碼的單元測(cè)試執(zhí)行)和基于TCP的數(shù)據(jù)傳輸。通過(guò)在單獨(dú)的線程中執(zhí)行這些操作并流水線化工作流程,系統(tǒng)可以將獎(jiǎng)勵(lì)計(jì)算和數(shù)據(jù)傳輸與后續(xù)生成請(qǐng)求重疊。他們使用asyncio協(xié)程在推理工作器中并發(fā)運(yùn)行多個(gè)請(qǐng)求,避免相互阻塞等待。
其次,為了處理可變長(zhǎng)度序列的訓(xùn)練,他們采用了無(wú)填充的序列打包策略,結(jié)合動(dòng)態(tài)分配算法。該算法在固定內(nèi)存約束下平衡微批次間的令牌分布,最大化GPU內(nèi)存利用率,同時(shí)最小化所需的前向-后向傳遞次數(shù)。
這些優(yōu)化共同導(dǎo)致了系統(tǒng)性能的顯著提升,使AREAL能夠充分利用可用的計(jì)算資源。
五、實(shí)驗(yàn)結(jié)果:AREAL的性能優(yōu)勢(shì)
研究團(tuán)隊(duì)在具有挑戰(zhàn)性的數(shù)學(xué)和編程任務(wù)上評(píng)估了AREAL系統(tǒng),使用了從1.5B到32B參數(shù)不等的模型。他們采用了從DeepSeek-R1蒸餾的Qwen2模型系列作為基礎(chǔ)模型。
在最終的對(duì)比實(shí)驗(yàn)中,AREAL與最先進(jìn)的同步RL系統(tǒng)進(jìn)行了比較:用于數(shù)學(xué)推理的DeepScaleR(1.5B模型)和用于代碼生成的DeepCoder(14B模型),兩者都使用verl訓(xùn)練。對(duì)于較大的7B和32B模型,由于缺乏可比較的基線,他們使用AREAL的同步變體進(jìn)行了對(duì)照實(shí)驗(yàn)。
實(shí)驗(yàn)結(jié)果令人印象深刻:AREAL在不影響(甚至提高)最終性能的情況下,實(shí)現(xiàn)了顯著的加速。在數(shù)學(xué)推理任務(wù)中,使用1.5B和7B模型時(shí),AREAL分別將訓(xùn)練時(shí)間從41.0小時(shí)和57.7小時(shí)減少到14.8小時(shí)和25.4小時(shí),同時(shí)保持了42.2%和63.1%的AIME24基準(zhǔn)準(zhǔn)確率。在代碼生成任務(wù)中,使用14B和32B模型時(shí),AREAL將訓(xùn)練時(shí)間從48.8小時(shí)和51.1小時(shí)減少到21.9小時(shí)和31.1小時(shí),同時(shí)在LiveCodeBench基準(zhǔn)上分別達(dá)到58.1%和61.0%的準(zhǔn)確率。
總體而言,AREAL實(shí)現(xiàn)了高達(dá)2.57倍的訓(xùn)練吞吐量提升,并在多達(dá)512個(gè)GPU上展示了線性擴(kuò)展效率。關(guān)鍵的是,這種加速甚至伴隨著這些任務(wù)上的解決方案準(zhǔn)確率提高,說(shuō)明AREAL在不犧牲(實(shí)際上是增強(qiáng))模型性能的同時(shí)提供了顯著的效率提升。
六、算法驗(yàn)證實(shí)驗(yàn)與系統(tǒng)消融研究
為了驗(yàn)證研究團(tuán)隊(duì)在第三部分提出的算法創(chuàng)新,他們進(jìn)行了一系列消融研究,通過(guò)在數(shù)學(xué)任務(wù)上訓(xùn)練1.5B LRM來(lái)驗(yàn)證他們的方法。
首先,他們改變了最大允許過(guò)時(shí)度η,并比較了有無(wú)解耦PPO目標(biāo)函數(shù)的配置。結(jié)果顯示,樸素PPO無(wú)法匹配同步RL的性能(即η=0時(shí)的性能)。即使輕微的過(guò)時(shí)度也會(huì)由于不當(dāng)?shù)牟眉糁行暮涂芍袛嗌蛇^(guò)程中的策略變化而顯著降低最終性能。此外,增加數(shù)據(jù)過(guò)時(shí)度會(huì)持續(xù)降低學(xué)習(xí)性能,這與之前在其他領(lǐng)域的研究觀察一致。
然而,通過(guò)比較學(xué)習(xí)曲線,他們發(fā)現(xiàn)解耦PPO目標(biāo)函數(shù)在處理過(guò)時(shí)數(shù)據(jù)時(shí)大大提高了訓(xùn)練穩(wěn)定性,這與游戲領(lǐng)域的發(fā)現(xiàn)一致。值得注意的是,即使使用解耦目標(biāo)函數(shù),無(wú)界過(guò)時(shí)度(η→∞)仍然導(dǎo)致比零過(guò)時(shí)度的效果差。當(dāng)適當(dāng)約束時(shí),適度的過(guò)時(shí)度(如η≤4)對(duì)最終性能影響很小,同時(shí)通過(guò)異步流水線顯著加速訓(xùn)練。
研究團(tuán)隊(duì)還對(duì)系統(tǒng)組件進(jìn)行了消融研究。沒(méi)有可中斷生成功能時(shí),控制器必須等待最長(zhǎng)的響應(yīng),導(dǎo)致1.5B和7B模型在4個(gè)節(jié)點(diǎn)上的吞吐量分別降低12%和17%。這驗(yàn)證了他們的架構(gòu)設(shè)計(jì)選擇。
在動(dòng)態(tài)微批次分配方面,與標(biāo)準(zhǔn)微批次策略相比,動(dòng)態(tài)批處理在各種模型大小上平均提高了30%的吞吐量。標(biāo)準(zhǔn)微批次策略可能導(dǎo)致多個(gè)長(zhǎng)序列被分配到同一個(gè)微批次,通常需要足夠多的微批次以防止內(nèi)存不足錯(cuò)誤。
這些消融研究結(jié)果證實(shí)了研究團(tuán)隊(duì)的設(shè)計(jì)選擇,并驗(yàn)證了他們提出的算法創(chuàng)新在提高異步RL訓(xùn)練穩(wěn)定性和效率方面的有效性。
七、AREAL的局限性與未來(lái)研究方向
盡管AREAL取得了令人印象深刻的成果,但這項(xiàng)研究仍存在一些局限性,這也為未來(lái)的研究提供了方向。
首先,推理與訓(xùn)練設(shè)備之間的比例可以進(jìn)一步優(yōu)化,特別是針對(duì)特定的訓(xùn)練設(shè)置。此外,這一比例可能受益于訓(xùn)練過(guò)程中的動(dòng)態(tài)調(diào)整,尤其是在微調(diào)預(yù)訓(xùn)練基礎(chǔ)模型時(shí),上下文長(zhǎng)度通常會(huì)增加。
研究團(tuán)隊(duì)的評(píng)估主要集中在單步數(shù)學(xué)和編碼任務(wù)上,但AREAL架構(gòu)本身并不僅限于這些領(lǐng)域。未來(lái)的工作可以探索多輪交互和代理場(chǎng)景,擴(kuò)展AREAL的應(yīng)用范圍。
此外,隨著模型參數(shù)量和上下文長(zhǎng)度的持續(xù)增長(zhǎng),研究人員可能需要開(kāi)發(fā)更高效的異步算法,進(jìn)一步優(yōu)化系統(tǒng)設(shè)計(jì),以應(yīng)對(duì)更大規(guī)模的強(qiáng)化學(xué)習(xí)訓(xùn)練挑戰(zhàn)。
八、總結(jié)與展望
AREAL代表了大語(yǔ)言模型強(qiáng)化學(xué)習(xí)訓(xùn)練的一個(gè)重要進(jìn)步。通過(guò)完全解耦生成和訓(xùn)練過(guò)程,結(jié)合創(chuàng)新的算法方法來(lái)處理數(shù)據(jù)過(guò)時(shí)性和策略不一致性,AREAL實(shí)現(xiàn)了顯著的效率提升,同時(shí)保持或甚至提高了模型性能。
這種方法就像是重新設(shè)計(jì)了教學(xué)流程——不再要求所有學(xué)生同步提交答案,而是允許每個(gè)學(xué)生以自己的節(jié)奏學(xué)習(xí),教師則不斷收集和評(píng)估完成的作業(yè),并持續(xù)更新教學(xué)方法。這種異步流程不僅提高了效率,還可能通過(guò)允許更多樣化的學(xué)習(xí)路徑來(lái)增強(qiáng)學(xué)習(xí)效果。
AREAL的成功表明,在大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練中,系統(tǒng)設(shè)計(jì)與算法創(chuàng)新的結(jié)合至關(guān)重要。通過(guò)解決強(qiáng)化學(xué)習(xí)訓(xùn)練中的關(guān)鍵瓶頸,AREAL為未來(lái)的研究提供了一個(gè)可靠的起點(diǎn),有望支持更先進(jìn)的AI系統(tǒng)發(fā)展,進(jìn)一步推動(dòng)機(jī)器智能的邊界。
對(duì)于研究人員和工程師來(lái)說(shuō),AREAL提供了一個(gè)寶貴的框架,可以在更短的時(shí)間內(nèi)訓(xùn)練更強(qiáng)大的推理模型。對(duì)于更廣泛的AI社區(qū)來(lái)說(shuō),這意味著我們可以更快、更有效地開(kāi)發(fā)出具有更強(qiáng)推理能力的大語(yǔ)言模型,最終為各種應(yīng)用提供更智能的解決方案。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。