由清華大學(xué)深圳國際研究生院的黃凡丁、黃冠博等研究團(tuán)隊(duì)與加州大學(xué)洛杉磯分校、深圳技術(shù)大學(xué)合作完成的這項(xiàng)研究,于2025年9月發(fā)表在預(yù)印本平臺(tái)arXiv上(論文編號(hào):arXiv:2509.23808v2)。有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。
很多人可能不知道,大型語言模型(就是我們常用的ChatGPT、Claude這類AI助手)在學(xué)習(xí)推理時(shí)面臨著一個(gè)看似無解的難題:就像一個(gè)學(xué)生在考試時(shí),是應(yīng)該大膽嘗試各種可能的解題思路(探索),還是專心使用已經(jīng)熟練掌握的方法(利用)?傳統(tǒng)觀點(diǎn)認(rèn)為,這兩種策略就像蹺蹺板的兩端,你只能選擇其中一種,無法兼得。
這個(gè)問題的根源在于,大多數(shù)研究都是從"詞匯"層面來衡量AI的表現(xiàn),就像只看學(xué)生寫出的每個(gè)字是否工整,而忽略了思維過程本身。清華深研院的研究團(tuán)隊(duì)卻換了個(gè)角度,他們不再盯著表面的詞匯輸出,而是深入到AI大腦的"思考過程"中,在那個(gè)更深層的語義空間里尋找答案。
結(jié)果令人驚喜:在這個(gè)深層的思維空間里,探索和利用竟然可以同時(shí)進(jìn)行,不再是非此即彼的選擇題。基于這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)開發(fā)了一種名為VERL(速度利用排序?qū)W習(xí))的新方法,它就像給AI配備了一個(gè)智能的"雙引擎"系統(tǒng),能夠同時(shí)增強(qiáng)探索能力和利用能力。實(shí)驗(yàn)結(jié)果顯示,在挑戰(zhàn)性的高考2024數(shù)據(jù)集上,這種方法帶來了高達(dá)21.4%的絕對準(zhǔn)確率提升。
一、傳統(tǒng)觀念的局限:為什么"魚和熊掌"真的可以兼得
長期以來,AI研究領(lǐng)域普遍認(rèn)為,在訓(xùn)練大型語言模型進(jìn)行推理時(shí)存在一個(gè)根本性的權(quán)衡:要么讓模型大膽探索各種可能的解題路徑,要么讓它專注于已經(jīng)掌握的可靠策略。這種觀點(diǎn)幾乎成了該領(lǐng)域的"常識(shí)"。
這種傳統(tǒng)觀念的形成有其歷史原因。研究者們習(xí)慣于從"詞匯級(jí)別"來分析模型的行為,就像通過觀察一個(gè)人說話時(shí)每個(gè)詞的選擇來判斷他的思維狀態(tài)。在這種分析框架下,高熵值(詞匯選擇的隨機(jī)性高)被視為探索性行為的標(biāo)志,而低熵值(詞匯選擇更確定)則被認(rèn)為代表利用性行為。
然而,這種基于詞匯層面的分析方法存在內(nèi)在的矛盾。過高的熵值會(huì)導(dǎo)致模型產(chǎn)生毫無意義的隨機(jī)輸出,就像一個(gè)人胡言亂語;而過低的熵值又會(huì)扼殺模型的創(chuàng)造性,使其變得僵化。更關(guān)鍵的是,由于一個(gè)模型的輸出分布不可能同時(shí)既隨機(jī)又確定,這種分析框架天然地將探索和利用視為對立的兩極。
清華深研院的研究團(tuán)隊(duì)意識(shí)到,這種"常識(shí)"可能只是分析視角造成的假象,而非推理過程的本質(zhì)特征。他們決定跳出詞匯層面的分析框架,轉(zhuǎn)而審視模型內(nèi)部更深層的語義表征空間。
在這個(gè)語義空間中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人震撼的現(xiàn)象:探索和利用的相關(guān)性幾乎為零。這意味著,在恰當(dāng)?shù)姆治鰧用嫔希@兩種能力并非天然對立,而是可以獨(dú)立發(fā)展、同時(shí)增強(qiáng)的。這一發(fā)現(xiàn)徹底顛覆了傳統(tǒng)觀念,為同時(shí)提升AI推理能力的兩個(gè)維度開辟了全新的可能性。
二、深入AI的"思維世界":隱藏狀態(tài)中的新發(fā)現(xiàn)
要理解這項(xiàng)研究的突破,我們需要先了解AI是如何"思考"的。當(dāng)大型語言模型處理一個(gè)問題時(shí),它不僅僅是在表面上生成詞匯,更重要的是在內(nèi)部進(jìn)行著復(fù)雜的語義處理。這些內(nèi)部的語義表征被稱為"隱藏狀態(tài)",就像人類思維中那些還沒有轉(zhuǎn)化為語言的想法和概念。
研究團(tuán)隊(duì)創(chuàng)新性地引入了"有效排序"這一數(shù)學(xué)工具來量化模型在語義空間中的探索行為。傳統(tǒng)的矩陣排序只能告訴我們有多少個(gè)獨(dú)立的維度,但有效排序能夠揭示這些維度的"質(zhì)量分布"。打個(gè)比方,如果把推理路徑比作探險(xiǎn)路線,傳統(tǒng)排序只能告訴我們有多少條路,而有效排序還能告訴我們這些路徑被利用得是否均衡。
基于有效排序,研究團(tuán)隊(duì)進(jìn)一步提出了兩個(gè)動(dòng)態(tài)指標(biāo):有效排序速度和有效排序加速度。有效排序速度衡量的是模型獲取信息的"速度",它反映了推理過程中信息增益的效率。當(dāng)這個(gè)值較大時(shí),說明模型正在高效地豐富其內(nèi)部表征,這正是利用能力的體現(xiàn)。
有效排序加速度則更加有趣,它衡量的是信息獲取速度的"變化趨勢"。正值表示推理過程正在加速,模型的思維活躍度在增加;負(fù)值則意味著推理過程趨于穩(wěn)定或飽和。研究團(tuán)隊(duì)發(fā)現(xiàn),這個(gè)指標(biāo)具有remarkable的穩(wěn)定性,其增長階數(shù)為O(1),這使得它成為了一個(gè)可靠的"元控制器"信號(hào)。
最關(guān)鍵的發(fā)現(xiàn)來自于對不同推理結(jié)果的對比分析。研究團(tuán)隊(duì)發(fā)現(xiàn),對于錯(cuò)誤的推理路徑,探索指標(biāo)(有效排序)和利用指標(biāo)(有效排序速度)往往都很高,這表明過度的探索加上過度的信息獲取可能會(huì)讓推理偏離正軌。相反,對于正確的推理路徑,有效排序加速度始終保持較高的值,這說明持續(xù)的信息獲取加速能力是區(qū)分正確推理和錯(cuò)誤探索的關(guān)鍵指標(biāo)。
這些發(fā)現(xiàn)不僅在理論上具有重要意義,更為實(shí)際應(yīng)用提供了全新的思路。既然探索和利用在語義空間中是解耦的,那么就有可能設(shè)計(jì)出同時(shí)增強(qiáng)這兩種能力的訓(xùn)練方法。
三、VERL方法:AI推理的"雙引擎驅(qū)動(dòng)"系統(tǒng)
基于對隱藏狀態(tài)動(dòng)態(tài)特性的深入理解,研究團(tuán)隊(duì)開發(fā)了VERL(Velocity-Exploiting Rank-Learning,速度利用排序?qū)W習(xí))方法。這個(gè)方法的核心思想是通過直接塑造強(qiáng)化學(xué)習(xí)的優(yōu)勢函數(shù)來同時(shí)增強(qiáng)探索和利用能力。
VERL的工作原理可以比作給汽車安裝雙引擎驅(qū)動(dòng)系統(tǒng)。傳統(tǒng)方法就像單引擎汽車,要么專注于速度(利用),要么專注于越野能力(探索),無法兼顧。而VERL則像是配備了智能雙引擎系統(tǒng)的全能車輛,能夠根據(jù)路況自動(dòng)調(diào)節(jié)兩個(gè)引擎的協(xié)同工作。
具體來說,VERL使用有效排序加速度作為"智能調(diào)度器"。當(dāng)這個(gè)指標(biāo)顯示未來推理過程可能過度自信時(shí)(正值較大),系統(tǒng)會(huì)增強(qiáng)對探索的激勵(lì),鼓勵(lì)模型考慮更多的可能性,避免陷入局部最優(yōu)解。當(dāng)指標(biāo)顯示推理過程可能陷入停滯時(shí)(負(fù)值),系統(tǒng)則會(huì)加強(qiáng)對利用的獎(jiǎng)勵(lì),促進(jìn)模型更充分地挖掘當(dāng)前推理路徑的潛力。
這種雙通道激勵(lì)結(jié)構(gòu)的設(shè)計(jì)非常巧妙。它不是簡單地在探索和利用之間進(jìn)行切換,而是創(chuàng)建了一個(gè)動(dòng)態(tài)平衡的獎(jiǎng)勵(lì)機(jī)制。通過前瞻性地調(diào)整獎(jiǎng)勵(lì)信號(hào),VERL能夠在問題出現(xiàn)之前就進(jìn)行預(yù)防性調(diào)節(jié):既能預(yù)防過度自信導(dǎo)致的推理錯(cuò)誤,又能鞏固有效的推理收獲。
VERL的另一個(gè)創(chuàng)新點(diǎn)在于其穩(wěn)定性保證。由于有效排序加速度具有理論上的O(1)增長穩(wěn)定性,它為訓(xùn)練過程提供了可靠的指導(dǎo)信號(hào)。這種穩(wěn)定性使得VERL能夠在不同類型的推理任務(wù)中都保持良好的性能,而不會(huì)因?yàn)槿蝿?wù)特定的波動(dòng)而失效。
實(shí)施VERL時(shí),系統(tǒng)會(huì)實(shí)時(shí)監(jiān)控每個(gè)推理序列的隱藏狀態(tài)演化,計(jì)算相應(yīng)的有效排序及其一階、二階導(dǎo)數(shù),然后基于這些指標(biāo)動(dòng)態(tài)調(diào)整訓(xùn)練激勵(lì)。整個(gè)過程是完全自動(dòng)化的,不需要人工設(shè)定復(fù)雜的規(guī)則或閾值。
四、實(shí)驗(yàn)驗(yàn)證:從數(shù)學(xué)推理到復(fù)雜問題解決的全面提升
為了驗(yàn)證VERL方法的有效性,研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的實(shí)驗(yàn)驗(yàn)證,涵蓋了多種不同規(guī)模的語言模型和多樣化的數(shù)學(xué)推理基準(zhǔn)測試。實(shí)驗(yàn)設(shè)計(jì)非常全面,既包括了相對簡單的小學(xué)數(shù)學(xué)題,也包含了極具挑戰(zhàn)性的奧林匹克級(jí)別數(shù)學(xué)競賽題目。
在基礎(chǔ)能力測試中,VERL展現(xiàn)出了顯著的性能提升。以Llama-3.2-3B-Instruct模型為例,在應(yīng)用VERL方法后,該模型在AIME24數(shù)據(jù)集上的準(zhǔn)確率從3.3%提升到了13.3%,實(shí)現(xiàn)了10%的絕對提升。更令人印象深刻的是,在高考2024數(shù)據(jù)集這樣的高難度測試中,VERL帶來了21.4%的絕對準(zhǔn)確率提升,這種幅度的改進(jìn)在該領(lǐng)域是非常罕見的。
實(shí)驗(yàn)還驗(yàn)證了VERL方法的通用性。無論是應(yīng)用于GRPO(群組相對策略優(yōu)化)還是PPO(近端策略優(yōu)化)這兩種不同的強(qiáng)化學(xué)習(xí)框架,VERL都展現(xiàn)出了一致的性能提升。這表明VERL的核心思想具有很好的算法無關(guān)性,可以作為一種通用的增強(qiáng)技術(shù)集成到現(xiàn)有的訓(xùn)練框架中。
特別值得關(guān)注的是Pass@k實(shí)驗(yàn)的結(jié)果,這種測試方式更能體現(xiàn)模型的探索能力。在這類測試中,模型需要生成多個(gè)不同的解答嘗試,只要其中一個(gè)正確就算成功。VERL在這類測試中的表現(xiàn)尤為出色,在某些數(shù)據(jù)集上Pass@k的改進(jìn)幅度甚至超過了Pass@1的改進(jìn)幅度,這直接證明了VERL在增強(qiáng)探索能力方面的有效性。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),分析VERL中不同組件的貢獻(xiàn)。結(jié)果顯示,僅使用探索相關(guān)項(xiàng)會(huì)導(dǎo)致模型無法充分利用高獎(jiǎng)勵(lì)軌跡,最終性能提升有限。僅使用利用相關(guān)項(xiàng)雖然能帶來短期的性能提升,但很快就會(huì)遇到瓶頸。只有將兩者結(jié)合,才能實(shí)現(xiàn)穩(wěn)定且持續(xù)的性能改進(jìn)。
實(shí)驗(yàn)還揭示了一個(gè)有趣的現(xiàn)象:VERL不僅提升了模型的準(zhǔn)確率,還增強(qiáng)了其推理過程的多樣性。通過分析模型生成的推理路徑,研究團(tuán)隊(duì)發(fā)現(xiàn)應(yīng)用VERL后的模型能夠使用更多樣化的解題策略。例如,在幾何問題求解中,VERL訓(xùn)練的模型會(huì)同時(shí)使用正弦定理、余弦定理和其他幾何性質(zhì),而傳統(tǒng)方法訓(xùn)練的模型往往過度依賴單一策略。
五、深度分析:解密VERL成功的關(guān)鍵機(jī)制
要真正理解VERL為什么如此有效,我們需要深入分析其背后的機(jī)制原理。研究團(tuán)隊(duì)通過大量的可視化分析和統(tǒng)計(jì)測試,揭示了VERL成功的幾個(gè)關(guān)鍵因素。
首先是測量層級(jí)的重要性。傳統(tǒng)方法在詞匯層面觀察到的探索-利用權(quán)衡,在隱藏狀態(tài)層面幾乎消失了。這種現(xiàn)象可以用信息處理的層次性來解釋:詞匯層面的輸出是經(jīng)過高度壓縮和選擇的結(jié)果,而隱藏狀態(tài)則保留了更豐富的語義信息。在這個(gè)更豐富的表征空間中,模型有足夠的"空間"同時(shí)進(jìn)行探索和利用,而不會(huì)產(chǎn)生直接沖突。
其次是時(shí)序動(dòng)態(tài)的關(guān)鍵作用。VERL的成功很大程度上依賴于對推理過程時(shí)序演化的精確捕捉。有效排序加速度之所以能夠作為可靠的元控制信號(hào),是因?yàn)樗从沉送评磉^程的"健康狀態(tài)"。當(dāng)加速度保持正值時(shí),說明模型的思維過程仍在積極演進(jìn);當(dāng)加速度轉(zhuǎn)為負(fù)值時(shí),則可能意味著推理陷入了循環(huán)或停滯。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)重要的模式:在正確的推理路徑中,有效排序加速度往往呈現(xiàn)出特定的演化模式——初期快速增長,中期保持穩(wěn)定,后期適度下降但仍保持正值。這種模式反映了良好推理過程的內(nèi)在規(guī)律:開始時(shí)快速建立問題理解,中期穩(wěn)定推進(jìn)解題過程,最后收斂到正確答案。VERL正是通過識(shí)別和強(qiáng)化這種健康的推理模式來提升整體性能。
另一個(gè)關(guān)鍵機(jī)制是獎(jiǎng)勵(lì)塑形的前瞻性特征。與傳統(tǒng)方法的事后獎(jiǎng)勵(lì)不同,VERL通過有效排序加速度實(shí)現(xiàn)了某種程度的"預(yù)測性獎(jiǎng)勵(lì)"。當(dāng)系統(tǒng)檢測到推理過程可能出現(xiàn)問題的早期信號(hào)時(shí),它會(huì)主動(dòng)調(diào)整激勵(lì)結(jié)構(gòu),引導(dǎo)模型走向更健康的推理路徑。這種前瞻性調(diào)節(jié)大大提高了訓(xùn)練的效率和穩(wěn)定性。
VERL的成功還得益于其自適應(yīng)性。傳統(tǒng)的探索-利用平衡往往需要手工設(shè)定權(quán)重參數(shù),而VERL通過有效排序加速度實(shí)現(xiàn)了動(dòng)態(tài)自適應(yīng)調(diào)節(jié)。每個(gè)推理序列的特定情況都會(huì)影響探索和利用的相對權(quán)重,使得系統(tǒng)能夠針對不同類型的問題和不同的推理階段采用最合適的策略組合。
六、實(shí)際應(yīng)用案例:從理論到實(shí)踐的轉(zhuǎn)化
為了更好地理解VERL在實(shí)際應(yīng)用中的表現(xiàn),研究團(tuán)隊(duì)提供了多個(gè)具體的案例分析,這些案例生動(dòng)地展示了新方法相比傳統(tǒng)方法的優(yōu)勢。
在一個(gè)涉及負(fù)數(shù)比較的數(shù)學(xué)問題中,傳統(tǒng)GRPO訓(xùn)練的模型錯(cuò)誤地認(rèn)為-1小于-13,這反映了模型在處理數(shù)值常識(shí)方面的不足。而使用VERL訓(xùn)練的模型則能夠正確處理這類比較問題,展現(xiàn)出更強(qiáng)的數(shù)值推理能力。這個(gè)案例說明VERL不僅能提高準(zhǔn)確率,還能增強(qiáng)模型對基礎(chǔ)數(shù)學(xué)概念的掌握。
在一個(gè)房屋計(jì)數(shù)的應(yīng)用題中,兩種方法的差異更加明顯。題目描述了一個(gè)社區(qū)有六條街道,每條街道兩側(cè)各有10棟房屋,且沒有房屋面向兩條不同的街道。傳統(tǒng)方法訓(xùn)練的模型忽略了約束條件的深層含義,錯(cuò)誤地推斷每條街道只有10棟房屋。而VERL訓(xùn)練的模型則能夠正確理解約束條件,逐步分析出每條街道實(shí)際有20棟房屋,從而得出正確的總數(shù)。
在微分方程求解這類更復(fù)雜的數(shù)學(xué)問題中,VERL的優(yōu)勢體現(xiàn)得更加突出。當(dāng)要求找到純指數(shù)解時(shí),傳統(tǒng)方法往往會(huì)忽略"純指數(shù)"這一約束條件,給出包含多項(xiàng)式和三角函數(shù)的通解。而VERL訓(xùn)練的模型能夠嚴(yán)格遵循題目要求,只給出符合條件的指數(shù)解。這種對問題約束的精確理解反映了VERL在提升推理嚴(yán)謹(jǐn)性方面的價(jià)值。
在Pass@16設(shè)置下的探索性測試中,VERL的表現(xiàn)更加令人印象深刻。對于一個(gè)求解函數(shù)定義域的問題,傳統(tǒng)方法訓(xùn)練的模型在16次嘗試中都給出了相同的錯(cuò)誤答案,顯示出探索能力的嚴(yán)重不足。而VERL訓(xùn)練的模型在16次嘗試中有5次給出了正確答案,展現(xiàn)出更強(qiáng)的探索多樣性和問題求解能力。
這些案例不僅驗(yàn)證了VERL的有效性,還揭示了其應(yīng)用價(jià)值的多個(gè)維度:基礎(chǔ)概念理解、約束條件處理、推理嚴(yán)謹(jǐn)性以及解題策略多樣性。這種全方位的改進(jìn)使得VERL不僅僅是一個(gè)性能優(yōu)化工具,更是一個(gè)能夠提升AI推理質(zhì)量的系統(tǒng)性方法。
七、技術(shù)創(chuàng)新的深層意義:重新定義AI推理的可能性
VERL方法的成功不僅僅是一個(gè)技術(shù)層面的突破,更重要的是它從根本上改變了我們對AI推理過程的理解。這項(xiàng)研究的深層意義體現(xiàn)在幾個(gè)關(guān)鍵方面。
首先,它挑戰(zhàn)了關(guān)于探索-利用權(quán)衡的傳統(tǒng)認(rèn)知。長期以來,這種權(quán)衡被視為機(jī)器學(xué)習(xí)的基本原理之一,就像物理學(xué)中的守恒定律一樣不可違背。然而,VERL的成功表明,在恰當(dāng)?shù)谋碚骺臻g和合適的方法框架下,這種權(quán)衡是可以被超越的。這一發(fā)現(xiàn)可能會(huì)引發(fā)對其他看似基本的機(jī)器學(xué)習(xí)原理的重新審視。
其次,這項(xiàng)研究開創(chuàng)了基于語義表征動(dòng)態(tài)性進(jìn)行模型優(yōu)化的新范式。傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法主要關(guān)注外在的獎(jiǎng)勵(lì)信號(hào)和行為輸出,而VERL則深入到模型的內(nèi)部表征過程,基于語義演化的內(nèi)在規(guī)律來指導(dǎo)學(xué)習(xí)。這種內(nèi)外結(jié)合的優(yōu)化策略為AI系統(tǒng)的改進(jìn)開辟了全新的方向。
VERL方法還展現(xiàn)了多尺度分析在AI研究中的重要價(jià)值。通過同時(shí)考慮響應(yīng)級(jí)別和數(shù)據(jù)集級(jí)別的表征動(dòng)態(tài),研究團(tuán)隊(duì)獲得了單一尺度分析無法提供的深層洞察。這種多尺度分析框架可能會(huì)成為未來AI研究的重要工具,幫助研究者更全面地理解復(fù)雜AI系統(tǒng)的行為規(guī)律。
該研究的另一個(gè)重要貢獻(xiàn)是證明了理論分析與實(shí)際應(yīng)用的有效結(jié)合。有效排序加速度的O(1)穩(wěn)定性不僅是一個(gè)理論結(jié)果,更是VERL方法實(shí)用性的重要保障。這種理論指導(dǎo)實(shí)踐、實(shí)踐驗(yàn)證理論的研究模式為AI領(lǐng)域的發(fā)展提供了有價(jià)值的參考。
從更廣闊的視角來看,VERL代表了AI能力提升的一種新思路:不是簡單地增加模型規(guī)模或訓(xùn)練數(shù)據(jù),而是通過更深入的理解和更精巧的方法來挖掘現(xiàn)有模型的潛力。這種"質(zhì)量提升"型的改進(jìn)路徑在當(dāng)前AI發(fā)展面臨資源和環(huán)境約束的背景下具有特殊的意義。
VERL的成功還暗示了AI系統(tǒng)內(nèi)在能力之間可能存在更多的協(xié)同關(guān)系,而不是簡單的競爭關(guān)系。這一發(fā)現(xiàn)可能會(huì)啟發(fā)研究者探索其他能力維度之間的潛在協(xié)同性,從而實(shí)現(xiàn)更全面的AI能力提升。
八、未來展望:從數(shù)學(xué)推理到通用智能的橋梁
雖然當(dāng)前的研究主要集中在數(shù)學(xué)推理領(lǐng)域,但VERL的核心思想具有更廣泛的應(yīng)用潛力。數(shù)學(xué)推理只是復(fù)雜思維過程的一個(gè)具體體現(xiàn),VERL揭示的語義表征動(dòng)態(tài)規(guī)律很可能適用于其他類型的推理任務(wù)。
在自然語言理解任務(wù)中,VERL的雙通道激勵(lì)機(jī)制可能有助于模型在理解文本深層語義的同時(shí)保持對表面信息的敏感性。在代碼生成任務(wù)中,這種方法可能能夠幫助模型在探索創(chuàng)新解決方案和利用成熟編程模式之間找到更好的平衡點(diǎn)。
更進(jìn)一步,VERL的方法論可能為多模態(tài)AI系統(tǒng)的開發(fā)提供新的思路。在處理圖像、文本、音頻等多種信息時(shí),不同模態(tài)之間的協(xié)調(diào)也可能存在類似的"探索-利用"動(dòng)態(tài),VERL的框架可能為這類復(fù)雜系統(tǒng)的優(yōu)化提供指導(dǎo)。
從長遠(yuǎn)來看,這項(xiàng)研究可能會(huì)推動(dòng)強(qiáng)化學(xué)習(xí)理論的發(fā)展。傳統(tǒng)強(qiáng)化學(xué)習(xí)主要關(guān)注環(huán)境獎(jiǎng)勵(lì)和行為策略之間的關(guān)系,而VERL引入的內(nèi)在表征動(dòng)態(tài)為這一框架增加了新的維度。這種擴(kuò)展可能會(huì)催生新的理論框架和算法設(shè)計(jì)原則。
VERL的成功也為AI安全研究提供了新的視角。通過監(jiān)控和調(diào)節(jié)模型內(nèi)部表征的演化過程,我們可能能夠更好地理解和控制AI系統(tǒng)的行為,從而提高系統(tǒng)的可預(yù)測性和安全性。
在實(shí)際部署方面,VERL的輕量級(jí)特性使其有望在資源受限的環(huán)境中發(fā)揮作用。與需要大量計(jì)算資源的模型擴(kuò)展方法不同,VERL主要通過改進(jìn)訓(xùn)練策略來提升性能,這使得它更容易在實(shí)際應(yīng)用中推廣。
當(dāng)然,這項(xiàng)研究也面臨一些挑戰(zhàn)和限制。如何將VERL擴(kuò)展到更大規(guī)模的模型和更復(fù)雜的任務(wù)仍需進(jìn)一步探索。此外,不同領(lǐng)域的最優(yōu)配置可能有所不同,這需要更多的經(jīng)驗(yàn)積累和理論指導(dǎo)。
說到底,清華深研院這項(xiàng)研究的真正價(jià)值不僅在于提出了一個(gè)有效的技術(shù)方法,更在于它為我們重新思考AI能力發(fā)展提供了全新的角度。在人工智能快速發(fā)展的今天,這種深入本質(zhì)、突破常規(guī)思維的研究精神特別值得我們學(xué)習(xí)和發(fā)揚(yáng)。
通過證明探索和利用可以協(xié)同增強(qiáng)而非相互制約,VERL為AI推理能力的提升開辟了新的可能性。這不僅是技術(shù)層面的進(jìn)步,更是認(rèn)知框架的革新。隨著這一思路的進(jìn)一步發(fā)展和完善,我們有理由期待看到更多類似的突破,推動(dòng)人工智能向著更加智能、更加可靠的方向發(fā)展。對于關(guān)注AI技術(shù)發(fā)展的讀者來說,這項(xiàng)研究無疑提供了一個(gè)觀察未來AI發(fā)展趨勢的重要窗口。
Q&A
Q1:VERL方法與傳統(tǒng)強(qiáng)化學(xué)習(xí)方法的核心區(qū)別是什么?
A:傳統(tǒng)強(qiáng)化學(xué)習(xí)方法基于詞匯層面分析,認(rèn)為探索和利用存在根本沖突,只能二選一。VERL則深入到AI的語義表征空間(隱藏狀態(tài)),發(fā)現(xiàn)這兩種能力實(shí)際上可以解耦,并通過有效排序及其導(dǎo)數(shù)來同時(shí)增強(qiáng)探索和利用能力,就像給AI配備了智能雙引擎系統(tǒng)。
Q2:有效排序加速度為什么能作為可靠的控制信號(hào)?
A:有效排序加速度具有理論上的O(1)增長穩(wěn)定性,這意味著它不會(huì)因?yàn)閱栴}規(guī)?;蛐蛄虚L度的變化而出現(xiàn)劇烈波動(dòng)。研究發(fā)現(xiàn),正確推理路徑中這個(gè)指標(biāo)往往保持較高值,而錯(cuò)誤推理中則表現(xiàn)不佳,因此它可以作為區(qū)分推理質(zhì)量的可靠指標(biāo)來指導(dǎo)訓(xùn)練過程。
Q3:VERL方法的實(shí)際應(yīng)用效果如何?
A:實(shí)驗(yàn)結(jié)果顯示,VERL在多種數(shù)學(xué)推理任務(wù)上都取得了顯著提升,其中在挑戰(zhàn)性的高考2024數(shù)據(jù)集上實(shí)現(xiàn)了21.4%的絕對準(zhǔn)確率提升。更重要的是,這種方法不僅提高了準(zhǔn)確率,還增強(qiáng)了推理過程的多樣性,讓AI能夠使用更豐富的解題策略而不是過度依賴單一方法。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對培養(yǎng)AI空間智能的重要價(jià)值。