這項(xiàng)由香港科技大學(xué)潘凌教授團(tuán)隊(duì)聯(lián)合快手科技、StepFun等機(jī)構(gòu)共同完成的研究,發(fā)表于2025年9月29日的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2509.24981v1)。研究團(tuán)隊(duì)提出了一種名為ROVER的全新AI訓(xùn)練方法,顛覆了人們對(duì)機(jī)器學(xué)習(xí)復(fù)雜性的認(rèn)知。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過論文編號(hào)在arXiv平臺(tái)查詢完整論文。
當(dāng)我們談?wù)撚?xùn)練AI解決數(shù)學(xué)問題時(shí),大多數(shù)人可能會(huì)想象這需要極其復(fù)雜的算法和精密的計(jì)算。然而,香港科技大學(xué)的研究團(tuán)隊(duì)卻發(fā)現(xiàn)了一個(gè)令人意外的現(xiàn)象:有時(shí)候,最簡(jiǎn)單的方法反而能產(chǎn)生最好的效果。這就像在烹飪界,有些大廚經(jīng)過多年探索后發(fā)現(xiàn),最樸素的食材搭配往往能烹制出最美味的佳肴一樣。
目前,訓(xùn)練AI進(jìn)行數(shù)學(xué)推理主要依賴一種叫做"強(qiáng)化學(xué)習(xí)"的技術(shù)。這種方法就像訓(xùn)練一個(gè)學(xué)生做數(shù)學(xué)題:先讓學(xué)生嘗試解題,如果答對(duì)了就給獎(jiǎng)勵(lì),答錯(cuò)了就給懲罰,然后不斷調(diào)整學(xué)生的解題策略。在AI領(lǐng)域,這種方法被稱為PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。
這些傳統(tǒng)方法遵循一個(gè)叫做"廣義策略迭代"的循環(huán)過程,就像一個(gè)學(xué)生在學(xué)習(xí)時(shí)不斷地評(píng)估自己的能力,然后根據(jù)評(píng)估結(jié)果改進(jìn)學(xué)習(xí)方法,再重新評(píng)估,如此反復(fù)。雖然這種方法確實(shí)有效,但研究人員發(fā)現(xiàn)它存在一些問題。最大的問題是訓(xùn)練過程不夠穩(wěn)定,AI在學(xué)習(xí)過程中容易"偏科"——過度專注于某種解題方法,而忽略了其他可能有效的思路。這種現(xiàn)象被稱為"多樣性坍塌",就像一個(gè)原本思維活躍的學(xué)生逐漸變得思路單一,只會(huì)用一種固定的方法解決所有問題。
為了解決這些問題,研究人員通常需要添加各種復(fù)雜的技巧和調(diào)整機(jī)制,這使得整個(gè)訓(xùn)練系統(tǒng)變得極其復(fù)雜,就像給一臺(tái)本來簡(jiǎn)單的機(jī)器安裝了無數(shù)個(gè)復(fù)雜的零件,不僅增加了故障風(fēng)險(xiǎn),也讓維護(hù)變得困難重重。
面對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)決定從根本上重新思考這個(gè)問題。他們仔細(xì)分析了AI數(shù)學(xué)推理任務(wù)的本質(zhì)特征,發(fā)現(xiàn)了一個(gè)關(guān)鍵洞察:與傳統(tǒng)的強(qiáng)化學(xué)習(xí)任務(wù)(比如玩電子游戲或控制機(jī)器人)不同,數(shù)學(xué)推理問題具有一種特殊的結(jié)構(gòu)特征。
在數(shù)學(xué)推理中,每一步推理都會(huì)產(chǎn)生一個(gè)確定的新狀態(tài),而且這些狀態(tài)形成了一個(gè)樹狀結(jié)構(gòu)——每個(gè)狀態(tài)都有一個(gè)唯一的"父狀態(tài)",不同的推理路徑不會(huì)重復(fù)。這就像在一個(gè)巨大的迷宮中,每條路徑都是獨(dú)特的,沒有環(huán)路,也沒有交叉點(diǎn)。更重要的是,問題的答案只有對(duì)錯(cuò)兩種,不存在部分正確的情況。
基于這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)提出了一個(gè)令人驚訝的理論結(jié)果:在這種特殊的數(shù)學(xué)推理環(huán)境中,我們不需要復(fù)雜的策略優(yōu)化過程,只需要評(píng)估一個(gè)完全隨機(jī)的策略(也就是每步都隨機(jī)選擇的策略),然后根據(jù)這個(gè)隨機(jī)策略的價(jià)值函數(shù)來選擇最優(yōu)行動(dòng)就足夠了。
這個(gè)發(fā)現(xiàn)就像是發(fā)現(xiàn)了一個(gè)烹飪秘密:要做出最好的菜,不需要復(fù)雜的烹飪技巧和昂貴的設(shè)備,只需要了解每種食材的基本特性,然后選擇最合適的搭配就行了。研究團(tuán)隊(duì)在理論上證明了,通過評(píng)估這個(gè)"最簡(jiǎn)單"的隨機(jī)策略,就能找到最優(yōu)的解題路徑。
但是,完全貪心地選擇最優(yōu)行動(dòng)雖然能保證找到正確答案,卻會(huì)犧牲解題方法的多樣性。這就像一個(gè)學(xué)生雖然總能找到正確答案,但永遠(yuǎn)只用同一種方法,缺乏靈活性。為了在準(zhǔn)確性和多樣性之間取得平衡,研究團(tuán)隊(duì)設(shè)計(jì)了一種巧妙的方法:不是嚴(yán)格選擇最優(yōu)行動(dòng),而是根據(jù)隨機(jī)策略的價(jià)值函數(shù)進(jìn)行概率采樣。價(jià)值越高的行動(dòng)被選中的概率越大,但其他行動(dòng)也有被選中的機(jī)會(huì)。
這種方法的妙處在于,隨機(jī)策略的價(jià)值函數(shù)實(shí)際上代表了從某個(gè)狀態(tài)開始,隨機(jī)繼續(xù)推理直到結(jié)束時(shí)獲得正確答案的概率。因此,根據(jù)這個(gè)價(jià)值進(jìn)行采樣,既能偏向于更有希望的推理路徑,又能保持探索其他可能性的能力。
研究團(tuán)隊(duì)將這個(gè)方法命名為ROVER(Random Policy Valuation for Diverse Reasoning),意思是"面向多樣化推理的隨機(jī)策略評(píng)估"。雖然名字聽起來很學(xué)術(shù),但其核心思想?yún)s非常簡(jiǎn)單:評(píng)估隨機(jī)行為的價(jià)值,然后據(jù)此做出明智的選擇。
在實(shí)際實(shí)現(xiàn)中,ROVER需要面對(duì)一個(gè)挑戰(zhàn):在真實(shí)的AI系統(tǒng)中,狀態(tài)空間和行動(dòng)空間都非常龐大,無法像理論分析那樣直接計(jì)算所有可能的價(jià)值。為了解決這個(gè)問題,研究團(tuán)隊(duì)設(shè)計(jì)了幾個(gè)巧妙的近似方法。
首先,他們直接利用語言模型本身的參數(shù)來表示價(jià)值函數(shù),而不是額外訓(xùn)練一個(gè)價(jià)值網(wǎng)絡(luò)。這種方法的好處是充分利用了語言模型已經(jīng)學(xué)到的知識(shí),同時(shí)簡(jiǎn)化了系統(tǒng)架構(gòu)。具體來說,他們使用模型輸出概率的對(duì)數(shù)來表示相對(duì)價(jià)值,這種表示方法既簡(jiǎn)單又有效。
為了使訓(xùn)練過程更加穩(wěn)定,研究團(tuán)隊(duì)還引入了一個(gè)相對(duì)價(jià)值的概念。不是直接計(jì)算絕對(duì)價(jià)值,而是計(jì)算相對(duì)于某個(gè)基準(zhǔn)策略的價(jià)值差異。這就像在比較不同投資方案時(shí),我們通常會(huì)比較它們相對(duì)于基準(zhǔn)收益率的表現(xiàn),而不是絕對(duì)收益。
另一個(gè)重要的技術(shù)改進(jìn)是使用了組內(nèi)獎(jiǎng)勵(lì)中心化的方法。簡(jiǎn)單來說,就是在每一批訓(xùn)練樣本中,用每個(gè)問題的平均得分來調(diào)整個(gè)別樣本的獎(jiǎng)勵(lì)。這種方法可以減少獎(jiǎng)勵(lì)信號(hào)的噪聲,使訓(xùn)練過程更加穩(wěn)定。
為了驗(yàn)證ROVER方法的效果,研究團(tuán)隊(duì)進(jìn)行了大量的實(shí)驗(yàn)。他們首先在一個(gè)叫做"倒計(jì)時(shí)"的簡(jiǎn)單數(shù)學(xué)任務(wù)上測(cè)試了這個(gè)方法。倒計(jì)時(shí)任務(wù)要求給定幾個(gè)數(shù)字和一個(gè)目標(biāo)數(shù)字,使用基本的算術(shù)運(yùn)算(加減乘除)來得到目標(biāo)數(shù)字。雖然這個(gè)任務(wù)看似簡(jiǎn)單,但對(duì)于AI來說卻具有一定的挑戰(zhàn)性,而且通常存在多種不同的解法。
實(shí)驗(yàn)結(jié)果令人印象深刻。ROVER不僅在解題準(zhǔn)確性上超越了傳統(tǒng)方法,更重要的是,它能夠找到更多樣化的解題方法。在一個(gè)具體的例子中,傳統(tǒng)方法只能找到3種不同的解法,而ROVER能夠發(fā)現(xiàn)17種不同的解法。這種多樣性對(duì)于AI系統(tǒng)的魯棒性和泛化能力都非常重要。
接下來,研究團(tuán)隊(duì)在更具挑戰(zhàn)性的數(shù)學(xué)競(jìng)賽題目上測(cè)試了ROVER。這些題目包括美國(guó)數(shù)學(xué)邀請(qǐng)賽(AIME)、哈佛-MIT數(shù)學(xué)競(jìng)賽(HMMT)等頂級(jí)數(shù)學(xué)競(jìng)賽的真題。這些題目對(duì)人類數(shù)學(xué)天才都具有相當(dāng)?shù)碾y度,更不用說AI系統(tǒng)了。
在這些高難度測(cè)試中,ROVER展現(xiàn)出了顯著的優(yōu)勢(shì)。以Qwen3-8B基礎(chǔ)模型為例,使用ROVER訓(xùn)練后,模型在各項(xiàng)測(cè)試中的表現(xiàn)都有大幅提升。在pass@1指標(biāo)(第一次嘗試就答對(duì)的概率)上,ROVER比最強(qiáng)的基準(zhǔn)方法平均提升了8.2個(gè)百分點(diǎn)。在pass@256指標(biāo)(256次嘗試中至少答對(duì)一次的概率)上,提升幅度更是達(dá)到了16.8個(gè)百分點(diǎn)。
這些數(shù)字背后的意義非常重大。pass@1的提升意味著AI系統(tǒng)的即時(shí)解題能力得到了顯著增強(qiáng),而pass@256的大幅提升則表明AI系統(tǒng)的探索能力和多樣性得到了根本性的改善。這就像一個(gè)學(xué)生不僅提高了考試時(shí)的第一反應(yīng)正確率,更重要的是,當(dāng)?shù)谝环N方法不行時(shí),能夠嘗試更多不同的解題思路。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:ROVER訓(xùn)練的模型在生成解題過程時(shí),會(huì)產(chǎn)生更多的"反思"和"修正"類詞匯,比如"等等"、"不過"等。這表明模型學(xué)會(huì)了在解題過程中進(jìn)行自我檢查和路徑調(diào)整,就像人類數(shù)學(xué)家在解題時(shí)會(huì)不斷質(zhì)疑和驗(yàn)證自己的思路一樣。
為了驗(yàn)證ROVER的泛化能力,研究團(tuán)隊(duì)還在一個(gè)完全不相關(guān)的領(lǐng)域——GPQA數(shù)據(jù)集上測(cè)試了模型的表現(xiàn)。GPQA包含生物、物理、化學(xué)等領(lǐng)域的研究生水平問題,與數(shù)學(xué)推理有很大差異。令人驚喜的是,ROVER訓(xùn)練的模型在這些任務(wù)上也表現(xiàn)出了更好的性能,這說明這種訓(xùn)練方法提升的不僅僅是數(shù)學(xué)能力,而是一種更通用的推理能力。
從技術(shù)實(shí)現(xiàn)的角度來看,ROVER還有一個(gè)重要優(yōu)勢(shì):它比傳統(tǒng)方法更加簡(jiǎn)潔和穩(wěn)定。傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法需要仔細(xì)調(diào)整很多超參數(shù),而且訓(xùn)練過程容易不穩(wěn)定。相比之下,ROVER的超參數(shù)更少,訓(xùn)練過程也更加穩(wěn)定。這對(duì)于實(shí)際應(yīng)用來說是一個(gè)重要的優(yōu)勢(shì),因?yàn)樗档土朔椒ǖ氖褂瞄T檻和維護(hù)成本。
研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)來分析ROVER各個(gè)組成部分的作用。他們發(fā)現(xiàn),溫度參數(shù)(控制采樣隨機(jī)性的參數(shù))的選擇對(duì)結(jié)果有重要影響。溫度太低會(huì)導(dǎo)致多樣性不足,溫度太高則會(huì)影響解題準(zhǔn)確性。通過系統(tǒng)的分析,他們確定了一個(gè)平衡點(diǎn),既能保持高準(zhǔn)確性,又能維持良好的多樣性。
另一個(gè)重要發(fā)現(xiàn)是,ROVER在測(cè)試時(shí)的表現(xiàn)也更加優(yōu)秀。當(dāng)使用多數(shù)投票策略(生成多個(gè)答案然后選擇最常出現(xiàn)的答案)時(shí),ROVER訓(xùn)練的模型表現(xiàn)出更好的一致性和可靠性。這進(jìn)一步證明了多樣性訓(xùn)練的價(jià)值:雖然單次生成可能不完美,但多樣化的生成能力使得通過多次嘗試找到正確答案的概率大大增加。
在不同規(guī)模的模型上,ROVER都展現(xiàn)出了一致的改進(jìn)效果。無論是較小的1.5B參數(shù)模型,還是較大的8B參數(shù)模型,ROVER都能帶來顯著的性能提升。這說明這種方法的有效性不依賴于特定的模型規(guī)模,具有良好的通用性。
研究團(tuán)隊(duì)還對(duì)訓(xùn)練過程進(jìn)行了深入分析。他們發(fā)現(xiàn),與傳統(tǒng)方法相比,ROVER訓(xùn)練的模型能夠在整個(gè)訓(xùn)練過程中保持相對(duì)較高的熵值(多樣性的一個(gè)指標(biāo))。傳統(tǒng)方法訓(xùn)練的模型熵值會(huì)隨著訓(xùn)練進(jìn)行而持續(xù)下降,最終趨于單一化,而ROVER訓(xùn)練的模型熵值下降緩慢,甚至在后期還能有所回升。這直觀地解釋了為什么ROVER能夠保持更好的多樣性。
從計(jì)算效率的角度來看,ROVER也表現(xiàn)出色。由于不需要復(fù)雜的策略優(yōu)化循環(huán),ROVER的訓(xùn)練速度比傳統(tǒng)方法更快,所需的計(jì)算資源也更少。這使得更多的研究團(tuán)隊(duì)和機(jī)構(gòu)能夠使用這種方法,推動(dòng)相關(guān)技術(shù)的普及和發(fā)展。
研究團(tuán)隊(duì)在論文中還討論了ROVER方法的理論基礎(chǔ)。他們從馬爾可夫決策過程的角度分析了為什么隨機(jī)策略評(píng)估在數(shù)學(xué)推理任務(wù)中特別有效。這種理論分析不僅為方法的有效性提供了嚴(yán)格的數(shù)學(xué)證明,也為未來的改進(jìn)指明了方向。
值得注意的是,雖然ROVER在數(shù)學(xué)推理任務(wù)上表現(xiàn)出色,但研究團(tuán)隊(duì)也誠(chéng)實(shí)地討論了方法的局限性。ROVER特別適用于具有確定性轉(zhuǎn)移和樹狀結(jié)構(gòu)的任務(wù),對(duì)于其他類型的強(qiáng)化學(xué)習(xí)任務(wù),其優(yōu)勢(shì)可能不會(huì)如此明顯。不過,這種局限性并不影響其在目標(biāo)應(yīng)用領(lǐng)域的價(jià)值,反而體現(xiàn)了研究的嚴(yán)謹(jǐn)性。
這項(xiàng)研究的意義遠(yuǎn)超出了技術(shù)層面的改進(jìn)。它展示了一種新的研究思路:與其一味地增加系統(tǒng)的復(fù)雜性,不如深入理解問題的本質(zhì)特征,然后設(shè)計(jì)出真正適合的解決方案。這種思路在當(dāng)前AI研究追求規(guī)模和復(fù)雜性的大背景下,顯得尤為珍貴和啟發(fā)性。
從實(shí)際應(yīng)用的角度來看,ROVER為AI輔助數(shù)學(xué)教育、自動(dòng)定理證明、科學(xué)計(jì)算等領(lǐng)域提供了新的技術(shù)選擇。特別是在需要生成多樣化解題方法的教育場(chǎng)景中,ROVER的優(yōu)勢(shì)尤為突出。一個(gè)能夠提供多種解題思路的AI助教,比只會(huì)一種方法的AI助教要有用得多。
展望未來,這項(xiàng)研究為強(qiáng)化學(xué)習(xí)在結(jié)構(gòu)化問題上的應(yīng)用開辟了新的方向。研究團(tuán)隊(duì)計(jì)劃將ROVER的核心思想擴(kuò)展到其他具有類似結(jié)構(gòu)特征的任務(wù)中,比如程序合成、邏輯推理等。同時(shí),他們也在探索如何進(jìn)一步提升方法的效率和效果。
說到底,這項(xiàng)研究告訴我們一個(gè)樸素而深刻的道理:復(fù)雜的問題未必需要復(fù)雜的解決方案。有時(shí)候,最簡(jiǎn)單的方法反而能產(chǎn)生最好的效果。正如研究團(tuán)隊(duì)在論文中引用的達(dá)芬奇名言:"簡(jiǎn)單是最高級(jí)的復(fù)雜。"在AI技術(shù)日益復(fù)雜化的今天,這種回歸本質(zhì)的研究思路值得我們深思和借鑒。
這項(xiàng)研究不僅在技術(shù)上取得了突破,更在方法論上提供了啟示。它提醒我們,在追求技術(shù)進(jìn)步的同時(shí),不要忘記思考問題的本質(zhì),尋找真正適合的解決方案。這種科學(xué)精神和研究態(tài)度,可能比具體的技術(shù)成果更加珍貴和持久。
Q&A
Q1:ROVER方法與傳統(tǒng)的PPO、GRPO等強(qiáng)化學(xué)習(xí)方法相比有什么優(yōu)勢(shì)?
A:ROVER最大的優(yōu)勢(shì)在于簡(jiǎn)單而有效。傳統(tǒng)方法需要復(fù)雜的策略優(yōu)化循環(huán),容易導(dǎo)致訓(xùn)練不穩(wěn)定和多樣性坍塌,還需要調(diào)整很多參數(shù)。ROVER只需要評(píng)估一個(gè)隨機(jī)策略,然后根據(jù)評(píng)估結(jié)果選擇行動(dòng),不僅訓(xùn)練更穩(wěn)定,還能保持解題方法的多樣性。實(shí)驗(yàn)顯示ROVER在數(shù)學(xué)競(jìng)賽題上比最強(qiáng)基準(zhǔn)方法提升8.2個(gè)百分點(diǎn)的準(zhǔn)確率。
Q2:為什么隨機(jī)策略評(píng)估能在數(shù)學(xué)推理中取得好效果?
A:關(guān)鍵在于數(shù)學(xué)推理任務(wù)的特殊結(jié)構(gòu)。數(shù)學(xué)推理形成樹狀結(jié)構(gòu),每步推理都有確定結(jié)果,答案只有對(duì)錯(cuò)兩種。在這種環(huán)境中,隨機(jī)策略的價(jià)值函數(shù)實(shí)際上代表了獲得正確答案的概率。研究團(tuán)隊(duì)從理論上證明了,只要根據(jù)這個(gè)隨機(jī)策略的價(jià)值貪心選擇行動(dòng),就能找到最優(yōu)解題路徑。
Q3:ROVER方法訓(xùn)練的AI模型在解題多樣性上表現(xiàn)如何?
A:ROVER在多樣性方面表現(xiàn)突出。在倒計(jì)時(shí)任務(wù)中,傳統(tǒng)方法只能找到3種解法,ROVER能發(fā)現(xiàn)17種不同解法。在數(shù)學(xué)競(jìng)賽題上,ROVER訓(xùn)練的模型在pass@256指標(biāo)上比基準(zhǔn)方法提升16.8個(gè)百分點(diǎn),說明它能探索更多樣的解題路徑。而且ROVER模型會(huì)生成更多"等等"、"不過"等反思詞匯,顯示出更強(qiáng)的自我修正能力。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。