這項(xiàng)由韓國(guó)科學(xué)技術(shù)院(KAIST)的Le Thanh-Long、瑞士洛桑聯(lián)邦理工學(xué)院(EPFL)的Jeon Myeongho、以及Adobe Research的Lai Viet等研究者共同完成的研究,發(fā)表于2025年9月的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2509.21880v1)。這項(xiàng)工作首次揭示了如何讓人工智能從看似"無(wú)用"的訓(xùn)練數(shù)據(jù)中挖掘出寶貴的學(xué)習(xí)信號(hào),為大語(yǔ)言模型的數(shù)學(xué)推理能力提升開(kāi)辟了全新路徑。
當(dāng)前的人工智能訓(xùn)練就像是在教孩子解數(shù)學(xué)題,傳統(tǒng)做法是給孩子看很多對(duì)錯(cuò)分明的例子:這道題有人做對(duì)了,有人做錯(cuò)了,通過(guò)對(duì)比讓AI學(xué)會(huì)區(qū)分好壞。然而現(xiàn)實(shí)中經(jīng)常出現(xiàn)這樣的情況:給AI同一道題,它要么全部做對(duì),要么全部做錯(cuò),沒(méi)有對(duì)比參照。面對(duì)這種情況,以往的訓(xùn)練方法就像遇到了"啞火",直接把這些數(shù)據(jù)扔掉,認(rèn)為沒(méi)有學(xué)習(xí)價(jià)值。這就是研究者們要解決的"零方差提示"問(wèn)題。
研究團(tuán)隊(duì)發(fā)現(xiàn),這些看似"無(wú)用"的數(shù)據(jù)其實(shí)蘊(yùn)含著巨大的學(xué)習(xí)潛力。當(dāng)AI對(duì)所有答案都做對(duì)時(shí),說(shuō)明它已經(jīng)掌握了這類(lèi)問(wèn)題的解法,應(yīng)該給它正面鼓勵(lì);當(dāng)AI對(duì)所有答案都做錯(cuò)時(shí),說(shuō)明它在這類(lèi)問(wèn)題上還需要改進(jìn),應(yīng)該給它適當(dāng)?shù)?糾正信號(hào)"。關(guān)鍵在于,不能簡(jiǎn)單粗暴地一刀切,而要根據(jù)每個(gè)詞匯的重要程度來(lái)精細(xì)調(diào)節(jié)獎(jiǎng)懲力度。
一、揭開(kāi)傳統(tǒng)訓(xùn)練方法的盲點(diǎn)
要理解這項(xiàng)研究的價(jià)值,我們先來(lái)看看傳統(tǒng)的AI訓(xùn)練是如何工作的。目前最流行的方法叫做"群體相對(duì)策略優(yōu)化"(GRPO),就像是在訓(xùn)練一個(gè)學(xué)生做數(shù)學(xué)題。老師會(huì)給同一道題目讓學(xué)生做多次,然后根據(jù)答案的對(duì)錯(cuò)情況來(lái)調(diào)整教學(xué)策略。
具體來(lái)說(shuō),這個(gè)過(guò)程就像烹飪一道菜時(shí)的調(diào)味過(guò)程。廚師會(huì)先嘗試幾種不同的調(diào)料搭配,如果有些搭配很好吃,有些很難吃,那就可以通過(guò)對(duì)比來(lái)調(diào)整:增加好吃搭配中的調(diào)料比例,減少難吃搭配中的調(diào)料用量。但問(wèn)題來(lái)了,如果所有的調(diào)料搭配要么都很好吃,要么都很難吃,廚師就無(wú)法通過(guò)對(duì)比來(lái)學(xué)習(xí)改進(jìn)了。
在AI訓(xùn)練中也是如此。當(dāng)研究者給模型同一個(gè)數(shù)學(xué)問(wèn)題,讓它生成多個(gè)答案時(shí),經(jīng)常會(huì)遇到這樣的情況:要么所有答案都是正確的,要么所有答案都是錯(cuò)誤的。這種情況被稱為"零方差提示",因?yàn)樗写鸢傅牡梅侄枷嗤?,沒(méi)有差異性。
傳統(tǒng)的GRPO方法面對(duì)這種情況就像是個(gè)困惑的廚師,不知道該如何調(diào)整。它的核心機(jī)制依賴于答案之間的差異來(lái)計(jì)算"優(yōu)勢(shì)值"——本質(zhì)上就是告訴模型哪些答案更好,哪些更差。當(dāng)所有答案得分相同時(shí),這個(gè)差異值就變成了零,整個(gè)學(xué)習(xí)過(guò)程就停滯了。
更糟糕的是,生成這些看似"無(wú)用"的答案需要消耗大量計(jì)算資源。研究顯示,在整個(gè)訓(xùn)練過(guò)程中,生成答案的步驟通常占用了總時(shí)間的50%左右。這意味著,當(dāng)遇到零方差提示時(shí),系統(tǒng)不僅學(xué)不到東西,還白白浪費(fèi)了一半的計(jì)算成本。
研究團(tuán)隊(duì)通過(guò)實(shí)際觀察發(fā)現(xiàn),在不同的訓(xùn)練階段,零方差提示的比例差異很大。在訓(xùn)練初期,模型能力較弱,經(jīng)常出現(xiàn)所有答案都錯(cuò)誤的情況,零方差提示比例可能高達(dá)99%。而在訓(xùn)練后期,模型變得更強(qiáng),可能出現(xiàn)所有答案都正確的情況,零方差提示比例也會(huì)顯著上升,達(dá)到30%到75%不等。
這種現(xiàn)象就像學(xué)生學(xué)習(xí)數(shù)學(xué)的過(guò)程:剛開(kāi)始時(shí),可能連最基礎(chǔ)的題目都做不對(duì),每次練習(xí)都是全錯(cuò);經(jīng)過(guò)一段時(shí)間訓(xùn)練后,基礎(chǔ)題目都能做對(duì)了,但遇到難題又都做不出來(lái);再后來(lái),連難題也基本能解決了,大部分練習(xí)都是全對(duì)。傳統(tǒng)訓(xùn)練方法在這兩個(gè)階段都會(huì)"罷工",錯(cuò)失了寶貴的學(xué)習(xí)機(jī)會(huì)。
二、創(chuàng)新思路:從"廢料"中提取黃金
面對(duì)這個(gè)困境,KAIST研究團(tuán)隊(duì)提出了一個(gè)顛覆性的觀點(diǎn):零方差提示并不是無(wú)用的廢料,而是蘊(yùn)含著豐富學(xué)習(xí)信號(hào)的寶藏,關(guān)鍵在于如何正確地挖掘和利用。
他們的核心理念可以用一個(gè)簡(jiǎn)單的類(lèi)比來(lái)理解:假設(shè)你在教一個(gè)孩子學(xué)騎自行車(chē)。傳統(tǒng)方法就像只在孩子有時(shí)摔倒、有時(shí)成功時(shí)給予指導(dǎo)。但實(shí)際上,即使孩子連續(xù)幾次都成功騎行,你也可以鼓勵(lì)他"做得很棒,繼續(xù)保持";即使連續(xù)幾次都摔倒,你也可以說(shuō)"別氣餒,我們調(diào)整一下姿勢(shì)再試試"。這些反饋同樣有助于學(xué)習(xí)。
研究團(tuán)隊(duì)將這種思路應(yīng)用到AI訓(xùn)練中,開(kāi)發(fā)出了一種名為"RL-ZVP"(Reinforcement Learning with Zero-Variance Prompts)的新方法。這個(gè)方法的核心是為零方差提示設(shè)計(jì)專門(mén)的"優(yōu)勢(shì)值"計(jì)算公式,讓AI即使在沒(méi)有對(duì)比的情況下也能學(xué)到東西。
RL-ZVP的工作原理基于兩個(gè)核心要素:方向和強(qiáng)度。方向很容易理解——當(dāng)所有答案都正確時(shí),給予正向激勵(lì);當(dāng)所有答案都錯(cuò)誤時(shí),給予負(fù)向調(diào)整信號(hào)。但強(qiáng)度的設(shè)計(jì)才是真正的創(chuàng)新所在。
研究團(tuán)隊(duì)發(fā)現(xiàn),不是所有的詞匯在推理過(guò)程中都同等重要。就像在一篇文章中,有些詞匯是關(guān)鍵信息,有些只是連接詞。在數(shù)學(xué)推理中也是如此:有些詞匯代表了關(guān)鍵的推理步驟,比如"因此"、"根據(jù)"、"假設(shè)"等,而有些詞匯只是普通的表述,比如"這個(gè)"、"我們"、"可以"等。
為了區(qū)分這種重要性,研究團(tuán)隊(duì)引入了"熵"的概念。熵在這里就像是衡量"意外程度"的指標(biāo)。當(dāng)AI在生成某個(gè)詞匯時(shí)很確定(比如在"2+2="后面生成"4"),熵值就很低;當(dāng)AI在多個(gè)選擇間猶豫不決(比如在解一道復(fù)雜幾何題時(shí)選擇不同的證明路徑),熵值就很高。
高熵值的詞匯往往代表了重要的推理分歧點(diǎn)或關(guān)鍵決策節(jié)點(diǎn),這些地方對(duì)最終結(jié)果的影響更大。因此,RL-ZVP在調(diào)整時(shí)會(huì)給這些高熵詞匯分配更大的權(quán)重。對(duì)于正確答案,高熵詞匯會(huì)得到更多鼓勵(lì),讓AI學(xué)會(huì)在關(guān)鍵節(jié)點(diǎn)做出正確決策;對(duì)于錯(cuò)誤答案,高熵詞匯會(huì)得到相對(duì)較輕的懲罰,保持AI在這些關(guān)鍵節(jié)點(diǎn)的探索能力。
這種設(shè)計(jì)就像是在調(diào)教一個(gè)學(xué)徒:當(dāng)他在關(guān)鍵技巧上表現(xiàn)出色時(shí),給予特別的贊揚(yáng);當(dāng)他在關(guān)鍵技巧上出錯(cuò)時(shí),耐心指正但不嚴(yán)厲批評(píng),避免讓他對(duì)嘗試新方法產(chǎn)生恐懼。
三、實(shí)驗(yàn)驗(yàn)證:全面超越傳統(tǒng)方法
為了驗(yàn)證RL-ZVP的效果,研究團(tuán)隊(duì)設(shè)計(jì)了一系列全面的實(shí)驗(yàn)。他們選擇了數(shù)學(xué)推理作為測(cè)試領(lǐng)域,因?yàn)閿?shù)學(xué)問(wèn)題有標(biāo)準(zhǔn)答案,容易驗(yàn)證AI的表現(xiàn)是否真的提升了。
實(shí)驗(yàn)涵蓋了兩種不同規(guī)模的模型:17億參數(shù)的Qwen3-1.7B-Base和80億參數(shù)的Qwen3-8B-Base。這就像測(cè)試新的教學(xué)方法時(shí),既要在小班級(jí)也要在大班級(jí)中驗(yàn)證效果。研究團(tuán)隊(duì)使用了六個(gè)不同難度的數(shù)學(xué)測(cè)試集,包括Minerva、AMC23、MATH、AIME24、AIME25和OlympiadBench,覆蓋了從中學(xué)水平到奧數(shù)競(jìng)賽的各種難度。
實(shí)驗(yàn)結(jié)果令人印象深刻。在小模型(1.7B)上,RL-ZVP相比傳統(tǒng)GRPO方法平均提升了2.84個(gè)準(zhǔn)確率點(diǎn)和4.62個(gè)通過(guò)率點(diǎn)。在大模型(8B)上,提升幅度更加顯著,平均提升了5.15個(gè)準(zhǔn)確率點(diǎn)和3.95個(gè)通過(guò)率點(diǎn)。最令人矚目的是,在某些具體測(cè)試中,RL-ZVP實(shí)現(xiàn)了高達(dá)8.61個(gè)準(zhǔn)確率點(diǎn)和7.77個(gè)通過(guò)率點(diǎn)的提升。
為了確保對(duì)比的公平性,研究團(tuán)隊(duì)還與其他試圖解決零方差提示問(wèn)題的方法進(jìn)行了比較。這些替代方法的思路是直接過(guò)濾掉零方差提示,只使用有對(duì)比差異的數(shù)據(jù)進(jìn)行訓(xùn)練。結(jié)果顯示,即使在極度不利的對(duì)比條件下——讓這些過(guò)濾方法使用3到5倍的計(jì)算資源,RL-ZVP仍然能夠取得更好的效果。
這個(gè)結(jié)果特別重要,因?yàn)樗f(shuō)明了利用零方差提示確實(shí)比拋棄它們更有價(jià)值。就像廢物回收利用往往比直接丟棄更環(huán)保一樣,充分利用訓(xùn)練數(shù)據(jù)比篩選數(shù)據(jù)更有效率。
除了最終的準(zhǔn)確率提升,研究團(tuán)隊(duì)還觀察到RL-ZVP在訓(xùn)練過(guò)程中表現(xiàn)出更好的穩(wěn)定性。傳統(tǒng)GRPO方法在訓(xùn)練過(guò)程中經(jīng)常出現(xiàn)性能波動(dòng),有時(shí)甚至?xí)霈F(xiàn)明顯的性能下降。而RL-ZVP的學(xué)習(xí)曲線更加平滑,幾乎沒(méi)有出現(xiàn)性能倒退的情況。
這種穩(wěn)定性來(lái)自于RL-ZVP能夠從更多的訓(xùn)練數(shù)據(jù)中提取學(xué)習(xí)信號(hào)。當(dāng)傳統(tǒng)方法因?yàn)槿狈?duì)比而"餓肚子"時(shí),RL-ZVP仍然能夠從零方差提示中"吃到營(yíng)養(yǎng)",保持持續(xù)的學(xué)習(xí)進(jìn)展。
四、深層機(jī)制:AI如何變得更善于推理
通過(guò)詳細(xì)分析訓(xùn)練過(guò)程中的各種指標(biāo),研究團(tuán)隊(duì)發(fā)現(xiàn)RL-ZVP不僅提升了AI的準(zhǔn)確率,還從根本上改變了AI的推理方式。
最明顯的變化是AI生成答案的長(zhǎng)度顯著增加。在訓(xùn)練過(guò)程中,使用RL-ZVP的模型逐漸學(xué)會(huì)了生成更詳細(xì)、更完整的推理過(guò)程。在小模型上,平均答案長(zhǎng)度從約750個(gè)字符增長(zhǎng)到超過(guò)1250個(gè)字符;在大模型上,從約1000個(gè)字符增長(zhǎng)到超過(guò)3000個(gè)字符。
這種變化并不是簡(jiǎn)單的"話更多了",而是AI學(xué)會(huì)了進(jìn)行更深入的思考。就像學(xué)生從只會(huì)寫(xiě)答案進(jìn)步到能寫(xiě)出完整解題步驟一樣,AI開(kāi)始展現(xiàn)出更強(qiáng)的推理能力。
另一個(gè)重要變化是AI的"確信度"增加了。這通過(guò)熵值的變化可以觀察到:隨著訓(xùn)練進(jìn)行,AI在生成每個(gè)詞匯時(shí)變得更加確定,熵值穩(wěn)步下降。但這種確信度的增加是健康的——它來(lái)自于對(duì)問(wèn)題的更深理解,而不是盲目的自信。
研究團(tuán)隊(duì)通過(guò)具體的答案案例分析發(fā)現(xiàn),RL-ZVP訓(xùn)練的模型在解決復(fù)雜數(shù)學(xué)問(wèn)題時(shí)展現(xiàn)出了更加系統(tǒng)化的思維模式。傳統(tǒng)GRPO訓(xùn)練的模型往往采用直接了當(dāng)?shù)慕忸}方式,遇到困難時(shí)容易"卡住"或者采用簡(jiǎn)單的試錯(cuò)策略。
相比之下,RL-ZVP訓(xùn)練的模型學(xué)會(huì)了更加精細(xì)的推理策略。它們會(huì)先重新整理問(wèn)題的關(guān)鍵信息,制定解題計(jì)劃,分步驟執(zhí)行,遇到困難時(shí)會(huì)嘗試不同的方法或重新審視前面的假設(shè)。這種行為模式更接近人類(lèi)專家解決復(fù)雜問(wèn)題的方式。
特別令人驚訝的是,即使在相對(duì)較小的17億參數(shù)模型上,RL-ZVP也能激發(fā)出這種高級(jí)推理能力。傳統(tǒng)觀點(diǎn)認(rèn)為,只有參數(shù)規(guī)模極大的模型才能展現(xiàn)出復(fù)雜的推理行為,但這項(xiàng)研究顯示,正確的訓(xùn)練方法可能比模型規(guī)模更重要。
五、技術(shù)實(shí)現(xiàn):精巧的數(shù)學(xué)設(shè)計(jì)
RL-ZVP的技術(shù)實(shí)現(xiàn)雖然概念直觀,但在數(shù)學(xué)層面需要精巧的設(shè)計(jì)。研究團(tuán)隊(duì)需要解決的核心問(wèn)題是:如何為零方差提示設(shè)計(jì)合理的"優(yōu)勢(shì)值"?
傳統(tǒng)GRPO方法中,優(yōu)勢(shì)值的計(jì)算依賴于同一提示下不同答案的得分差異。具體公式是將每個(gè)答案的得分減去所有答案得分的平均值,再除以標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化。當(dāng)所有答案得分相同時(shí),標(biāo)準(zhǔn)差為零,整個(gè)公式就失效了。
RL-ZVP的解決方案是為零方差提示設(shè)計(jì)專門(mén)的優(yōu)勢(shì)值公式。對(duì)于所有答案都正確的情況,優(yōu)勢(shì)值設(shè)為正值,大小等于該詞匯的熵值乘以一個(gè)縮放因子α。對(duì)于所有答案都錯(cuò)誤的情況,優(yōu)勢(shì)值設(shè)為負(fù)值,但大小不是簡(jiǎn)單的熵值,而是用最大熵值減去當(dāng)前詞匯的熵值,然后取負(fù)號(hào)。
這種設(shè)計(jì)體現(xiàn)了研究團(tuán)隊(duì)的深層思考。對(duì)于正確答案,熵值越高的詞匯(即越重要的推理節(jié)點(diǎn))得到越多鼓勵(lì),這有助于AI在關(guān)鍵決策點(diǎn)形成正確的偏好。對(duì)于錯(cuò)誤答案,熵值越高的詞匯得到相對(duì)較輕的懲罰,這保護(hù)了AI在重要決策點(diǎn)的探索能力,避免過(guò)度保守。
縮放因子α的選擇也經(jīng)過(guò)了精心調(diào)試。研究團(tuán)隊(duì)發(fā)現(xiàn),α=0.1到α=0.2之間效果最好。太小的α會(huì)讓學(xué)習(xí)信號(hào)過(guò)弱,太大的α會(huì)導(dǎo)致訓(xùn)練不穩(wěn)定。這個(gè)參數(shù)就像調(diào)味料的用量,需要恰到好處才能達(dá)到最佳效果。
為了確保數(shù)值計(jì)算的穩(wěn)定性,研究團(tuán)隊(duì)還在實(shí)現(xiàn)中采用了一些技術(shù)技巧。比如,他們將熵值從計(jì)算圖中分離出來(lái),確保它只作為標(biāo)量因子參與計(jì)算,而不會(huì)產(chǎn)生額外的梯度。這種處理方式既保證了優(yōu)勢(shì)值的正確計(jì)算,又避免了訓(xùn)練過(guò)程中的數(shù)值問(wèn)題。
六、廣泛影響:重新定義AI訓(xùn)練范式
這項(xiàng)研究的意義遠(yuǎn)不止于提升數(shù)學(xué)推理能力。它從根本上挑戰(zhàn)了AI訓(xùn)練領(lǐng)域的一個(gè)基本假設(shè):只有具有對(duì)比差異的數(shù)據(jù)才有學(xué)習(xí)價(jià)值。
RL-ZVP的成功證明,現(xiàn)有的AI訓(xùn)練方法可能浪費(fèi)了大量寶貴的學(xué)習(xí)機(jī)會(huì)。在各種AI應(yīng)用場(chǎng)景中,零方差或低方差的訓(xùn)練數(shù)據(jù)都很常見(jiàn)。比如在對(duì)話系統(tǒng)訓(xùn)練中,可能出現(xiàn)所有回復(fù)都被評(píng)為適當(dāng)或都被評(píng)為不當(dāng)?shù)那闆r;在代碼生成任務(wù)中,可能出現(xiàn)所有代碼都能運(yùn)行或都無(wú)法運(yùn)行的情況。
如果能將RL-ZVP的思路推廣到這些領(lǐng)域,可能會(huì)帶來(lái)普遍的性能提升。這就像發(fā)現(xiàn)了一種新的食物保存方法,不僅適用于一種食材,而且可能適用于各種不同類(lèi)型的食物。
從計(jì)算效率的角度看,RL-ZVP也具有重要價(jià)值。當(dāng)前AI訓(xùn)練的計(jì)算成本越來(lái)越高,任何能夠更充分利用訓(xùn)練數(shù)據(jù)的方法都具有經(jīng)濟(jì)意義。RL-ZVP不需要額外的計(jì)算資源,但能從相同的數(shù)據(jù)中提取更多學(xué)習(xí)信號(hào),這相當(dāng)于免費(fèi)提升了訓(xùn)練效率。
對(duì)AI安全和可靠性的影響也值得關(guān)注。RL-ZVP訓(xùn)練的模型表現(xiàn)出更穩(wěn)定的學(xué)習(xí)過(guò)程和更系統(tǒng)化的推理模式,這可能有助于提升AI系統(tǒng)的可預(yù)測(cè)性和可解釋性。當(dāng)AI能夠生成更詳細(xì)的推理過(guò)程時(shí),人類(lèi)就更容易理解和驗(yàn)證其決策邏輯。
七、實(shí)際應(yīng)用與案例展示
為了更直觀地展示RL-ZVP的效果,研究團(tuán)隊(duì)提供了一些具體的答案案例對(duì)比。這些案例清晰地展示了兩種訓(xùn)練方法產(chǎn)生的差異。
在一道關(guān)于星體視覺(jué)亮度的天體物理題目中,傳統(tǒng)GRPO訓(xùn)練的模型給出了一個(gè)相對(duì)簡(jiǎn)單直接的解答。它正確應(yīng)用了距離模數(shù)公式,但在計(jì)算過(guò)程中出現(xiàn)了錯(cuò)誤,最終得到了錯(cuò)誤答案87.95,而正確答案是20.39。
相比之下,RL-ZVP訓(xùn)練的模型展現(xiàn)出了完全不同的解題風(fēng)格。它首先重新整理了問(wèn)題陳述,詳細(xì)解釋了絕對(duì)星等和視星等的概念,然后系統(tǒng)地介紹了距離模數(shù)公式的原理。在計(jì)算過(guò)程中,它顯示出更強(qiáng)的數(shù)學(xué)處理能力,正確地進(jìn)行了單位轉(zhuǎn)換和對(duì)數(shù)計(jì)算,最終得到了正確答案20.39。
更重要的是,RL-ZVP模型的解答過(guò)程體現(xiàn)了典型的科學(xué)思維模式:理解概念、分析問(wèn)題、制定方案、執(zhí)行計(jì)算、驗(yàn)證結(jié)果。這種系統(tǒng)化的方法不僅提高了準(zhǔn)確率,也讓答案更具教育價(jià)值。
在另一道關(guān)于幾何優(yōu)化的AIME難題中,兩種方法的差異更加明顯。傳統(tǒng)GRPO模型試圖通過(guò)假設(shè)特殊情況來(lái)簡(jiǎn)化問(wèn)題,但這種方法導(dǎo)致了錯(cuò)誤的假設(shè)和計(jì)算錯(cuò)誤。而RL-ZVP模型采用了更加嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)方法,通過(guò)拉格朗日乘數(shù)法建立優(yōu)化問(wèn)題,系統(tǒng)地求解約束條件下的最值問(wèn)題,最終得到了正確答案。
這些案例表明,RL-ZVP不僅提升了AI的計(jì)算準(zhǔn)確性,更重要的是提升了其推理的系統(tǒng)性和可靠性。這種改進(jìn)對(duì)于AI在教育、科研等需要嚴(yán)謹(jǐn)推理的領(lǐng)域的應(yīng)用具有重要意義。
研究團(tuán)隊(duì)還觀察到,RL-ZVP訓(xùn)練的模型在面對(duì)困難問(wèn)題時(shí)表現(xiàn)出更強(qiáng)的韌性。當(dāng)遇到復(fù)雜情況時(shí),傳統(tǒng)模型往往會(huì)"放棄"并給出簡(jiǎn)化的答案,而RL-ZVP模型會(huì)嘗試多種方法,展現(xiàn)出更強(qiáng)的問(wèn)題解決能力。
八、局限性與未來(lái)發(fā)展方向
盡管RL-ZVP取得了顯著成果,研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前方法的局限性。這種科學(xué)誠(chéng)實(shí)的態(tài)度反映了研究的嚴(yán)謹(jǐn)性。
首先是計(jì)算規(guī)模的限制。由于計(jì)算資源的約束,當(dāng)前的實(shí)驗(yàn)只覆蓋了最大80億參數(shù)的模型??紤]到現(xiàn)在最先進(jìn)的AI模型往往具有數(shù)千億甚至數(shù)萬(wàn)億參數(shù),RL-ZVP在超大規(guī)模模型上的效果還有待驗(yàn)證。不過(guò),從已有結(jié)果來(lái)看,RL-ZVP在大模型上的提升幅度比在小模型上更明顯,這暗示著它可能在超大模型上有更好的表現(xiàn)。
其次是應(yīng)用領(lǐng)域的限制。目前的驗(yàn)證主要集中在數(shù)學(xué)推理任務(wù)上,這類(lèi)任務(wù)有明確的對(duì)錯(cuò)標(biāo)準(zhǔn),便于評(píng)估效果。但現(xiàn)實(shí)中很多AI應(yīng)用場(chǎng)景——比如創(chuàng)意寫(xiě)作、對(duì)話生成、內(nèi)容推薦等——往往沒(méi)有標(biāo)準(zhǔn)答案,獎(jiǎng)勵(lì)信號(hào)更加模糊。RL-ZVP是否能在這些領(lǐng)域發(fā)揮同樣的作用,還需要進(jìn)一步研究。
第三個(gè)局限性涉及超參數(shù)的敏感性。研究發(fā)現(xiàn),縮放因子α的選擇對(duì)最終效果有顯著影響,需要針對(duì)不同的任務(wù)和模型進(jìn)行仔細(xì)調(diào)整。這增加了方法使用的復(fù)雜性,可能影響其在實(shí)際應(yīng)用中的推廣。
針對(duì)這些局限性,研究團(tuán)隊(duì)提出了幾個(gè)有趣的未來(lái)研究方向。首先是開(kāi)發(fā)自適應(yīng)的縮放策略,讓α能夠根據(jù)訓(xùn)練進(jìn)度和任務(wù)特點(diǎn)自動(dòng)調(diào)整,而不需要人工設(shè)定。這就像發(fā)明自動(dòng)調(diào)溫的烤箱,能夠根據(jù)食物類(lèi)型自動(dòng)調(diào)節(jié)溫度。
另一個(gè)方向是將RL-ZVP的思路擴(kuò)展到其他類(lèi)型的學(xué)習(xí)信號(hào)。研究團(tuán)隊(duì)認(rèn)為,除了熵值,還可能有其他token級(jí)別的特征能夠指導(dǎo)優(yōu)勢(shì)值的分配。比如,可以考慮詞匯的語(yǔ)義重要性、句法角色、或者與最終答案的相關(guān)程度。
最有趣的可能是將RL-ZVP與其他先進(jìn)訓(xùn)練技術(shù)結(jié)合。比如,可以考慮將其與最新的"思維鏈"推理技術(shù)結(jié)合,或者與多智能體訓(xùn)練方法結(jié)合,創(chuàng)造出更強(qiáng)大的訓(xùn)練范式。
九、理論貢獻(xiàn)與學(xué)術(shù)價(jià)值
從學(xué)術(shù)角度看,這項(xiàng)研究的理論貢獻(xiàn)超越了具體的技術(shù)改進(jìn)。它在強(qiáng)化學(xué)習(xí)理論中提出了一個(gè)新的問(wèn)題視角:如何從看似無(wú)信息的數(shù)據(jù)中提取學(xué)習(xí)信號(hào)。
傳統(tǒng)強(qiáng)化學(xué)習(xí)理論認(rèn)為,學(xué)習(xí)需要獎(jiǎng)勵(lì)信號(hào)的變化來(lái)驅(qū)動(dòng)策略調(diào)整。當(dāng)獎(jiǎng)勵(lì)信號(hào)恒定時(shí),常規(guī)的策略梯度方法會(huì)失效。RL-ZVP的成功挑戰(zhàn)了這個(gè)假設(shè),證明了即使在獎(jiǎng)勵(lì)恒定的情況下,通過(guò)引入合適的偏置(bias),仍然可以實(shí)現(xiàn)有效學(xué)習(xí)。
這種思路與機(jī)器學(xué)習(xí)中的"正則化"概念有某種相似性,但又有本質(zhì)不同。正則化通常是為了防止過(guò)擬合而添加的約束,而RL-ZVP的優(yōu)勢(shì)值設(shè)計(jì)是為了在信息不足的情況下創(chuàng)造學(xué)習(xí)機(jī)會(huì)。這可以看作是一種新型的"信息增強(qiáng)"技術(shù)。
從信息論的角度看,RL-ZVP的核心創(chuàng)新在于利用了token生成過(guò)程中的不確定性信息。這些不確定性信息在傳統(tǒng)方法中被忽略了,但實(shí)際上它們攜帶了關(guān)于模型內(nèi)部狀態(tài)和決策過(guò)程的重要信息。通過(guò)將這些信息納入訓(xùn)練目標(biāo),RL-ZVP實(shí)現(xiàn)了對(duì)訓(xùn)練數(shù)據(jù)信息價(jià)值的更充分挖掘。
這種思路可能對(duì)整個(gè)AI訓(xùn)練領(lǐng)域產(chǎn)生深遠(yuǎn)影響。它提示研究者們重新審視那些被認(rèn)為"沒(méi)有價(jià)值"的訓(xùn)練數(shù)據(jù),尋找其中可能被忽略的學(xué)習(xí)信號(hào)。這就像重新審視那些被認(rèn)為是"垃圾"的廢料,發(fā)現(xiàn)其中可能含有貴重金屬。
說(shuō)到底,這項(xiàng)研究最重要的貢獻(xiàn)可能在于改變了我們對(duì)AI學(xué)習(xí)過(guò)程的理解。它表明,AI的學(xué)習(xí)能力可能比我們想象的更強(qiáng),關(guān)鍵在于為它們?cè)O(shè)計(jì)合適的學(xué)習(xí)環(huán)境和反饋機(jī)制。就像一個(gè)好老師不僅要在學(xué)生表現(xiàn)有差異時(shí)給予指導(dǎo),也要在學(xué)生表現(xiàn)一致時(shí)給予適當(dāng)?shù)姆答?,幫助學(xué)生持續(xù)進(jìn)步。
RL-ZVP的成功也為AI訓(xùn)練的工程實(shí)踐提供了新的思路。它告訴我們,提升AI性能不一定需要更大的模型或更多的數(shù)據(jù),有時(shí)候更重要的是更聰明的訓(xùn)練方法。這種觀念的轉(zhuǎn)變可能會(huì)推動(dòng)AI研究從"暴力堆疊"向"精巧設(shè)計(jì)"的方向發(fā)展,這對(duì)于AI技術(shù)的可持續(xù)發(fā)展具有重要意義。
當(dāng)研究團(tuán)隊(duì)回顧這項(xiàng)工作時(shí),他們可能沒(méi)有想到,一個(gè)看似簡(jiǎn)單的觀察——零方差提示不應(yīng)該被浪費(fèi)——會(huì)引發(fā)如此深入的理論思考和實(shí)際改進(jìn)。這正體現(xiàn)了科學(xué)研究的魅力:有時(shí)候最大的突破來(lái)自于對(duì)常見(jiàn)現(xiàn)象的重新思考,而不是復(fù)雜技術(shù)的堆砌。隨著更多研究者開(kāi)始關(guān)注和發(fā)展這個(gè)方向,我們有理由期待看到更多令人驚喜的成果。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)arXiv:2509.21880v1查找完整論文。
Q&A
Q1:RL-ZVP方法具體是如何工作的?
A:RL-ZVP通過(guò)為零方差提示設(shè)計(jì)專門(mén)的優(yōu)勢(shì)值來(lái)工作。當(dāng)AI的所有答案都正確時(shí),它給予正向激勵(lì);都錯(cuò)誤時(shí)給予負(fù)向調(diào)整。關(guān)鍵創(chuàng)新是根據(jù)每個(gè)詞匯的熵值(不確定性程度)來(lái)調(diào)節(jié)激勵(lì)強(qiáng)度:重要的推理節(jié)點(diǎn)(高熵詞匯)會(huì)得到更多關(guān)注,而普通詞匯的權(quán)重較低。這樣AI就能從看似"無(wú)用"的一致性答案中學(xué)到東西。
Q2:這種方法相比傳統(tǒng)訓(xùn)練有多大提升?
A:實(shí)驗(yàn)結(jié)果顯示提升相當(dāng)顯著。在小模型上,RL-ZVP比傳統(tǒng)GRPO方法平均提升了2.84個(gè)準(zhǔn)確率點(diǎn);在大模型上提升了5.15個(gè)準(zhǔn)確率點(diǎn)。最突出的案例中,某些測(cè)試的準(zhǔn)確率提升高達(dá)8.61個(gè)點(diǎn)。更重要的是,即使與其他改進(jìn)方法相比,RL-ZVP在使用相同計(jì)算資源的情況下仍然表現(xiàn)更優(yōu)。
Q3:零方差提示問(wèn)題在實(shí)際AI訓(xùn)練中有多常見(jiàn)?
A:這個(gè)問(wèn)題比想象中更普遍。研究顯示,在AI訓(xùn)練過(guò)程中,零方差提示的比例可能在30%到99%之間變化。訓(xùn)練初期模型較弱時(shí),可能所有答案都錯(cuò)誤;訓(xùn)練后期模型變強(qiáng)時(shí),可能所有答案都正確。傳統(tǒng)方法會(huì)直接丟棄這些數(shù)據(jù),但RL-ZVP證明了這些看似"廢料"的數(shù)據(jù)實(shí)際上蘊(yùn)含著寶貴的學(xué)習(xí)價(jià)值。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。