創(chuàng)新無需驗證,讓AI自主學(xué)習(xí)思考
最近,一支來自英國倫敦國王學(xué)院和阿蘭圖靈研究所的研究團隊發(fā)表了一項突破性的研究成果。這項由Wei Liu、Siya Qi、Xinyu Wang、Chen Qian、Yali Du和Yulan He領(lǐng)導(dǎo)的研究,題為《NOVER: 通過無驗證器強化學(xué)習(xí)實現(xiàn)語言模型的激勵訓(xùn)練》,于2025年5月21日發(fā)表在arXiv預(yù)印本平臺(arXiv:2505.16022v1)。這項研究為大型語言模型(LLM)的訓(xùn)練提供了一種全新的范式,使模型能夠在沒有外部驗證器的情況下自主發(fā)展推理能力。
一、研究背景:為什么我們需要無驗證器的激勵訓(xùn)練?
想象一下,你正在教一個孩子解決數(shù)學(xué)問題。傳統(tǒng)的方法是讓孩子直接給出答案,然后你檢查答案是否正確。但更好的教學(xué)方式是鼓勵孩子展示解題過程,這樣即使答案錯了,你也能看出問題出在哪里并給予指導(dǎo)。
在人工智能領(lǐng)域,近期出現(xiàn)了一種稱為"激勵訓(xùn)練"(incentive training)的方法,它就像這種更好的教學(xué)方式。以DeepSeek R1-Zero為代表的研究表明,只需要根據(jù)最終答案的正確性來計算獎勵,就能鼓勵A(yù)I模型自發(fā)地生成中間推理步驟,這大大提升了模型的推理能力。
然而,這種方法存在一個關(guān)鍵限制:它依賴外部驗證器來判斷模型輸出的正確性。就像需要一位精通各科目的老師來判斷學(xué)生答案是否正確。這種驗證器在數(shù)學(xué)和編程等領(lǐng)域容易實現(xiàn),因為有明確的對錯標準,但在社會行為分析、創(chuàng)意寫作等需要上下文理解和主觀判斷的領(lǐng)域就難以構(gòu)建了。
雖然可以訓(xùn)練專門的獎勵模型(reward models)作為驗證器,但這需要大量高質(zhì)量的標注數(shù)據(jù),成本高昂且應(yīng)用有限。這就像需要先培訓(xùn)一批專業(yè)老師才能評判學(xué)生的表現(xiàn),非常不經(jīng)濟。
二、NOVER方法:無需驗證器的激勵學(xué)習(xí)新范式
研究團隊提出的NOVER(NO-VERifier Reinforcement Learning,無驗證器強化學(xué)習(xí))方法巧妙地解決了這一難題。簡單來說,NOVER不再依賴外部驗證器,而是利用模型自身能力和已有的監(jiān)督數(shù)據(jù)來構(gòu)建獎勵信號。
想象一下,現(xiàn)在不需要專業(yè)老師來評判學(xué)生的解題過程,而是給學(xué)生一本有標準答案的習(xí)題集。學(xué)生可以自己比較自己的答案與標準答案,從而判斷自己的解題思路是否正確。這正是NOVER的核心思想。
具體來說,NOVER的工作原理是這樣的:
首先,研究人員利用模型自身作為"代理模型"(proxy model)。當模型生成一段推理過程后,系統(tǒng)會計算:基于這段推理過程,生成正確答案的困難程度(即"推理困惑度",reasoning perplexity)。如果一段推理過程能夠自然地引導(dǎo)出正確答案,那么它的推理困惑度就會較低;反之則較高。
這就像衡量一條道路通往目的地的直接程度:如果道路平坦直接,那么到達目的地就容易;如果道路崎嶇曲折,那么到達目的地就困難。推理困惑度越低,說明推理過程越好。
此外,為了防止模型生成冗長但低效的推理過程,研究人員還設(shè)計了"效率獎勵"(efficiency reward),鼓勵模型生成簡潔有效的推理。就像在解題中,我們不僅希望答案正確,還希望解題步驟簡潔明了。
NOVER的另一個重要設(shè)計是"策略-代理同步"(policy-proxy synchronization)機制。由于策略模型(生成答案的模型)和代理模型(評估推理質(zhì)量的模型)本質(zhì)上是同一個模型,隨著訓(xùn)練的進行,兩者需要定期同步,以確保評估標準與生成能力保持一致。這就像學(xué)生在學(xué)習(xí)過程中不斷更新自己的評判標準,以適應(yīng)自己不斷提高的能力。
三、實驗設(shè)置:如何驗證NOVER的有效性?
為了驗證NOVER的有效性,研究人員在多種類型的任務(wù)上進行了廣泛的實驗。這些任務(wù)涵蓋了四個主要領(lǐng)域:
一是一般推理任務(wù),包括自然推理(Natural Reasoning)、通用思維(General Thought)和網(wǎng)頁指令(WebInstruct)等數(shù)據(jù)集,這些任務(wù)要求模型生成基于事實的答案,往往涉及多步推理和論證。
二是創(chuàng)意寫作任務(wù),使用SS-GEN數(shù)據(jù)集,這要求模型生成連貫、有社會主題的故事。
三是社會智能任務(wù),使用EmoBench和ToMBench數(shù)據(jù)集,測試模型在情感識別、社會行為預(yù)測和心智理論推理方面的能力。
四是多語言能力任務(wù),使用OPUS圖書語料庫,包含16種語言和64種語言對的翻譯任務(wù)。
研究團隊使用了Qwen 2.5模型的3B和7B版本作為基礎(chǔ)模型,并與多種基線方法進行了比較:原始模型輸出、思維鏈(CoT)提示、監(jiān)督微調(diào)(SFT)以及作為參考的大型推理模型DeepSeek R1 671B蒸餾版本。
在訓(xùn)練過程中,研究人員使用了LoRA適配器進行高效微調(diào),最大生成長度根據(jù)任務(wù)設(shè)置為512至2048個token不等。訓(xùn)練步數(shù)最多5000步,但會在驗證獎勵(特別是標簽格式獎勵)不再提高時提前停止。
四、實驗結(jié)果:NOVER的表現(xiàn)如何?
實驗結(jié)果令人印象深刻。在所有類型的任務(wù)上,NOVER都一致地優(yōu)于所有基線方法。
最引人注目的是,NOVER使3B模型在General Thoughts數(shù)據(jù)集上達到了近60%的準確率,接近從671B教師模型蒸餾而來的R1-Distill-Qwen-7B模型的性能。這就像一個小學(xué)生經(jīng)過特殊訓(xùn)練后,能夠解決接近大學(xué)生水平的問題。
在情感和社會智能等預(yù)訓(xùn)練數(shù)據(jù)較少的領(lǐng)域,NOVER的改進尤為明顯。例如,在EmoBench和OPUS等數(shù)據(jù)集上,直接的思維鏈提示可能會降低準確率,而NOVER則能有效提升模型性能。
研究人員的手動檢查發(fā)現(xiàn),基礎(chǔ)模型雖然能夠生成結(jié)構(gòu)良好、流暢的思維鏈,但這些推理過程容易出現(xiàn)幻覺(hallucination)——模型看似自信地進行推理,但實際上包含錯誤或不相關(guān)的信息。相比之下,NOVER能有效糾正這種幻覺推理過程。
另一個有趣的發(fā)現(xiàn)是,監(jiān)督微調(diào)(SFT)有時甚至不如基礎(chǔ)模型,因為它鼓勵模型直接將問題映射到答案,而不經(jīng)過明確的推理過程。相反,思維鏈、NOVER甚至基礎(chǔ)模型都能生成有助于回答問題的中間推理步驟。
五、深入分析:NOVER在何時何地最有效?
研究人員對NOVER在一般推理領(lǐng)域的表現(xiàn)進行了細致分析,發(fā)現(xiàn)了幾個有趣的模式:
在問題格式方面,多項選擇題的準確率始終高于開放式問答。這主要是因為候選選項的存在有效減少了強化學(xué)習(xí)優(yōu)化過程中的搜索空間,降低了任務(wù)難度。
在問題類型方面,模型在具有明確解決方向的問題(如"查找"、"確定"和"分類")上表現(xiàn)更好,因為相應(yīng)的推理鏈更容易在訓(xùn)練中被采樣和強化。相比之下,對于要求更靈活、對推理過程約束較少的問題(如"分析"),模型的表現(xiàn)相對較弱。
從長度的角度看,對于問題、參考答案和生成答案,較短的輸入或輸出通常會導(dǎo)致更高的準確率。而對于模型生成的推理過程,準確率在60到240個token的范圍內(nèi)保持相對穩(wěn)定。這表明NOVER有效地激勵模型根據(jù)每個問題的難度自適應(yīng)地生成適當長度的推理過程。
研究人員還在FANToM(一個心智理論數(shù)據(jù)集)上進行了假設(shè)前提任務(wù)的實驗,發(fā)現(xiàn)NOVER在處理反直覺任務(wù)時可能不如SFT。這類任務(wù)涉及識別問題中的假設(shè)前提(如詢問一個角色對某個他們不知道的話題的看法)。SFT能夠從訓(xùn)練數(shù)據(jù)中記憶這種拒絕模式,而NOVER依賴預(yù)訓(xùn)練模型首先生成正確答案,然后再強化。如果基礎(chǔ)模型難以識別假設(shè)前提,NOVER就會受到限制。
六、NOVER如何解決"代理詛咒"問題?
NOVER使用推理困惑度作為理想獎勵的代理,這在強化學(xué)習(xí)中是常見做法。然而,這引入了"代理詛咒"(curse of proxy)問題:不精確的獎勵可能導(dǎo)致獎勵駭?。╮eward hacking),即模型利用代理的缺陷而非真正提高性能。
研究人員對NOVER進行了消融實驗,跟蹤模型訓(xùn)練狀態(tài)。他們發(fā)現(xiàn),只使用標簽格式獎勵和推理獎勵會導(dǎo)致兩種失敗模式:推理爆炸(生成過長、混亂且格式錯誤的輸出)和推理崩潰(模型停止思考,只生成最少的推理標記)。這兩種失敗都源于代理與不斷演化的策略之間的不一致,導(dǎo)致獎勵駭取。
加入策略-代理同步可以大大緩解這一問題,盡管偶爾仍會出現(xiàn)爆炸。引入效率獎勵和條件獎勵組合可以實現(xiàn)部分自我恢復(fù),因為無效的完成會得到零獎勵,鼓勵重新采樣。然而,恢復(fù)是重復(fù)的,這導(dǎo)致訓(xùn)練效率低下。
完整的NOVER集成實現(xiàn)了穩(wěn)定的訓(xùn)練:模型保持"清醒",只在能夠改善結(jié)果時才優(yōu)化推理長度。同步進一步減少了代理偏差,支持穩(wěn)健的優(yōu)化。研究人員驗證了NOVER可以穩(wěn)定訓(xùn)練超過200,000步而不出現(xiàn)推理爆炸或崩潰,同時保持高群組多樣性。
七、無驗證器與模型驗證器的比較
為了評估NOVER在難以驗證的推理任務(wù)上的表現(xiàn),研究人員將其與替代驗證器設(shè)計進行了比較:大語言模型作為評判者(LLM-as-a-judge)和一個微調(diào)的驗證器模型。實驗在WebInstruct上進行,該數(shù)據(jù)集包含一個官方的通用驗證器模型(GV)。
結(jié)果顯示,基于模型的驗證器非常不穩(wěn)定。使用寬松的提示會鼓勵獎勵駭取,模型生成模糊但表面上有效的輸出以獲得積極獎勵(例如,給出粗略的想法而非精確答案)。相反,嚴格的提示會產(chǎn)生稀疏獎勵和不穩(wěn)定的訓(xùn)練,導(dǎo)致3B模型訓(xùn)練失敗。
專用驗證器也被證明不可靠,經(jīng)常被策略模型誤導(dǎo)。例如,策略模型可能只勾勒出初始步驟并提示驗證器完成計算,導(dǎo)致驗證器放棄判斷而轉(zhuǎn)而解決任務(wù),然后分配不應(yīng)得的積極獎勵。
相比之下,NOVER不依賴這些不穩(wěn)定的驗證機制,表現(xiàn)出更穩(wěn)定、更有效的訓(xùn)練過程。
八、NOVER如何塑造推理模式?
研究人員還調(diào)查了NOVER訓(xùn)練過程中推理模式的演變。他們提取了模型在不同訓(xùn)練步驟(包括訓(xùn)練前的思維鏈提示輸出)生成的推理標記,并使用Gemini-2.0-flash將這些推理痕跡分類為幾種預(yù)定義的推理模式。
分析發(fā)現(xiàn),在訓(xùn)練前,模型主要使用思維鏈提示典型的任務(wù)分解。隨著訓(xùn)練的進行,在效率獎勵的影響下,模型學(xué)會了在能夠直接提供中間結(jié)論時跳過冗余的推理步驟,導(dǎo)致直接推理模式的比例顯著增加。同時,其他推理類型(如因果關(guān)系、枚舉、反思和假設(shè))開始出現(xiàn)并逐漸穩(wěn)定,反映了既有效又高效的推理的發(fā)展。
九、NOVER的創(chuàng)新應(yīng)用:反向激勵訓(xùn)練
研究團隊還探索了NOVER在創(chuàng)意設(shè)置中的靈活性,使用SS-GEN創(chuàng)意寫作數(shù)據(jù)集進行了有趣的實驗。與傳統(tǒng)設(shè)置不同,這個實驗采用了新的格式,模型在標簽內(nèi)生成故事,然后在標簽內(nèi)進行自我評估。
關(guān)鍵的是,訓(xùn)練數(shù)據(jù)省略了地面真實故事,只提供了基于量規(guī)的敘事標準。研究人員通過將這些量規(guī)作為自我評估的指導(dǎo)方針,而故事成為要激勵的中間過程,調(diào)整了NOVER,稱為NOVER_RUBRIC。這種方法顛倒了標準范式,實現(xiàn)了"過程即結(jié)果"的策略。
實證結(jié)果顯示,Qwen2.5-7B的準確率從50.79%(標準NOVER)提高到64.37%。為進一步驗證收益,研究人員抽樣了100個例子,讓人類注釋者表達對每個量規(guī)的每個故事的偏好。結(jié)果一致地支持量規(guī)訓(xùn)練的變體,突顯了NOVER在經(jīng)典推理任務(wù)之外的創(chuàng)意應(yīng)用的靈活性。
十、結(jié)論與展望
NOVER代表了語言模型訓(xùn)練的一個重要突破,它解決了激勵訓(xùn)練對外部驗證器的依賴問題,將這種強大的訓(xùn)練范式擴展到了更廣泛的文本到文本任務(wù)。
從本質(zhì)上講,NOVER教會了模型"如何釣魚",而不僅僅是"給它一條魚"。通過使用模型自身能力和已有的監(jiān)督數(shù)據(jù)構(gòu)建獎勵信號,NOVER實現(xiàn)了自我提升,無需昂貴的驗證器訓(xùn)練或復(fù)雜的規(guī)則設(shè)計。
實驗結(jié)果表明,NOVER在各種任務(wù)上都優(yōu)于基線方法,甚至使較小的模型接近從大型模型蒸餾的版本的表現(xiàn)。特別是在情感理解、社會智能和多語言能力等預(yù)訓(xùn)練數(shù)據(jù)較少的領(lǐng)域,NOVER的改進尤為明顯。
此外,NOVER的靈活性也使其能夠應(yīng)用于創(chuàng)意寫作等非傳統(tǒng)推理任務(wù),通過反向激勵訓(xùn)練實現(xiàn)更好的性能。
當然,NOVER也有其限制。研究表明,激勵訓(xùn)練要求基礎(chǔ)模型具備一定的微調(diào)能力,如部分思維鏈推理和指令遵循能力。此外,一般推理任務(wù)的自由形式格式要求比結(jié)構(gòu)化答案任務(wù)(如數(shù)學(xué)或編程)更強的基礎(chǔ)模型能力。
盡管如此,隨著預(yù)訓(xùn)練模型通過多階段預(yù)訓(xùn)練不斷加入大量思維鏈和指令數(shù)據(jù),NOVER未來有望適用于更多模型和更廣泛的任務(wù)。
這項研究不僅提供了一種新的訓(xùn)練范式,也為語言模型的推理能力提升開辟了新的方向。隨著技術(shù)的不斷發(fā)展,我們有理由期待語言模型在未來能夠具備更強大、更通用的推理能力,為各種領(lǐng)域帶來更多價值。
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。