這項(xiàng)由中國(guó)人民大學(xué)和字節(jié)跳動(dòng)種子實(shí)驗(yàn)室共同完成的研究發(fā)表于2025年8月,論文題目為《Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models》。該研究由陳志鵬、秦曉博、吳有斌、凌月、葉青昊、趙鑫、石光等研究人員共同完成。感興趣的讀者可以通過(guò)arXiv:2508.10751獲取完整論文。
當(dāng)我們訓(xùn)練人工智能模型解決復(fù)雜問(wèn)題時(shí),就像培養(yǎng)一個(gè)學(xué)生學(xué)習(xí)解題一樣。傳統(tǒng)的訓(xùn)練方法就好比只看學(xué)生的第一次答題結(jié)果,如果答對(duì)了就表?yè)P(yáng),答錯(cuò)了就批評(píng)。這種方法看似直接,但實(shí)際上存在一個(gè)嚴(yán)重問(wèn)題:學(xué)生可能會(huì)變得過(guò)于保守,只敢嘗試有把握的簡(jiǎn)單題目,不敢探索更有挑戰(zhàn)性的難題。
這種現(xiàn)象在人工智能領(lǐng)域被稱為"探索與利用"的平衡問(wèn)題。探索就像學(xué)生嘗試新的解題方法,雖然可能失敗但能學(xué)到新知識(shí);利用則像使用已經(jīng)掌握的方法去解決熟悉的問(wèn)題。傳統(tǒng)的訓(xùn)練方法過(guò)分偏向利用,導(dǎo)致AI模型容易陷入局部最優(yōu)解,就像學(xué)生只會(huì)做一類題目卻無(wú)法應(yīng)對(duì)變化。
研究團(tuán)隊(duì)觀察到,在評(píng)估AI模型能力時(shí),人們經(jīng)常使用一個(gè)叫做Pass@k的指標(biāo)。這個(gè)指標(biāo)的含義是:給AI模型k次機(jī)會(huì)來(lái)回答同一個(gè)問(wèn)題,只要其中一次答對(duì)就算成功。這就像給學(xué)生多次考試機(jī)會(huì),只要有一次考好就認(rèn)為他掌握了知識(shí)。這種評(píng)估方式鼓勵(lì)學(xué)生嘗試不同的解題思路,因?yàn)槎鄻踊膰L試能增加成功的概率。
基于這個(gè)洞察,研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新想法:既然Pass@k評(píng)估鼓勵(lì)多樣性,為什么不用它來(lái)訓(xùn)練模型呢?他們開(kāi)發(fā)了Pass@k訓(xùn)練方法,這就像改變?cè)u(píng)分規(guī)則,不再只看學(xué)生的第一次答案,而是給學(xué)生k次機(jī)會(huì),只要其中任何一次答對(duì)就給予獎(jiǎng)勵(lì)。
這種訓(xùn)練方法的核心理念可以用一個(gè)簡(jiǎn)單例子來(lái)理解。假設(shè)你在教一個(gè)學(xué)生解數(shù)學(xué)題,傳統(tǒng)方法是讓他只能提交一個(gè)答案,對(duì)錯(cuò)立判;而新方法是讓他可以提交多個(gè)不同的解答思路,只要其中一個(gè)正確就給予正面反饋。這樣學(xué)生就被鼓勵(lì)去探索多種可能性,而不是死守一種方法。
研究團(tuán)隊(duì)在實(shí)施這個(gè)想法時(shí)遇到了技術(shù)挑戰(zhàn)。最初的實(shí)現(xiàn)方法需要大量的計(jì)算資源,就像需要為每組學(xué)生配備很多老師來(lái)評(píng)改作業(yè)一樣。為了解決這個(gè)問(wèn)題,他們開(kāi)發(fā)了兩種改進(jìn)方案。
第一種改進(jìn)叫做"bootstrap采樣",就像從大量作業(yè)中隨機(jī)抽取一些來(lái)組成評(píng)分組,這樣可以減少工作量但保持評(píng)分的公正性。第二種改進(jìn)更加精妙,他們通過(guò)數(shù)學(xué)推導(dǎo)找到了一個(gè)解析解,就像發(fā)現(xiàn)了一個(gè)萬(wàn)能公式,可以直接計(jì)算出最優(yōu)的訓(xùn)練信號(hào),完全避免了復(fù)雜的隨機(jī)抽樣過(guò)程。
實(shí)驗(yàn)結(jié)果令人印象深刻。研究團(tuán)隊(duì)在多個(gè)任務(wù)上測(cè)試了他們的方法,包括迷宮尋路、數(shù)學(xué)推理、邏輯謎題等。結(jié)果顯示,使用Pass@k訓(xùn)練的模型不僅在Pass@k指標(biāo)上表現(xiàn)更好,令人驚喜的是,它們?cè)趥鹘y(tǒng)的Pass@1指標(biāo)上也獲得了提升。這就好比學(xué)生通過(guò)多樣化練習(xí)不僅提高了靈活性,連單次答題的準(zhǔn)確率也隨之增長(zhǎng)。
更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)經(jīng)過(guò)Pass@k訓(xùn)練的模型展現(xiàn)出了更強(qiáng)的探索能力。他們通過(guò)分析模型輸出的多樣性和策略分布的熵值發(fā)現(xiàn),這些模型在面對(duì)不確定的問(wèn)題時(shí)會(huì)產(chǎn)生更加多樣化的解答嘗試,而不是重復(fù)生成相似的答案。這種行為模式正是解決復(fù)雜問(wèn)題所需要的。
研究還揭示了一個(gè)深刻的認(rèn)識(shí):探索和利用并不是對(duì)立的關(guān)系,而是可以相互促進(jìn)的。Pass@k訓(xùn)練鼓勵(lì)模型探索多種解題路徑,這種探索經(jīng)驗(yàn)反過(guò)來(lái)提升了模型選擇最佳答案的能力。這就像學(xué)生通過(guò)嘗試多種解題方法,不僅擴(kuò)大了知識(shí)面,還提高了選擇最優(yōu)解法的判斷力。
在實(shí)際應(yīng)用中,研究團(tuán)隊(duì)展示了Pass@k訓(xùn)練的強(qiáng)大效果。經(jīng)過(guò)訓(xùn)練的70億參數(shù)模型在某些任務(wù)上的表現(xiàn)甚至超越了GPT-4o和Claude-3.7這樣的大型商業(yè)模型。這個(gè)結(jié)果特別令人振奮,因?yàn)樗砻魍ㄟ^(guò)改進(jìn)訓(xùn)練方法,相對(duì)較小的模型也能達(dá)到頂尖水平。
研究團(tuán)隊(duì)還進(jìn)行了深入的理論分析,探討了為什么Pass@k訓(xùn)練如此有效。他們發(fā)現(xiàn),傳統(tǒng)的Pass@1訓(xùn)練傾向于在中等難度的問(wèn)題上投入最多精力,而Pass@k訓(xùn)練更加關(guān)注困難問(wèn)題的解決。這種差異就像傳統(tǒng)教學(xué)方法讓學(xué)生重復(fù)練習(xí)已經(jīng)掌握的內(nèi)容,而新方法鼓勵(lì)學(xué)生挑戰(zhàn)更高難度的題目。
通過(guò)分析訓(xùn)練過(guò)程中的優(yōu)勢(shì)函數(shù)曲線,研究者發(fā)現(xiàn)Pass@k訓(xùn)練有兩個(gè)關(guān)鍵特征:首先,它將優(yōu)化重點(diǎn)放在了更困難的問(wèn)題上;其次,當(dāng)問(wèn)題變得容易時(shí),它會(huì)自動(dòng)減少優(yōu)化強(qiáng)度,避免過(guò)度擬合。這種自適應(yīng)的特性使得模型能夠持續(xù)學(xué)習(xí)而不會(huì)陷入局部最優(yōu)。
基于這些理論洞察,研究團(tuán)隊(duì)進(jìn)一步探索了"隱式獎(jiǎng)勵(lì)設(shè)計(jì)"的概念。他們意識(shí)到Pass@k訓(xùn)練本質(zhì)上是在直接設(shè)計(jì)優(yōu)勢(shì)函數(shù),這為未來(lái)的強(qiáng)化學(xué)習(xí)研究開(kāi)辟了新的方向。他們嘗試了幾種變體方法,比如"超越Pass@k訓(xùn)練"和"組合訓(xùn)練",這些方法在特定場(chǎng)景下展現(xiàn)出了更好的效果。
研究的泛化能力也得到了充分驗(yàn)證。無(wú)論是7B還是32B參數(shù)的模型,無(wú)論是稠密模型還是專家混合模型,無(wú)論是純文本任務(wù)還是多模態(tài)任務(wù),Pass@k訓(xùn)練都展現(xiàn)出了一致的改進(jìn)效果。這種廣泛的適用性表明該方法捕捉到了強(qiáng)化學(xué)習(xí)訓(xùn)練的某種本質(zhì)規(guī)律。
特別值得注意的是,研究團(tuán)隊(duì)發(fā)現(xiàn)Pass@k訓(xùn)練的收益可以有效轉(zhuǎn)移到Pass@1性能上。他們采用了一種"先Pass@k訓(xùn)練,再Pass@1訓(xùn)練"的兩階段策略,結(jié)果顯示這種組合方法能夠顯著提升模型的單次答題準(zhǔn)確率。這就像學(xué)生先通過(guò)多樣化練習(xí)開(kāi)闊思路,然后再通過(guò)精準(zhǔn)訓(xùn)練提高一次性答對(duì)的能力。
在魯棒性測(cè)試中,研究團(tuán)隊(duì)驗(yàn)證了方法對(duì)于不同k值的穩(wěn)定性。他們發(fā)現(xiàn),雖然更大的k值會(huì)帶來(lái)一定的訓(xùn)練效率下降,但這個(gè)問(wèn)題可以通過(guò)適當(dāng)調(diào)整學(xué)習(xí)率來(lái)解決。這種靈活性使得研究人員可以根據(jù)具體需求選擇合適的k值。
研究還將Pass@k訓(xùn)練與其他探索增強(qiáng)方法進(jìn)行了比較,包括噪聲獎(jiǎng)勵(lì)和熵正則化。結(jié)果表明,簡(jiǎn)單地向獎(jiǎng)勵(lì)中添加噪聲并不能有效改善探索,而熵正則化雖然有一定效果但容易引入不穩(wěn)定性。相比之下,Pass@k訓(xùn)練通過(guò)結(jié)構(gòu)化的方式鼓勵(lì)探索,既有效又穩(wěn)定。
從更廣闊的視角看,這項(xiàng)研究為人工智能的訓(xùn)練方法論貢獻(xiàn)了重要洞察。它表明,評(píng)估指標(biāo)和訓(xùn)練目標(biāo)之間的一致性對(duì)于獲得最佳性能至關(guān)重要。如果我們希望模型具備某種能力,最好的方法就是直接針對(duì)這種能力進(jìn)行訓(xùn)練,而不是依賴間接的代理目標(biāo)。
研究的實(shí)踐意義也很明顯。在當(dāng)前大語(yǔ)言模型競(jìng)爭(zhēng)激烈的環(huán)境下,如何用更少的資源訓(xùn)練出更強(qiáng)的模型是每個(gè)研究團(tuán)隊(duì)都關(guān)心的問(wèn)題。Pass@k訓(xùn)練提供了一個(gè)簡(jiǎn)單而有效的解決方案,它不需要復(fù)雜的架構(gòu)改進(jìn)或大量的額外數(shù)據(jù),僅僅通過(guò)改變訓(xùn)練策略就能獲得顯著提升。
說(shuō)到底,這項(xiàng)研究的核心價(jià)值在于重新思考了人工智能學(xué)習(xí)過(guò)程中探索與利用的關(guān)系。它告訴我們,鼓勵(lì)多樣性不僅不會(huì)損害性能,反而會(huì)促進(jìn)更深層次的理解和更強(qiáng)的問(wèn)題解決能力。這個(gè)理念不僅適用于人工智能,對(duì)人類教育也有借鑒意義。歸根結(jié)底,無(wú)論是訓(xùn)練AI還是教育人類,保持探索精神和學(xué)習(xí)熱情都是通往卓越的必由之路。這項(xiàng)研究為我們提供了一個(gè)簡(jiǎn)單而強(qiáng)大的工具,讓AI模型能夠更好地平衡探索新知識(shí)和運(yùn)用已有知識(shí)之間的關(guān)系,最終實(shí)現(xiàn)更智能、更全面的問(wèn)題解決能力。
Q&A
Q1:Pass@k訓(xùn)練方法的核心原理是什么?
A:Pass@k訓(xùn)練改變了傳統(tǒng)的評(píng)估方式,不再只看AI模型的第一次回答,而是給模型k次機(jī)會(huì)來(lái)回答同一個(gè)問(wèn)題,只要其中一次答對(duì)就給予獎(jiǎng)勵(lì)。這就像給學(xué)生多次考試機(jī)會(huì),鼓勵(lì)他們嘗試不同的解題思路,從而提高探索能力和問(wèn)題解決的多樣性。
Q2:這種訓(xùn)練方法會(huì)不會(huì)影響模型的準(zhǔn)確性?
A:實(shí)驗(yàn)結(jié)果顯示恰恰相反,Pass@k訓(xùn)練不僅提升了模型在Pass@k指標(biāo)上的表現(xiàn),還意外地改善了傳統(tǒng)Pass@1指標(biāo)的性能。這是因?yàn)槎鄻踊奶剿鬟^(guò)程反而提高了模型選擇最優(yōu)答案的能力,探索和利用實(shí)現(xiàn)了相互促進(jìn)。
Q3:Pass@k訓(xùn)練方法適用于哪些類型的AI模型?
A:研究驗(yàn)證了該方法具有廣泛的適用性,無(wú)論是7B還是32B參數(shù)的模型,無(wú)論是稠密模型還是專家混合模型,無(wú)論是處理純文本任務(wù)還是多模態(tài)任務(wù),Pass@k訓(xùn)練都展現(xiàn)出一致的改進(jìn)效果,表明它捕捉到了強(qiáng)化學(xué)習(xí)訓(xùn)練的本質(zhì)規(guī)律。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。