av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 騰訊提出RLPT:讓AI像學生一樣自主探索,不再依賴人工標注的突破性訓練方法

騰訊提出RLPT:讓AI像學生一樣自主探索,不再依賴人工標注的突破性訓練方法

2025-10-14 12:08
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-14 12:08 ? 科技行者

這項由騰訊大語言模型部門的李思恒、李克嬌、許澤南等研究人員聯(lián)合香港中文大學林蔚等學者共同完成的研究發(fā)表于2025年9月。論文題為《Reinforcement Learning on Pre-Training Data》,有興趣深入了解的讀者可以通過arXiv:2509.19249v2查詢完整論文。這項研究首次提出了一種全新的AI訓練范式,讓大語言模型能夠像優(yōu)秀學生一樣自主探索和學習,而不再需要人工費力地給每個答案打分。

過去,訓練一個聰明的AI模型就像培養(yǎng)一個學生,需要老師不斷地批改作業(yè)、給出分數(shù)和反饋。然而隨著AI模型越來越大,需要的"作業(yè)"也越來越多,人工批改變得極其費時費力。騰訊的研究團隊提出了一個巧妙的解決方案:讓AI模型像自學成才的學生一樣,通過閱讀大量文獻資料來自己判斷答案的好壞,從而實現(xiàn)自主學習。

這種方法被稱為RLPT(Reinforcement Learning on Pre-Training data,在預訓練數(shù)據(jù)上的強化學習)。研究團隊設(shè)計了一種新穎的"下一段預測"任務(wù),讓AI模型預測文章的下一段內(nèi)容,然后用一個專門的評估模型來判斷預測內(nèi)容是否與真實內(nèi)容在語義上保持一致。這就像讓學生讀完一篇文章的前半部分,然后預測后半部分會寫什么,再用標準答案來驗證預測的準確性。

一、突破傳統(tǒng)限制的學習新思路

傳統(tǒng)的AI訓練方法面臨著兩個關(guān)鍵瓶頸,就像一個學生的成長受到兩方面制約一樣。首先是"老師資源有限"的問題,即高質(zhì)量的網(wǎng)絡(luò)文本數(shù)據(jù)越來越稀缺,而AI模型的胃口卻在不斷增長。研究表明,可用的高質(zhì)量數(shù)據(jù)增長速度遠遠趕不上計算資源的指數(shù)級擴張,這就像圖書館里的好書已經(jīng)被讀完了,但學生的求知欲卻越來越強烈。

其次是"批改作業(yè)成本過高"的問題?,F(xiàn)有的強化學習方法,無論是RLHF(人類反饋強化學習)還是RLVR(可驗證獎勵強化學習),都嚴重依賴人工標注。前者需要人類對AI的輸出進行優(yōu)劣評判,后者需要專家提供標準答案進行對比。這種方式就像每道題都需要老師親自批改,當學生數(shù)量急劇增加時,老師就忙不過來了。

RLPT的核心創(chuàng)新在于設(shè)計了一種"自我評估"機制。研究團隊將這個過程分為兩個互補的任務(wù):自回歸段落推理(ASR)和中間段落推理(MSR)。ASR任務(wù)要求模型根據(jù)前面的文本內(nèi)容預測下一個完整的句子或段落,這就像讀到一本偵探小說的中間部分,然后推測接下來會發(fā)生什么。MSR任務(wù)則更具挑戰(zhàn)性,它在文本中間留下空白,要求模型同時利用前后文信息來填補中間的缺失內(nèi)容,這類似于閱讀理解中的填空題,需要更深層次的語言理解能力。

在訓練過程中,研究團隊交替使用這兩種任務(wù)。ASR任務(wù)幫助模型保持和提升自然的文本生成能力,確保它能夠流暢地產(chǎn)生符合語言習慣的內(nèi)容。MSR任務(wù)則鍛煉模型的深度理解能力,讓它學會如何利用更廣泛的上下文信息進行推理。這種雙重訓練策略就像讓學生既練習寫作文(培養(yǎng)表達能力),又練習閱讀理解(培養(yǎng)理解能力),兩方面能力相互促進,共同提升。

為了評估模型預測內(nèi)容的質(zhì)量,研究團隊開發(fā)了一個專門的生成式獎勵模型。這個模型的作用類似于一位經(jīng)驗豐富的語文老師,它不會拘泥于用詞是否完全一致,而是判斷學生的答案在意思上是否與標準答案相符。例如,如果標準答案是"這種方法效果很好",而學生寫的是"這個技術(shù)表現(xiàn)出色",獎勵模型會認為兩者語義一致,給予正面評價。

二、巧妙的數(shù)據(jù)處理與訓練機制

RLPT的成功很大程度上依賴于精心設(shè)計的數(shù)據(jù)處理流程。研究團隊從互聯(lián)網(wǎng)上收集了來自維基百科、arXiv學術(shù)論文、英文網(wǎng)頁、論壇討論、知識分享社區(qū)、STEM領(lǐng)域資料等多種來源的文本數(shù)據(jù)。這些原始數(shù)據(jù)就像未經(jīng)篩選的圖書館藏書,既有價值連城的經(jīng)典著作,也有質(zhì)量參差不齊的通俗讀物。

為了確保訓練數(shù)據(jù)的質(zhì)量,研究團隊實施了一套嚴格的篩選和清理流程。首先使用MinHash算法進行近重復數(shù)據(jù)刪除,這就像去除圖書館中的重復書籍,避免學生反復閱讀相同內(nèi)容。接著檢測和屏蔽個人身份信息,保護隱私安全。然后針對所有開發(fā)和評估數(shù)據(jù)集進行污染檢測,確保測試的公平性,這類似于確保考試題目不會事先泄露給學生。

在基礎(chǔ)清理之后,研究團隊進一步實施了結(jié)合規(guī)則篩選和模型評估的雙重過濾機制。規(guī)則篩選階段會自動剔除明顯不適合用于語言模型訓練的內(nèi)容,比如格式混亂的文本、含有大量特殊符號的內(nèi)容等。模型篩選階段則使用經(jīng)過指令調(diào)優(yōu)的語言模型進行更精細的質(zhì)量評估,就像讓一位有經(jīng)驗的編輯來判斷哪些文章值得收錄到精選讀物中。

對于數(shù)學推理任務(wù),研究團隊還特別添加了從退火數(shù)據(jù)集中精選的高質(zhì)量問答數(shù)據(jù)。這些數(shù)據(jù)專門用于增強模型的數(shù)學推理能力,就像為學習數(shù)學的學生準備專門的習題集。這種有針對性的數(shù)據(jù)補充確保了模型在通用語言能力之外,還能在特定的專業(yè)領(lǐng)域表現(xiàn)出色。

訓練過程采用了精心調(diào)試的參數(shù)設(shè)置。在冷啟動的監(jiān)督微調(diào)階段,研究團隊使用1024的批次大小、2×10^-5的學習率配合余弦調(diào)度器,訓練3個周期。這個階段的目的是讓基礎(chǔ)模型具備基本的指令跟隨能力,為后續(xù)的強化學習做準備。在正式的下一段推理訓練階段,批次大小調(diào)整為512,最大響應(yīng)長度設(shè)為8192個詞符,學習率降低到1×10^-6并保持恒定。對于每個提示,模型會以1.0的溫度參數(shù)采樣8個輸出,然后使用GRPO算法進行優(yōu)化,且不加入KL正則化約束。

三、獎勵機制的精妙設(shè)計

RLPT的核心創(chuàng)新之一是其獎勵機制的設(shè)計。傳統(tǒng)的強化學習方法通常需要外部提供的獎勵信號,比如人類評分或與標準答案的精確匹配。然而RLPT設(shè)計了一種更加靈活和實用的自監(jiān)督獎勵機制。

這種獎勵機制的工作原理可以用閱卷老師的評分方式來類比。想象一位經(jīng)驗豐富的語文老師在批改學生的續(xù)寫作文。她不會要求學生的答案與標準答案一字不差,而是關(guān)注學生的續(xù)寫是否在邏輯上合理、在語義上連貫、在內(nèi)容上符合前文的發(fā)展脈絡(luò)。RLPT的生成式獎勵模型就扮演著這樣一位智慧老師的角色。

在實際應(yīng)用中,研究團隊發(fā)現(xiàn)直接將預測段落與單一的真實段落進行比較往往過于嚴格,因為模型可能生成跨越多個后續(xù)段落的內(nèi)容。為了解決這個問題,他們讓獎勵模型參考多個后續(xù)段落作為參考答案,并判斷預測內(nèi)容是否構(gòu)成參考內(nèi)容的有效前綴。這就像允許學生的答案可以比標準答案更詳細,只要核心意思正確且邏輯連貫即可。

獎勵模型的評判標準非常明確:如果預測文本在語義上與參考內(nèi)容的前綴匹配,就給予1分的獎勵;否則給予0分。這種二元獎勵機制雖然看似簡單,但實際上鼓勵了模型生成語義正確且邏輯連貫的內(nèi)容,而不僅僅是表面的文字匹配。

在研究過程中,團隊還發(fā)現(xiàn)了獎勵設(shè)計的重要性。他們最初采用了嚴格的獎勵標準,要求預測段落必須與真實段落傳達完全相同的語義內(nèi)容。然而這種過于苛刻的要求導致了大量誤判,因為句子級別的分割往往導致信息分布不均:有些句子可能只包含一個公式,而另一些句子可能包含完整的問題解答。這種不平衡破壞了訓練過程,只帶來了有限的性能提升。

經(jīng)過反復實驗和優(yōu)化,研究團隊最終采用了更加寬松的前綴獎勵機制。這種調(diào)整的效果立竿見影:模型的訓練獎勵穩(wěn)步上升,生成內(nèi)容的長度顯著增加,在數(shù)學推理任務(wù)上的表現(xiàn)也得到了明顯改善。這個發(fā)現(xiàn)強調(diào)了在設(shè)計強化學習系統(tǒng)時,獎勵機制的合理性比嚴格性更加重要。

四、令人矚目的實驗結(jié)果

研究團隊在多個模型和多種基準測試上驗證了RLPT的有效性,結(jié)果令人印象深刻。他們選擇了Llama3.2-3B-Base、Qwen3-4B-Base和Qwen3-8B-Base這三個不同規(guī)模的基礎(chǔ)模型進行實驗,涵蓋了從30億到80億參數(shù)的范圍,確保了結(jié)果的普遍適用性。

在通用領(lǐng)域的評估中,RLPT展現(xiàn)出了強大而一致的性能提升。以Qwen3-4B-Base模型為例,在MMLU(大規(guī)模多任務(wù)語言理解)基準測試中,RLPT帶來了3.0分的絕對提升;在更具挑戰(zhàn)性的MMLU-Pro測試中,提升幅度達到了5.1分;在GPQA-Diamond(研究生級別的科學問答)測試中,提升更是高達8.1分。這些提升幅度在AI研究領(lǐng)域被認為是相當顯著的,特別是考慮到這些基準測試的難度和競爭激烈程度。

更令人興奮的是RLPT在數(shù)學推理任務(wù)上的表現(xiàn)。在具有挑戰(zhàn)性的AIME24和AIME25(美國數(shù)學邀請賽)測試中,RLPT分別帶來了6.6分和5.3分的Pass@1指標提升。Pass@1指標衡量的是模型在單次嘗試中得出正確答案的概率,這種提升意味著模型的數(shù)學推理能力得到了實質(zhì)性增強。

特別值得關(guān)注的是RLPT的可擴展性表現(xiàn)。研究團隊發(fā)現(xiàn),隨著訓練計算量的增加,模型在各個基準測試上的性能呈現(xiàn)出清晰的冪律衰減趨勢。這種規(guī)律性的改進模式表明,投入更多的計算資源很可能帶來持續(xù)的性能提升,這為未來的大規(guī)模應(yīng)用提供了樂觀的前景。

在不同模型規(guī)模上的實驗結(jié)果也證實了RLPT的通用性。Llama3.2-3B-Base雖然是最小的模型,但在RLPT訓練后仍然獲得了顯著提升,特別是在MMLU-Pro和GPQA-Diamond測試中分別獲得了1.5分和11.6分的提升。Qwen3-8B-Base作為最大的測試模型,在所有基準測試中都表現(xiàn)出穩(wěn)定的改進,證明了RLPT對不同規(guī)模模型的有效性。

更加令人驚喜的是,RLPT不僅作為獨立方法有效,還能為后續(xù)的強化學習方法提供優(yōu)秀的基礎(chǔ)。當研究團隊將RLPT作為RLVR(可驗證獎勵強化學習)的初始化方法時,組合方法在數(shù)學推理任務(wù)上獲得了進一步的性能提升。在AIME24和AIME25測試中,RLPT+RLVR組合分別在Pass@1指標上額外獲得了2.3分和1.3分的提升,在Pass@8指標上額外獲得了3.7分和2.0分的提升。

五、深入分析與技術(shù)洞察

為了更好地理解RLPT的工作機制,研究團隊進行了深入的分析研究。他們特別關(guān)注了模型在解決問題時的思維過程,發(fā)現(xiàn)RLPT訓練后的模型展現(xiàn)出了更加結(jié)構(gòu)化和系統(tǒng)性的推理模式。

通過分析模型生成的推理軌跡,研究人員發(fā)現(xiàn)RLPT教會了模型采用類似人類專家的問題解決策略。當面對復雜問題時,模型會首先抽象和總結(jié)前面的上下文內(nèi)容,理解問題的整體脈絡(luò)。然后,它會明確識別下一步需要完成的任務(wù),制定解決方案的候選方法。接下來,模型會對候選方案進行可行性驗證,探索可能的替代方案,在必要時進行回溯和調(diào)整,最終產(chǎn)生經(jīng)過深思熟慮的答案。

這種結(jié)構(gòu)化的推理過程體現(xiàn)了RLPT的一個重要優(yōu)勢:它不僅提升了模型的準確性,還改善了推理的透明度和可解釋性。模型生成的中間推理步驟讓人們能夠跟蹤其思維過程,理解答案是如何得出的,這對于需要高可信度的應(yīng)用場景具有重要價值。

研究團隊還對比了嚴格獎勵和前綴獎勵兩種不同機制的效果。實驗結(jié)果清楚地顯示,前綴獎勵機制在多個方面都優(yōu)于嚴格獎勵。使用前綴獎勵的模型在訓練過程中獲得了更穩(wěn)定的獎勵信號,生成的回答長度更加合理,在驗證集上的性能也顯著更好。這個發(fā)現(xiàn)為設(shè)計更有效的自監(jiān)督強化學習系統(tǒng)提供了重要指導。

特別值得注意的是RLPT對模型探索能力的影響。傳統(tǒng)的擔憂是強化學習可能會限制模型的創(chuàng)造性,使其過度拘泥于高獎勵的回答模式。然而實驗結(jié)果顯示,RLPT實際上增強了模型的探索能力。在Pass@8指標(衡量8次嘗試中至少一次成功的概率)上的顯著提升表明,RLPT訓練后的模型能夠生成更多樣化的有效解決方案,而不是簡單地重復相同的回答模式。

六、技術(shù)創(chuàng)新的深層意義

RLPT的成功不僅在于其具體的性能提升,更在于它代表了AI訓練范式的一次重要轉(zhuǎn)變。這種轉(zhuǎn)變可以從多個角度來理解其深遠意義。

從技術(shù)發(fā)展的角度來看,RLPT打破了強化學習在語言模型訓練中對人工標注的依賴。這種突破具有革命性意義,因為它解決了制約大規(guī)模強化學習應(yīng)用的主要瓶頸。過去,高質(zhì)量的人工標注數(shù)據(jù)既昂貴又稀缺,嚴重限制了強化學習方法的擴展性。RLPT通過巧妙的自監(jiān)督設(shè)計,讓模型能夠從原本的預訓練數(shù)據(jù)中自主學習,這就像發(fā)現(xiàn)了一座此前未被充分利用的寶藏。

從學習理論的角度來看,RLPT體現(xiàn)了一種更接近人類學習方式的訓練方法。人類在閱讀和學習時,往往會在腦海中預測接下來可能出現(xiàn)的內(nèi)容,然后通過實際內(nèi)容來驗證和調(diào)整自己的理解。RLPT的下一段預測任務(wù)本質(zhì)上模擬了這種自然的學習過程,讓AI模型能夠通過預測和驗證的循環(huán)來不斷改進自己的語言理解和生成能力。

這種方法還體現(xiàn)了強化學習相對于傳統(tǒng)監(jiān)督學習的獨特優(yōu)勢。監(jiān)督學習往往促進表面層次的模式記憶,而強化學習通過探索和試錯的過程更容易培養(yǎng)深層次的推理能力。RLPT的成功證明了在語言模型訓練中,給予模型自主探索的空間比簡單的模式匹配更加有效。

從實用性的角度來看,RLPT的可擴展性為未來的大規(guī)模AI系統(tǒng)開發(fā)提供了新的可能性。隨著計算資源的不斷增長,傳統(tǒng)的數(shù)據(jù)依賴方法面臨著數(shù)據(jù)瓶頸的限制。RLPT證明了即使在高質(zhì)量標注數(shù)據(jù)有限的情況下,仍然可以通過更聰明的訓練方法來實現(xiàn)模型能力的持續(xù)提升。

七、廣闊的應(yīng)用前景與影響

RLPT的成功為人工智能的實際應(yīng)用開辟了新的可能性。在教育領(lǐng)域,基于RLPT訓練的模型可以成為更加智能的學習助手,能夠根據(jù)學生的問題提供更準確、更有邏輯性的解答。特別是在數(shù)學和科學教育中,模型增強的推理能力可以幫助學生更好地理解復雜概念,提供步驟清晰的解題指導。

在內(nèi)容創(chuàng)作領(lǐng)域,RLPT訓練的模型表現(xiàn)出的更強邏輯連貫性和預測能力,可以協(xié)助作者創(chuàng)作更高質(zhì)量的文章、報告和創(chuàng)意內(nèi)容。模型能夠更好地理解上下文,生成符合邏輯發(fā)展的后續(xù)內(nèi)容,這對于長文本創(chuàng)作特別有價值。

在科研和分析領(lǐng)域,RLPT的強化推理能力可以幫助研究人員處理復雜的數(shù)據(jù)分析任務(wù),提供更準確的趨勢預測和模式識別。特別是在需要處理大量文獻資料的研究中,模型能夠更好地理解和總結(jié)文獻內(nèi)容,為研究人員提供有價值的洞察。

企業(yè)應(yīng)用方面,RLPT可以改善客戶服務(wù)系統(tǒng)的質(zhì)量。訓練后的模型能夠更好地理解客戶問題的上下文,提供更準確和有幫助的回答。在技術(shù)支持、產(chǎn)品咨詢等場景中,這種改進的理解能力可以顯著提升用戶體驗。

更重要的是,RLPT的技術(shù)路徑為整個AI行業(yè)提供了新的發(fā)展方向。它證明了在數(shù)據(jù)資源日益稀缺的環(huán)境下,通過創(chuàng)新的訓練方法仍然可以實現(xiàn)AI能力的顯著提升。這種方法論上的突破可能激發(fā)更多類似的創(chuàng)新研究,推動整個領(lǐng)域向更可持續(xù)、更高效的發(fā)展方向邁進。

說到底,騰訊研究團隊的這項工作不僅僅是一個技術(shù)改進,而是對AI訓練方法的根本性重新思考。他們證明了AI模型可以像優(yōu)秀的學生一樣,通過自主閱讀和思考來不斷提升自己的能力,而不需要老師時刻在旁邊指導和打分。這種突破為構(gòu)建更智能、更自主的AI系統(tǒng)提供了重要啟發(fā),也為解決當前AI發(fā)展面臨的數(shù)據(jù)和標注瓶頸提供了有效方案。

隨著這項技術(shù)的進一步發(fā)展和應(yīng)用,我們有理由期待看到更多能夠自主學習和持續(xù)改進的AI系統(tǒng)。這些系統(tǒng)不僅在性能上更加出色,在應(yīng)用部署上也更加靈活和經(jīng)濟高效。對于普通用戶而言,這意味著未來的AI助手將更加智能、更加可靠,能夠在各個領(lǐng)域為人類提供更高質(zhì)量的幫助和支持。

Q&A

Q1:RLPT是什么技術(shù)?它和傳統(tǒng)的AI訓練方法有什么不同?

A:RLPT是騰訊提出的"在預訓練數(shù)據(jù)上的強化學習"技術(shù)。與傳統(tǒng)方法最大的不同是,它讓AI模型像學生自學一樣,通過預測文章下一段內(nèi)容來自主學習,而不需要人工給每個答案打分標注。傳統(tǒng)方法需要大量人工標注數(shù)據(jù),成本高且難以擴展,而RLPT直接從現(xiàn)有的文本數(shù)據(jù)中學習,大大降低了對人工標注的依賴。

Q2:RLPT訓練的AI模型在哪些方面表現(xiàn)更好?

A:RLPT訓練的模型在多個方面都有顯著提升。在通用知識理解方面,比如MMLU、GPQA等測試中提升了3-8分不等;在數(shù)學推理能力上尤其突出,在AIME數(shù)學競賽題目中提升了5-6分。更重要的是,模型的推理過程變得更有邏輯性和結(jié)構(gòu)化,能夠像人類專家一樣分步驟思考問題,而且還能為后續(xù)的其他訓練方法提供更好的基礎(chǔ)。

Q3:普通用戶什么時候能用上基于RLPT技術(shù)的AI產(chǎn)品?

A:由于RLPT是由騰訊團隊開發(fā)的最新研究成果,目前還處于學術(shù)研究階段。不過考慮到騰訊在AI產(chǎn)品方面的積極布局,預計這項技術(shù)會逐步集成到騰訊的各種AI產(chǎn)品和服務(wù)中。用戶可能會在騰訊的智能助手、內(nèi)容創(chuàng)作工具、教育產(chǎn)品等應(yīng)用中體驗到這種更智能的AI能力,具體時間表需要等待騰訊的產(chǎn)品發(fā)布計劃。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-