這項(xiàng)由中國科學(xué)院自動(dòng)化研究所的付宇倩、陳庭宏團(tuán)隊(duì)聯(lián)合美團(tuán)等機(jī)構(gòu)研究人員共同完成的研究發(fā)表于2025年6月24日,論文編號(hào)為arXiv:2506.19767v1。有興趣深入了解的讀者可以通過https://anonymous.4open.science/w/SRFT2025訪問項(xiàng)目網(wǎng)站,或在https://huggingface.co/Yuqian-Fu/SRFT下載相關(guān)模型。
在人工智能的世界里,讓機(jī)器學(xué)會(huì)解數(shù)學(xué)題一直是個(gè)令人頭疼的挑戰(zhàn)。就像培養(yǎng)一個(gè)學(xué)生一樣,傳統(tǒng)的方法要么是讓AI死記硬背標(biāo)準(zhǔn)答案(這就是所謂的監(jiān)督學(xué)習(xí)),要么是讓它自己摸索試錯(cuò)(這就是強(qiáng)化學(xué)習(xí))。但是,就像現(xiàn)實(shí)中的教育一樣,單純依靠其中任何一種方法都有明顯的局限性。
中科院的研究團(tuán)隊(duì)提出了一個(gè)頗有創(chuàng)意的解決方案,他們開發(fā)出一種名為SRFT(監(jiān)督強(qiáng)化微調(diào))的新方法。這種方法就像是給AI配備了一位既會(huì)傳授知識(shí)又會(huì)實(shí)戰(zhàn)指導(dǎo)的全能老師。當(dāng)AI在學(xué)習(xí)數(shù)學(xué)推理時(shí),這位"老師"會(huì)同時(shí)扮演兩個(gè)角色:一方面像傳統(tǒng)的課堂教師一樣展示標(biāo)準(zhǔn)解題步驟,另一方面又像體育教練一樣鼓勵(lì)A(yù)I自己嘗試和探索。
研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象。傳統(tǒng)的監(jiān)督學(xué)習(xí)就像是用大錘子敲核桃——雖然能把殼敲開,但往往用力過猛,把整個(gè)AI的"思維方式"都給敲得面目全非。而強(qiáng)化學(xué)習(xí)則像是用手術(shù)刀做精細(xì)操作,雖然精準(zhǔn),但有時(shí)候力道不夠,無法產(chǎn)生根本性的改變。
為了驗(yàn)證這個(gè)發(fā)現(xiàn),研究人員做了一個(gè)巧妙的實(shí)驗(yàn)。他們觀察了AI在學(xué)習(xí)過程中每個(gè)"詞匯"概率的變化,就像是用顯微鏡觀察細(xì)胞的變化一樣。結(jié)果發(fā)現(xiàn),監(jiān)督學(xué)習(xí)確實(shí)會(huì)大幅度改變AI對(duì)幾乎所有詞匯的使用傾向,而強(qiáng)化學(xué)習(xí)則只會(huì)微調(diào)少數(shù)關(guān)鍵詞匯的使用。
**一、發(fā)現(xiàn)AI學(xué)習(xí)的"熵"秘密**
在深入研究過程中,團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)關(guān)鍵指標(biāo)——熵。如果把AI的思維過程比作一鍋正在煮的湯,那么熵就像是湯的"混亂程度"。當(dāng)湯剛開始煮的時(shí)候,各種食材都在翻滾,非?;靵y,熵值很高。隨著烹飪過程的進(jìn)行,湯逐漸穩(wěn)定下來,熵值降低。
研究人員發(fā)現(xiàn),這個(gè)"熵"指標(biāo)就像是AI學(xué)習(xí)狀態(tài)的溫度計(jì)。當(dāng)AI剛開始學(xué)習(xí)時(shí),它的思維是混亂的,不確定的,熵值很高。隨著學(xué)習(xí)的深入,AI逐漸形成了穩(wěn)定的解題思路,熵值隨之降低。更重要的是,這個(gè)熵值的變化規(guī)律可以告訴研究人員什么時(shí)候該加強(qiáng)監(jiān)督學(xué)習(xí),什么時(shí)候該讓AI自己探索。
這就像是烹飪時(shí)需要掌握火候一樣。當(dāng)湯還很混亂的時(shí)候,需要大火快炒(加強(qiáng)監(jiān)督學(xué)習(xí));當(dāng)湯快要成型的時(shí)候,就要轉(zhuǎn)小火慢燉(讓AI自己探索)。研究團(tuán)隊(duì)基于這個(gè)發(fā)現(xiàn),設(shè)計(jì)了一套智能的權(quán)重調(diào)節(jié)機(jī)制,讓AI能夠在不同的學(xué)習(xí)階段接受不同強(qiáng)度的指導(dǎo)。
**二、SRFT方法的核心創(chuàng)新**
SRFT方法的核心思想可以用一個(gè)生動(dòng)的比喻來解釋。設(shè)想你正在學(xué)習(xí)彈鋼琴,傳統(tǒng)的教學(xué)方法要么是老師一遍遍地示范標(biāo)準(zhǔn)指法(監(jiān)督學(xué)習(xí)),要么是讓你自己摸索著彈奏(強(qiáng)化學(xué)習(xí))。而SRFT就像是一位智慧的鋼琴老師,他會(huì)在你需要示范的時(shí)候給出標(biāo)準(zhǔn)演示,在你需要自由發(fā)揮的時(shí)候鼓勵(lì)你創(chuàng)新,并且根據(jù)你當(dāng)前的學(xué)習(xí)狀態(tài)動(dòng)態(tài)調(diào)整教學(xué)策略。
具體來說,SRFT方法包含了四個(gè)關(guān)鍵組件。第一個(gè)組件負(fù)責(zé)從高質(zhì)量的示范解答中學(xué)習(xí),就像學(xué)生觀看老師的示范課一樣。第二個(gè)組件則讓AI參與到實(shí)際的解題過程中,通過與專家解答的對(duì)比來調(diào)整自己的思路。第三個(gè)組件專門處理AI自己生成的正確答案,鼓勵(lì)它繼續(xù)使用這些有效的解題策略。第四個(gè)組件則負(fù)責(zé)從錯(cuò)誤中學(xué)習(xí),讓AI明白哪些思路是行不通的。
這種設(shè)計(jì)的巧妙之處在于,它能夠同時(shí)發(fā)揮監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的優(yōu)勢,同時(shí)避免它們各自的缺點(diǎn)。監(jiān)督學(xué)習(xí)能夠快速傳授基礎(chǔ)知識(shí)和標(biāo)準(zhǔn)方法,強(qiáng)化學(xué)習(xí)則能夠培養(yǎng)AI的創(chuàng)新思維和適應(yīng)能力。通過熵值來動(dòng)態(tài)平衡這兩種學(xué)習(xí)方式,SRFT確保AI既不會(huì)變成只會(huì)背書的書呆子,也不會(huì)因?yàn)檫^度探索而迷失方向。
**三、令人印象深刻的實(shí)驗(yàn)結(jié)果**
為了驗(yàn)證SRFT方法的有效性,研究團(tuán)隊(duì)進(jìn)行了一系列嚴(yán)格的實(shí)驗(yàn)測試。他們選擇了五個(gè)具有挑戰(zhàn)性的數(shù)學(xué)競賽級(jí)別測試,包括美國數(shù)學(xué)邀請賽(AIME)、美國數(shù)學(xué)競賽(AMC)、數(shù)學(xué)奧林匹克競賽等。這些測試就像是AI界的"高考",題目難度很高,需要復(fù)雜的邏輯推理能力。
實(shí)驗(yàn)結(jié)果相當(dāng)令人鼓舞。使用SRFT方法訓(xùn)練的AI模型在這些測試中平均達(dá)到了59.1%的準(zhǔn)確率,比之前最好的方法提高了9個(gè)百分點(diǎn)。這個(gè)提升幅度在AI研究領(lǐng)域已經(jīng)算是相當(dāng)顯著的進(jìn)步了。更重要的是,這種提升不是通過簡單的"題海戰(zhàn)術(shù)"實(shí)現(xiàn)的,而是通過更智能的學(xué)習(xí)策略獲得的。
除了在數(shù)學(xué)推理方面的提升,研究團(tuán)隊(duì)還測試了模型的泛化能力,也就是處理它從未見過的問題類型的能力。他們選擇了三個(gè)完全不同領(lǐng)域的測試,包括科學(xué)推理、生物物理化學(xué)問題等。結(jié)果顯示,SRFT訓(xùn)練的模型在這些"課外題"上的表現(xiàn)也提升了10.9個(gè)百分點(diǎn),這說明這種方法不僅能讓AI做好數(shù)學(xué)題,還能提升它的整體思維能力。
**四、深入分析:為什么SRFT這么有效**
為了理解SRFT為什么如此有效,研究團(tuán)隊(duì)進(jìn)行了深入的分析。他們發(fā)現(xiàn),傳統(tǒng)的先監(jiān)督學(xué)習(xí)再強(qiáng)化學(xué)習(xí)的方法存在一個(gè)根本性問題:這兩個(gè)階段是割裂的,就像是先讓學(xué)生背完整本教科書,然后突然扔到考場上自己發(fā)揮一樣。
通過對(duì)AI學(xué)習(xí)過程的可視化分析,研究人員發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象。在傳統(tǒng)的兩階段訓(xùn)練中,AI在監(jiān)督學(xué)習(xí)階段會(huì)形成某種固定的思維模式,但在進(jìn)入強(qiáng)化學(xué)習(xí)階段時(shí),這種思維模式反而可能成為束縛。這就像是一個(gè)人先學(xué)會(huì)了標(biāo)準(zhǔn)的游泳姿勢,但在實(shí)際下水時(shí)卻發(fā)現(xiàn)標(biāo)準(zhǔn)姿勢并不適合所有的水域條件。
SRFT的單階段整合設(shè)計(jì)巧妙地解決了這個(gè)問題。通過同時(shí)進(jìn)行監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí),AI能夠在學(xué)習(xí)標(biāo)準(zhǔn)方法的同時(shí)保持思維的靈活性。這就像是在學(xué)習(xí)游泳時(shí),教練既會(huì)示范標(biāo)準(zhǔn)動(dòng)作,又會(huì)鼓勵(lì)學(xué)員根據(jù)實(shí)際情況調(diào)整姿勢,最終培養(yǎng)出既規(guī)范又靈活的游泳技能。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)更深層的機(jī)制。他們觀察到,在SRFT的訓(xùn)練過程中,AI的"思維熵"保持在一個(gè)相對(duì)穩(wěn)定的水平,既不會(huì)過于混亂(表明學(xué)習(xí)效率低下),也不會(huì)過于僵化(表明缺乏創(chuàng)新能力)。這種平衡狀態(tài)使得AI能夠持續(xù)有效地學(xué)習(xí)和改進(jìn)。
**五、技術(shù)實(shí)現(xiàn)的巧思**
SRFT方法在技術(shù)實(shí)現(xiàn)上有幾個(gè)值得關(guān)注的巧思。首先是熵感知的權(quán)重調(diào)節(jié)機(jī)制。這個(gè)機(jī)制就像是一個(gè)智能的調(diào)色師,能夠根據(jù)畫面的需要調(diào)配不同比例的顏色。當(dāng)AI的思維狀態(tài)比較混亂時(shí)(高熵狀態(tài)),系統(tǒng)會(huì)增加監(jiān)督學(xué)習(xí)的權(quán)重,提供更多的指導(dǎo);當(dāng)AI的思維趨于穩(wěn)定時(shí)(低熵狀態(tài)),系統(tǒng)會(huì)增加強(qiáng)化學(xué)習(xí)的權(quán)重,鼓勵(lì)更多的自主探索。
其次是離線策略學(xué)習(xí)的設(shè)計(jì)。傳統(tǒng)的強(qiáng)化學(xué)習(xí)往往需要AI在實(shí)時(shí)環(huán)境中不斷試錯(cuò),這個(gè)過程既耗時(shí)又低效。SRFT通過引入專家示范數(shù)據(jù),讓AI可以從高質(zhì)量的解題過程中學(xué)習(xí),就像是讓學(xué)生觀摩大師級(jí)選手的比賽錄像一樣,能夠快速掌握高級(jí)技巧。
第三個(gè)巧思是正負(fù)樣本的差異化處理。當(dāng)AI生成正確答案時(shí),系統(tǒng)會(huì)強(qiáng)化這種思維路徑;當(dāng)AI犯錯(cuò)時(shí),系統(tǒng)會(huì)明確指出錯(cuò)誤并引導(dǎo)正確方向。這種設(shè)計(jì)確保了AI能夠從成功和失敗中同時(shí)學(xué)習(xí),形成更加健全的問題解決能力。
**六、實(shí)際應(yīng)用的廣闊前景**
SRFT方法的意義遠(yuǎn)不止于讓AI更好地解數(shù)學(xué)題。從更廣闊的視角來看,這種方法為人工智能的訓(xùn)練提供了一個(gè)新的范式,那就是如何更有效地結(jié)合不同類型的學(xué)習(xí)信號(hào)。
在教育領(lǐng)域,這種方法可以用來開發(fā)更智能的個(gè)性化學(xué)習(xí)系統(tǒng)。系統(tǒng)可以根據(jù)學(xué)生的學(xué)習(xí)狀態(tài)動(dòng)態(tài)調(diào)整教學(xué)策略,既提供必要的知識(shí)傳授,又鼓勵(lì)學(xué)生的創(chuàng)新思維。在專業(yè)培訓(xùn)領(lǐng)域,比如醫(yī)生的診斷訓(xùn)練、律師的案例分析訓(xùn)練等,都可以借鑒這種同時(shí)結(jié)合示范學(xué)習(xí)和實(shí)踐探索的方法。
在更廣泛的AI應(yīng)用中,SRFT的思想也具有重要價(jià)值。無論是自然語言處理、計(jì)算機(jī)視覺,還是機(jī)器人控制,都面臨著如何平衡模仿學(xué)習(xí)和自主探索的問題。SRFT提供的熵感知?jiǎng)討B(tài)平衡機(jī)制可以為這些領(lǐng)域的技術(shù)發(fā)展提供新的思路。
**七、當(dāng)前限制與未來發(fā)展方向**
盡管SRFT方法取得了顯著成果,但研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前的一些限制。目前的熵動(dòng)態(tài)利用還相對(duì)簡單,主要依賴基礎(chǔ)的指數(shù)權(quán)重函數(shù)。研究人員認(rèn)為,訓(xùn)練過程中豐富的熵時(shí)間模式暗示著更復(fù)雜的熵控制機(jī)制的可能性,比如自適應(yīng)熵調(diào)度或多時(shí)間尺度熵分析等。
另一個(gè)限制是該方法目前假設(shè)能夠獲得高質(zhì)量的示范數(shù)據(jù)。在實(shí)際應(yīng)用中,并不是所有領(lǐng)域都有足夠多的專家示范可供學(xué)習(xí)。因此,如何在示范數(shù)據(jù)不完美的情況下仍能有效訓(xùn)練AI,是一個(gè)值得深入研究的問題。
研究團(tuán)隊(duì)還提到,雖然SRFT在數(shù)學(xué)推理方面表現(xiàn)出色,但其在其他認(rèn)知任務(wù)上的表現(xiàn)還需要進(jìn)一步驗(yàn)證。不同類型的任務(wù)可能需要不同的熵控制策略,這為未來的研究提供了廣闊空間。
從技術(shù)發(fā)展的角度來看,SRFT代表了AI訓(xùn)練方法從簡單模仿向智能整合的重要轉(zhuǎn)變。隨著計(jì)算能力的提升和算法的進(jìn)一步優(yōu)化,我們有理由期待這種方法能夠在更多領(lǐng)域發(fā)揮作用,為人工智能的發(fā)展開辟新的道路。
說到底,SRFT的成功在于它找到了一種更加自然和高效的AI學(xué)習(xí)方式。就像人類學(xué)習(xí)一樣,最好的教育往往是理論傳授與實(shí)踐探索的有機(jī)結(jié)合。通過讓AI同時(shí)接受"老師的指導(dǎo)"和"自己的思考",SRFT為我們展示了一種更加智能和靈活的AI訓(xùn)練范式。這不僅能讓AI在數(shù)學(xué)推理方面表現(xiàn)更好,更重要的是為未來開發(fā)出更加通用和強(qiáng)大的人工智能系統(tǒng)鋪平了道路。對(duì)于關(guān)心AI發(fā)展的讀者來說,SRFT的出現(xiàn)無疑是一個(gè)值得關(guān)注的重要進(jìn)展,它預(yù)示著AI可能正在向更加類人的學(xué)習(xí)方式邁進(jìn)。
Q&A
Q1:SRFT方法與傳統(tǒng)AI訓(xùn)練方法有什么不同? A:傳統(tǒng)方法要么讓AI死記硬背標(biāo)準(zhǔn)答案(監(jiān)督學(xué)習(xí)),要么讓它純粹自己摸索(強(qiáng)化學(xué)習(xí))。SRFT就像配備了全能老師,能同時(shí)進(jìn)行示范教學(xué)和實(shí)踐指導(dǎo),并根據(jù)AI的學(xué)習(xí)狀態(tài)智能調(diào)整教學(xué)策略,避免了單一方法的局限性。
Q2:為什么說熵是SRFT方法的關(guān)鍵? A:熵就像AI思維狀態(tài)的"溫度計(jì)",能反映AI學(xué)習(xí)的混亂程度。SRFT通過監(jiān)測熵值變化,智能判斷什么時(shí)候該加強(qiáng)示范教學(xué),什么時(shí)候該鼓勵(lì)自主探索,實(shí)現(xiàn)了兩種學(xué)習(xí)方式的完美平衡。
Q3:SRFT方法的實(shí)際效果如何? A:在數(shù)學(xué)競賽級(jí)測試中,SRFT讓AI的準(zhǔn)確率達(dá)到59.1%,比之前最好方法提升9個(gè)百分點(diǎn)。更重要的是,在完全陌生的問題類型上也提升了10.9%,說明這種方法不僅能讓AI做好數(shù)學(xué)題,還能提升整體思維能力。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。