這項(xiàng)由清華大學(xué)、新加坡國(guó)立大學(xué)、中科院自動(dòng)化所、中國(guó)人民大學(xué)以及Sea AI Lab的研究團(tuán)隊(duì)共同完成的重要研究,發(fā)表于2025年1月的arXiv預(yù)印本平臺(tái),論文編號(hào)為arXiv:2509.22637v1。研究團(tuán)隊(duì)的主要成員包括周翔心、劉子宸、王浩楠、杜超、林敏、李崇軒、王亮和龐天宇等知名學(xué)者,他們?cè)谌斯ぶ悄芡评碛?xùn)練領(lǐng)域取得了突破性進(jìn)展。
當(dāng)我們教AI模型進(jìn)行復(fù)雜推理時(shí),就像訓(xùn)練一個(gè)學(xué)生解數(shù)學(xué)題一樣。傳統(tǒng)的方法存在一個(gè)嚴(yán)重問(wèn)題:AI往往會(huì)偏愛(ài)簡(jiǎn)單的題目,而對(duì)困難題目敷衍了事。這就好比一個(gè)學(xué)生總是挑容易的作業(yè)做,遇到難題就草草應(yīng)付,這樣的學(xué)習(xí)方式顯然無(wú)法真正提升能力。
研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:現(xiàn)有的AI訓(xùn)練方法,無(wú)論是監(jiān)督學(xué)習(xí)還是強(qiáng)化學(xué)習(xí),都有一個(gè)共同的"毛病"——它們會(huì)自然而然地向簡(jiǎn)單問(wèn)題傾斜。這種傾斜就像天平失衡一樣,讓AI在面對(duì)復(fù)雜推理任務(wù)時(shí)表現(xiàn)不佳。更糟糕的是,這種偏見(jiàn)一直隱藏在算法深處,研究人員之前并沒(méi)有明確意識(shí)到它的存在。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)創(chuàng)造性地提出了一種"變分推理"框架。這個(gè)框架的核心思想是將AI的思考過(guò)程分為兩個(gè)部分:思維軌跡和最終答案。就像我們解決問(wèn)題時(shí),大腦會(huì)經(jīng)歷一個(gè)思考過(guò)程,然后得出結(jié)論一樣。他們將思維軌跡視為隱藏的變量,通過(guò)數(shù)學(xué)上的變分推理方法來(lái)優(yōu)化這個(gè)過(guò)程。
具體來(lái)說(shuō),他們的方法就像為AI設(shè)計(jì)了一個(gè)"思考教練"。這個(gè)教練不僅會(huì)觀察AI的最終答案是否正確,還會(huì)深入分析AI的思考過(guò)程是否合理。當(dāng)AI思考得越深入、越合理時(shí),教練就給予更多的鼓勵(lì)。這種訓(xùn)練方式確保AI不會(huì)只是簡(jiǎn)單地記住答案,而是真正學(xué)會(huì)了推理的方法。
研究團(tuán)隊(duì)在數(shù)學(xué)推理、編程和科學(xué)問(wèn)題等多個(gè)領(lǐng)域?qū)λ麄兊姆椒ㄟM(jìn)行了大規(guī)模測(cè)試。實(shí)驗(yàn)結(jié)果令人振奮:在MATH500數(shù)學(xué)競(jìng)賽題目中,他們的方法比現(xiàn)有最強(qiáng)基線提升了8.5%;在編程挑戰(zhàn)LiveCodeBench中提升了14%;甚至在需要研究生水平知識(shí)的GPQA-Diamond科學(xué)問(wèn)題中也有顯著改善。這些提升看似數(shù)字不大,但在AI領(lǐng)域,每一個(gè)百分點(diǎn)的提升都代表著算法質(zhì)量的飛躍。
更重要的是,研究團(tuán)隊(duì)還揭示了一個(gè)此前被忽視的現(xiàn)象:傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法,包括被廣泛使用的GRPO算法,實(shí)際上都存在隱性的"準(zhǔn)確率加權(quán)"機(jī)制。這種機(jī)制會(huì)讓AI模型自然地偏向于簡(jiǎn)單問(wèn)題,就像一個(gè)學(xué)生總是選擇做簡(jiǎn)單題目來(lái)獲得更高的正確率一樣。這個(gè)發(fā)現(xiàn)為整個(gè)AI訓(xùn)練領(lǐng)域提供了新的理論視角。
他們的變分推理框架不僅解決了偏見(jiàn)問(wèn)題,還提供了更穩(wěn)定的訓(xùn)練過(guò)程。傳統(tǒng)方法在訓(xùn)練過(guò)程中經(jīng)常出現(xiàn)震蕩和不穩(wěn)定現(xiàn)象,就像駕車(chē)時(shí)方向盤(pán)不停地左右搖擺。而新方法就像給汽車(chē)安裝了穩(wěn)定器,讓整個(gè)訓(xùn)練過(guò)程變得平穩(wěn)可控。
這項(xiàng)研究的理論貢獻(xiàn)同樣重要。研究團(tuán)隊(duì)從概率論和信息論的角度,為AI推理訓(xùn)練提供了堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)。他們證明了現(xiàn)有方法的局限性,并提出了更加principled(有原則的)的解決方案。這就像為一座建筑打下了更牢固的地基,為未來(lái)的研究發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。
在實(shí)際應(yīng)用方面,這項(xiàng)研究對(duì)AI助手的發(fā)展具有重要意義。當(dāng)前的AI助手在處理復(fù)雜問(wèn)題時(shí)經(jīng)常會(huì)給出淺層或錯(cuò)誤的答案,而這項(xiàng)研究提供的方法可以讓AI助手具備更深入的思考能力。未來(lái)的AI助手可能會(huì)像人類(lèi)專(zhuān)家一樣,能夠進(jìn)行深入的分析和推理,而不是簡(jiǎn)單地拼接訓(xùn)練數(shù)據(jù)中的片段。
研究團(tuán)隊(duì)還發(fā)現(xiàn),他們的方法在處理不同類(lèi)型問(wèn)題時(shí)表現(xiàn)出了很好的通用性。無(wú)論是需要邏輯推理的數(shù)學(xué)問(wèn)題,還是需要?jiǎng)?chuàng)造性思維的編程任務(wù),新方法都能夠有效提升AI的表現(xiàn)。這種通用性表明,他們找到了AI推理訓(xùn)練中的一個(gè)根本性改進(jìn)方向。
值得注意的是,這項(xiàng)研究還為AI安全領(lǐng)域提供了新的思路。當(dāng)AI具備更強(qiáng)的推理能力時(shí),我們需要確保它的推理過(guò)程是可理解和可控的。變分推理框架通過(guò)顯式建模思考過(guò)程,為AI的可解釋性提供了新的可能性。
從技術(shù)實(shí)現(xiàn)角度來(lái)看,研究團(tuán)隊(duì)設(shè)計(jì)了多種估計(jì)器來(lái)處理不同類(lèi)型的數(shù)據(jù)。他們發(fā)現(xiàn),基于準(zhǔn)確率的估計(jì)器在大多數(shù)情況下比基于似然的估計(jì)器表現(xiàn)更好,這個(gè)發(fā)現(xiàn)對(duì)實(shí)際應(yīng)用具有重要指導(dǎo)意義。他們還提出了幾何平均等技術(shù)細(xì)節(jié)來(lái)處理長(zhǎng)序列問(wèn)題,這些技術(shù)創(chuàng)新為其他研究者提供了寶貴的經(jīng)驗(yàn)。
實(shí)驗(yàn)設(shè)計(jì)方面,研究團(tuán)隊(duì)進(jìn)行了詳盡的對(duì)比研究和消融實(shí)驗(yàn)。他們不僅與當(dāng)前最強(qiáng)的基線方法進(jìn)行比較,還深入分析了每個(gè)組件的貢獻(xiàn)。這種嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)設(shè)計(jì)增強(qiáng)了研究結(jié)果的可信度,也為其他研究者提供了參考模板。
這項(xiàng)研究還揭示了一個(gè)有趣的現(xiàn)象:AI模型在生成答案時(shí)的思考長(zhǎng)度與問(wèn)題難度之間存在復(fù)雜的關(guān)系。簡(jiǎn)單問(wèn)題可能需要較短的思考,而復(fù)雜問(wèn)題則需要更長(zhǎng)的推理過(guò)程。新方法能夠自適應(yīng)地調(diào)整思考深度,這種能力接近于人類(lèi)專(zhuān)家的思維方式。
從計(jì)算效率角度看,雖然變分推理框架需要額外的計(jì)算資源來(lái)處理思維軌跡,但研究團(tuán)隊(duì)通過(guò)巧妙的算法設(shè)計(jì)將這種開(kāi)銷(xiāo)控制在合理范圍內(nèi)。他們還提供了多種權(quán)衡選項(xiàng),讓實(shí)際應(yīng)用者可以根據(jù)具體需求在效果和效率之間做出平衡。
研究團(tuán)隊(duì)對(duì)未來(lái)工作也有明確的規(guī)劃。他們提到可以將訓(xùn)練擴(kuò)展到多輪次,并探索更豐富的答案提示設(shè)計(jì)。這些方向?yàn)楹罄m(xù)研究提供了清晰的路線圖,也暗示著這個(gè)領(lǐng)域還有巨大的發(fā)展?jié)摿Α?/p>
說(shuō)到底,這項(xiàng)研究解決的是AI推理訓(xùn)練中的一個(gè)根本性問(wèn)題:如何讓AI真正學(xué)會(huì)思考,而不是簡(jiǎn)單地模仿表面行為。通過(guò)引入變分推理框架,研究團(tuán)隊(duì)為AI訓(xùn)練提供了一個(gè)更加科學(xué)和有效的方法。這不僅能夠提升AI的推理能力,還能增強(qiáng)訓(xùn)練過(guò)程的穩(wěn)定性和可控性。
對(duì)于普通人來(lái)說(shuō),這項(xiàng)研究意味著未來(lái)的AI助手將能夠提供更高質(zhì)量的幫助。無(wú)論是輔導(dǎo)孩子做作業(yè),還是協(xié)助解決工作中的復(fù)雜問(wèn)題,AI都將具備更深入的思考能力。同時(shí),這項(xiàng)研究也為AI安全和可解釋性提供了新的思路,有助于構(gòu)建更加可信的AI系統(tǒng)。
這項(xiàng)開(kāi)創(chuàng)性研究不僅在技術(shù)上取得了重要突破,更為整個(gè)AI領(lǐng)域的發(fā)展指明了新的方向。通過(guò)解決訓(xùn)練偏見(jiàn)問(wèn)題和提升推理質(zhì)量,它為構(gòu)建更智能、更可靠的AI系統(tǒng)奠定了堅(jiān)實(shí)基礎(chǔ)。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)論文編號(hào)arXiv:2509.22637v1查閱完整的研究報(bào)告。
Q&A
Q1:什么是變分推理框架?它是如何工作的?
A:變分推理框架是一種將AI思考過(guò)程分解為思維軌跡和最終答案兩部分的訓(xùn)練方法。它就像為AI配備了一個(gè)思考教練,不僅關(guān)注答案的正確性,還深入分析思考過(guò)程的合理性。這種方法通過(guò)數(shù)學(xué)上的變分推理技術(shù),讓AI學(xué)會(huì)真正的推理而不是簡(jiǎn)單的模仿。
Q2:為什么說(shuō)傳統(tǒng)AI訓(xùn)練方法存在偏見(jiàn)問(wèn)題?
A:傳統(tǒng)的AI訓(xùn)練方法會(huì)自然地偏向簡(jiǎn)單問(wèn)題,就像學(xué)生總是挑容易的作業(yè)做一樣。研究發(fā)現(xiàn),無(wú)論是監(jiān)督學(xué)習(xí)還是強(qiáng)化學(xué)習(xí),都存在隱性的"準(zhǔn)確率加權(quán)"機(jī)制,讓AI在面對(duì)復(fù)雜問(wèn)題時(shí)表現(xiàn)不佳。這種偏見(jiàn)以前一直隱藏在算法深處,沒(méi)有被明確意識(shí)到。
Q3:變分推理框架相比傳統(tǒng)方法有什么優(yōu)勢(shì)?
A:變分推理框架在多個(gè)方面都有顯著優(yōu)勢(shì):在數(shù)學(xué)推理任務(wù)中提升8.5%,編程任務(wù)中提升14%,訓(xùn)練過(guò)程更加穩(wěn)定,不會(huì)出現(xiàn)傳統(tǒng)方法的震蕩現(xiàn)象。更重要的是,它能夠讓AI對(duì)所有難度的問(wèn)題都保持同等重視,避免了傳統(tǒng)方法偏向簡(jiǎn)單問(wèn)題的毛病。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。