來自多家頂尖研究機構的科學家們剛剛發(fā)布了一項令人振奮的研究成果,這項研究由中國人民大學的趙鑫老師、微軟亞洲研究院、上海交通大學以及BIGAI等機構的研究團隊共同完成,發(fā)表于2025年6月17日。有興趣深入了解技術細節(jié)的讀者可以通過arXiv:2506.14758v1訪問完整論文。
在人工智能的世界里,一個古老的問題一直困擾著研究者們:如何讓AI既能有效學習,又能保持足夠的好奇心去探索未知?這就像是在培養(yǎng)一個學生,你希望他既能認真完成作業(yè)(利用已知知識),又能主動去圖書館翻閱額外的書籍(探索新知識)。然而,大多數(shù)現(xiàn)有的訓練方法都過分強調"完成作業(yè)"這一部分,導致AI變得越來越保守,逐漸失去了探索精神。
這項新研究為這個問題提供了一個絕妙的解決方案。研究團隊發(fā)現(xiàn),通過觀察AI在思考過程中的"不確定性"(在技術上稱為熵),可以準確識別出哪些時刻AI正在進行真正有價值的探索性思考。更重要的是,他們設計出了一種極其簡單的方法——僅需一行代碼的修改——就能顯著提升AI的探索能力和深度思考水平。
一、發(fā)現(xiàn)AI思考中的"探索信號"
要理解這項研究的突破性,我們先需要理解什么是"熵"。在日常生活中,熵可以理解為"不確定性"或"混亂程度"的度量。比如,當你面對一道復雜的數(shù)學題時,在關鍵的轉折點上,你可能會思考"我應該用哪種方法?"這種猶豫不決的狀態(tài)就對應著高熵值。
研究團隊通過大量實驗發(fā)現(xiàn)了一個令人驚喜的現(xiàn)象:當AI的"不確定性"較高時,往往正是它在進行最有價值的探索性思考的時刻。具體來說,這種探索性思考表現(xiàn)在三個方面。
首先是"關鍵詞匯的使用"。就像人類在推理時會說"首先"、"因為"、"然而"這樣的邏輯連接詞,AI在遇到這些關鍵轉折點時也會表現(xiàn)出更高的不確定性。這些詞匯雖然看起來簡單,但它們承載著邏輯推理的骨架,是連接不同思考步驟的橋梁。研究團隊發(fā)現(xiàn),AI在生成這些關鍵詞匯時的熵值顯著高于生成普通詞匯時的熵值。
其次是"自我反思行為"。當AI開始進行自我檢驗,比如說"讓我驗證一下這個答案是否正確"或"讓我重新檢查一下計算過程"時,這種反思行為往往伴隨著高熵值。這就像一個學生在解題后會停下來思考"我的答案對嗎?"這種自我質疑的過程雖然充滿不確定性,但正是深度思考的體現(xiàn)。
第三個發(fā)現(xiàn)更加有趣:那些在基礎訓練中很少出現(xiàn)的"罕見行為"也與高熵值密切相關。當AI嘗試一些它之前很少使用的解題方法或思路時,不確定性自然會增加,但這種探索往往能帶來意想不到的突破。
二、簡單而巧妙的解決方案
基于這些發(fā)現(xiàn),研究團隊設計了一個極其優(yōu)雅的解決方案。他們沒有重新發(fā)明訓練算法的輪子,而是在現(xiàn)有的訓練過程中加入了一個基于熵的"獎勵修正項"。
這個方法的核心思想可以用一個簡單的比喻來解釋。原本的AI訓練就像是在給學生評分時只看最終答案的對錯。而新方法則在此基礎上,額外獎勵那些在思考過程中表現(xiàn)出探索精神的行為。具體來說,當AI在某個思考步驟中表現(xiàn)出較高的不確定性(高熵值)時,系統(tǒng)會給予額外的鼓勵,但這種鼓勵是有節(jié)制的——它不會改變原本的學習方向,只是在原有基礎上進行微調。
這種設計的巧妙之處在于它的自我調節(jié)特性。隨著訓練的進行,當AI對某種思考模式變得更加熟練和自信時,相應的熵值會自然下降,額外的獎勵也會相應減少。這就避免了過度鼓勵的問題,確保AI不會為了獲得獎勵而故意制造混亂。
技術實現(xiàn)上,這個方法極其簡潔。研究團隊只需要在現(xiàn)有的訓練代碼中添加一行代碼,計算當前步驟的熵值,并將其以特定的方式加入到獎勵函數(shù)中。這種簡潔性使得該方法可以輕松整合到現(xiàn)有的各種AI訓練框架中,無需大規(guī)模的代碼重構。
三、與傳統(tǒng)方法的本質區(qū)別
這項研究的另一個重要貢獻是澄清了它與傳統(tǒng)"熵正則化"方法的本質區(qū)別。傳統(tǒng)的熵正則化方法是直接在訓練目標中加入熵項,鼓勵AI保持高不確定性。這就像是告訴學生"你必須對每個問題都保持猶豫不決",這顯然不是我們想要的結果。
相比之下,新方法采用的是"優(yōu)勢塑形"策略。它不直接影響AI學習的方向,而是通過調整獎勵的強度來間接影響學習過程。當AI在高熵狀態(tài)下做出正確決策時,會獲得額外的鼓勵;當它在高熵狀態(tài)下犯錯時,懲罰力度也會相應調整。這種方法保持了原有訓練邏輯的完整性,同時巧妙地引導AI進行更深層次的探索。
更重要的是,新方法使用了"梯度分離"技術。簡單來說,就是熵值的計算不會直接影響AI的參數(shù)更新方向,只影響更新的強度。這就像是在不改變學習內容的前提下,調整學習的積極性和投入程度。
四、實驗驗證:從數(shù)學競賽到實際應用
研究團隊在多個極具挑戰(zhàn)性的數(shù)學競賽數(shù)據(jù)集上驗證了他們的方法,包括美國數(shù)學邀請賽(AIME)、美國數(shù)學競賽(AMC)等。這些比賽的題目不僅需要扎實的數(shù)學基礎,更需要創(chuàng)造性的思維和深度的推理能力。
在AIME 2025這個最具挑戰(zhàn)性的測試集上,使用新方法訓練的AI模型在Pass@K指標上取得了顯著提升。Pass@K是一個衡量AI"潛在能力"的重要指標,它測量的是給AI多次嘗試機會時,它能否在K次嘗試內解決問題。這個指標特別重要,因為它更接近人類數(shù)學家的工作方式——我們通常不會因為第一次嘗試失敗就放棄,而是會嘗試不同的方法和角度。
實驗結果顯示,即使在K值非常大的情況下(比如K=256),新方法依然能夠持續(xù)改善AI的表現(xiàn)。這意味著新方法確實提升了AI的根本推理能力,而不僅僅是讓它在特定測試上表現(xiàn)更好。
更令人印象深刻的是,新方法不僅提高了準確率,還顯著增加了AI生成回答的長度和復雜度。在保持邏輯連貫性的前提下,AI開始生成更詳細、更深入的推理過程。這種變化在一個具體的案例中表現(xiàn)得尤為明顯:面對同一道關于正整數(shù)列表的數(shù)學題,普通方法訓練的AI給出了725個字符的簡短回答,而使用新方法的AI給出了超過3000個字符的詳細解答,包含了系統(tǒng)性的案例分析和多種方法的嘗試。
五、深度分析:AI如何學會"真正的思考"
通過對訓練過程的深入分析,研究團隊發(fā)現(xiàn)了一些非常有趣的現(xiàn)象。使用新方法訓練的AI在思考過程中表現(xiàn)出了更多類似人類的特征。
首先,AI開始更頻繁地使用"關鍵思考詞匯"。這些詞匯包括表示邏輯關系的"因此"、"然而",表示步驟的"首先"、"接下來",以及表示思考過程的"讓我們考慮"、"換句話說"等。雖然這些詞匯本身很簡單,但它們的使用反映了AI在構建更加結構化和邏輯化的思考框架。
其次,AI展現(xiàn)出了更強的"自我監(jiān)控"能力。它開始主動進行自我檢驗,會說"讓我驗證一下這個結果"或"讓我重新檢查這個計算"。這種行為雖然會增加計算成本,但顯著提高了最終答案的準確性。
最有趣的是,AI開始表現(xiàn)出"探索性嘗試"的行為模式。當遇到復雜問題時,它不再固執(zhí)地使用單一方法,而是會嘗試多種不同的解題路徑。即使某種方法暫時遇到困難,它也會堅持一段時間,然后理性地轉向其他方法。這種行為模式與人類數(shù)學家的工作方式非常相似。
六、技術創(chuàng)新的普適性意義
這項研究的意義遠超出了數(shù)學問題求解的范疇。它揭示了一個更深層次的原理:通過識別和鼓勵"探索性思考",可以顯著提升AI系統(tǒng)的整體智能水平。
從技術角度來看,這種方法的普適性在于它可以應用到任何需要多步推理的AI任務中。無論是科學發(fā)現(xiàn)、工程設計,還是創(chuàng)意寫作,都需要在已知知識和探索性思考之間找到平衡。新方法提供了一個通用的框架來實現(xiàn)這種平衡。
從更宏觀的視角來看,這項研究為"如何讓AI更像人類一樣思考"這個長期目標提供了新的思路。傳統(tǒng)的AI訓練往往專注于模仿人類的輸出結果,而忽略了人類思考過程中的探索性特征。新方法通過關注思考過程中的不確定性模式,成功地讓AI習得了更加自然和有效的思考方式。
七、實際應用前景和影響
這項技術的潛在應用前景非常廣闊。在教育領域,它可以幫助開發(fā)更好的AI導師系統(tǒng),這些系統(tǒng)不僅能給出正確答案,還能展示完整的思考過程,幫助學生理解解題的邏輯。在科學研究中,它可以協(xié)助研究人員進行假設生成和實驗設計,特別是在需要創(chuàng)造性思維的探索性研究中。
在工程實踐中,這種能夠進行深度探索的AI可以幫助工程師評估多種設計方案,不僅考慮常規(guī)解決方案,還能提出創(chuàng)新性的替代方案。在商業(yè)決策領域,它可以協(xié)助分析師進行更全面的風險評估和機會識別。
更重要的是,這項技術的簡潔性使得它可以快速集成到現(xiàn)有的AI系統(tǒng)中。企業(yè)和研究機構不需要重新開發(fā)整套AI訓練流程,只需要在現(xiàn)有基礎上進行簡單的修改,就能獲得顯著的性能提升。
八、未來發(fā)展方向和挑戰(zhàn)
雖然這項研究取得了令人矚目的成果,但研究團隊也坦誠地指出了一些需要進一步探索的方向。
首先是如何在更大規(guī)模的模型和更復雜的任務上驗證這種方法的有效性。目前的實驗主要集中在數(shù)學推理任務上,未來需要在自然語言理解、創(chuàng)意寫作、科學發(fā)現(xiàn)等更廣泛的領域進行驗證。
其次是如何更好地理解熵與探索性思考之間的關系。雖然實驗證明了這種關聯(lián)的存在,但背后的理論機制仍需要更深入的研究。這不僅對改進現(xiàn)有方法有重要意義,也有助于我們更好地理解人類思維的工作原理。
第三個挑戰(zhàn)是如何在保持探索性的同時控制計算成本。更深入的思考往往意味著更長的推理鏈和更高的計算需求,如何在兩者之間找到最優(yōu)平衡是一個實際的工程問題。
最后,研究團隊還提到了擴展到其他類型推理任務的可能性。除了數(shù)學推理,邏輯推理、常識推理、因果推理等都可能受益于這種方法,但每種推理類型可能需要針對性的調整。
說到底,這項研究為我們打開了一扇通往"真正智能"的新大門。它告訴我們,讓AI變得更聰明的關鍵不在于讓它記住更多知識,而在于讓它學會如何更好地思考。通過識別和培養(yǎng)AI思考過程中的探索精神,我們正在創(chuàng)造出真正能夠像人類一樣進行深度思考的人工智能系統(tǒng)。
這種技術的簡潔性和普適性意味著它很可能會快速傳播并被廣泛采用。未來的AI系統(tǒng)將不再是單純的"知識復述機器",而是真正的"思考伙伴",能夠與人類一起探索未知、解決復雜問題、創(chuàng)造新的可能性。有興趣深入了解技術細節(jié)的研究者和開發(fā)者,可以通過論文編號arXiv:2506.14758v1獲取完整的研究報告和實現(xiàn)細節(jié)。
Q&A
Q1:這個方法具體是怎么工作的?為什么只需要一行代碼? A:這個方法的核心是在AI訓練時監(jiān)測它的"不確定性"(熵值),當AI在某個思考步驟表現(xiàn)出高不確定性時,系統(tǒng)會給予額外的鼓勵。實現(xiàn)上確實只需要一行代碼,因為它不改變原有的訓練邏輯,只是在計算獎勵時加入一個基于熵值的修正項。這種設計讓它可以輕松集成到任何現(xiàn)有的AI訓練框架中。
Q2:這種方法會不會讓AI變得過于"猶豫不決"? A:不會。這個方法有巧妙的自我調節(jié)機制。當AI對某種思考模式變得更熟練時,相應的不確定性會自然降低,額外的鼓勵也會減少。而且,這種方法使用了"梯度分離"技術,不直接影響AI的學習方向,只影響學習的強度,所以不會讓AI變得猶豫不決。
Q3:這個技術能應用到哪些實際場景中? A:應用前景很廣闊。在教育領域可以開發(fā)更好的AI導師系統(tǒng);在科學研究中可以協(xié)助假設生成和實驗設計;在工程實踐中可以幫助評估多種設計方案;在商業(yè)決策中可以進行更全面的風險評估。由于方法簡潔,現(xiàn)有AI系統(tǒng)可以快速集成這項技術來提升性能。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調整內部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。