這項令人意外的研究來自清華大學LeapLab實驗室,由楊越、陳志琦等研究團隊完成,并于2025年5月發(fā)表。有興趣深入了解的讀者可以通過arXiv:2504.13837v2訪問完整論文。這個研究團隊包括了來自清華大學和上海交通大學的多位研究者,他們共同探討了一個在AI領(lǐng)域備受關(guān)注的問題。
近年來,OpenAI的o1模型和DeepSeek-R1等"思考型"AI引起了巨大轟動,它們能像人類一樣進行逐步推理,解決復雜的數(shù)學和編程問題。這些模型的成功被普遍歸功于一種叫做"強化學習"的訓練方法。簡單來說,就是讓AI通過不斷嘗試和接受獎勵反饋來學習,就像訓練寵物一樣——做對了給獎勵,做錯了不給獎勵。
然而,清華大學的研究團隊發(fā)現(xiàn)了一個顛覆性的真相:這些經(jīng)過強化學習訓練的AI模型,其實并沒有真正學會新的推理能力,它們只是變得更善于從原本就會的推理方法中找到正確答案而已。這就好比一個學生原本就知道多種解題方法,強化學習訓練只是讓他更容易選擇其中正確的那種方法,而不是教會了他新的解題技巧。
一、強化學習的"魔術(shù)"真相
要理解這個發(fā)現(xiàn),我們先得搞清楚什么是強化學習。把AI模型比作一個正在學習下棋的孩子。傳統(tǒng)的訓練方法是給孩子看很多棋譜,告訴他"這樣下是好的,那樣下是不好的"。而強化學習則是讓孩子自己下棋,贏了就給糖果,輸了就不給,讓孩子通過無數(shù)次試錯來學習。
在AI領(lǐng)域,研究者們使用一種叫做"可驗證獎勵強化學習"(RLVR)的方法來訓練模型。當AI解決數(shù)學題目時,答案對了就給正獎勵,錯了就給負獎勵或零獎勵。這種方法看起來很有道理,畢竟傳統(tǒng)的強化學習在游戲領(lǐng)域創(chuàng)造了奇跡——AlphaGo就是通過這種方法戰(zhàn)勝了人類圍棋冠軍。
但是清華團隊的研究發(fā)現(xiàn),AI的語言推理和下圍棋有著本質(zhì)的不同。圍棋的規(guī)則是固定的,棋盤是有限的,而語言推理的空間幾乎是無限的。這就像在一個有邊界的花園里種花和在無邊無際的草原上種花的區(qū)別——在花園里你可以逐塊土地嘗試,但在草原上你永遠無法窮盡所有可能。
更關(guān)鍵的是,用于強化學習的AI模型并不是從零開始學習的白紙,而是已經(jīng)通過海量文本訓練過的"博學者"。這些模型在接受強化學習訓練之前,就已經(jīng)具備了豐富的推理能力。這就好比你以為自己在教一個孩子新的解題方法,實際上這個孩子早就會了,你只是在幫他整理和優(yōu)化他已經(jīng)掌握的知識。
二、驚人的實驗發(fā)現(xiàn)
研究團隊設(shè)計了一系列巧妙的實驗來驗證他們的猜想。他們使用了一個叫做"pass@k"的評估方法,這個方法非常有趣。想象你要測試一個學生的數(shù)學能力,不是只讓他做一遍題目,而是讓他做k次(比如64次或256次),只要其中有一次做對了,就算他會做這道題。
這種測試方法能夠揭示模型的真實能力邊界。如果一個模型經(jīng)過強化學習后真的變得更聰明了,那么它應(yīng)該能解決更多原本解決不了的問題。但如果它只是變得更善于選擇正確答案,那么在多次嘗試的情況下,原始模型應(yīng)該也能解決同樣多的問題。
實驗結(jié)果令人震驚。研究團隊測試了多個模型家族,包括Qwen2.5、LLaMA-3.1等知名AI模型,覆蓋了數(shù)學推理、代碼生成和視覺推理等多個領(lǐng)域。他們發(fā)現(xiàn)了一個一致的模式:當只允許模型嘗試一次時(pass@1),經(jīng)過強化學習訓練的模型確實表現(xiàn)更好;但當允許多次嘗試時(pass@64或pass@256),原始的基礎(chǔ)模型反而能解決更多問題。
這個發(fā)現(xiàn)用一個生活化的例子來解釋就是:假設(shè)你有兩個射箭手,一個經(jīng)過了"專門訓練",一個沒有。在正式比賽中(只能射一箭),訓練過的射箭手命中率更高。但如果允許他們各自射100箭,你會發(fā)現(xiàn)沒訓練的那個射箭手實際上能擊中更多不同的靶子,說明他的能力范圍其實更廣。
三、深度分析揭示的秘密
為了進一步驗證這個發(fā)現(xiàn),研究團隊進行了更細致的分析。他們檢查了模型在訓練前后能解決的具體問題,發(fā)現(xiàn)經(jīng)過強化學習訓練的模型所能解決的問題,幾乎都是原始模型也能解決的。這就像發(fā)現(xiàn)一個學生考試成績提高了,但仔細檢查后發(fā)現(xiàn)他會做的題目并沒有增加,只是原本會做的題目現(xiàn)在做對的概率更高了。
更有趣的是,他們還使用了一種叫做"困惑度"的技術(shù)指標來分析模型生成的推理過程。困惑度可以理解為模型對某個答案的"熟悉程度"。如果一個模型突然學會了新的推理方法,那么這些新方法對原始模型來說應(yīng)該是"陌生的",困惑度會很高。但研究結(jié)果顯示,強化學習訓練后的模型所產(chǎn)生的推理路徑,原始模型都很"熟悉",說明這些推理方法早就存在于原始模型中。
研究團隊還發(fā)現(xiàn)了強化學習訓練的一個副作用:雖然模型在常見問題上表現(xiàn)更好了,但它的推理覆蓋范圍實際上變窄了。這就像一個學生為了在某種類型的考試中取得高分而進行專門訓練,結(jié)果雖然在這類考試中表現(xiàn)更好,但解決其他類型問題的能力反而下降了。
四、不同方法的對比實驗
為了確保結(jié)論的可靠性,研究團隊測試了六種不同的強化學習算法,包括PPO、GRPO、Reinforce++等。他們發(fā)現(xiàn)所有這些算法都表現(xiàn)出了相似的模式:都能提高模型的平均表現(xiàn),但都無法真正擴展模型的推理能力邊界。
有趣的是,當他們測試"知識蒸餾"這種不同的訓練方法時,發(fā)現(xiàn)了截然不同的結(jié)果。知識蒸餾是讓一個小模型向更強大的"老師"模型學習,就像學生跟著更有經(jīng)驗的老師學習新知識。通過這種方法訓練的模型確實能夠解決原本解決不了的問題,真正擴展了推理能力的邊界。
這個對比實驗特別有意義,因為它說明問題不在于訓練方法本身,而在于強化學習這種特定方法的局限性。知識蒸餾能夠真正傳授新的推理模式,而強化學習只是在優(yōu)化已有的推理選擇。
五、訓練過程的動態(tài)觀察
研究團隊還詳細觀察了強化學習訓練過程中模型能力的變化。他們發(fā)現(xiàn)隨著訓練的進行,模型的平均表現(xiàn)(pass@1)確實在穩(wěn)步提升,從最初的26.1%提升到了42.5%。但與此同時,模型的推理覆蓋范圍(pass@256)卻在逐漸縮小,這進一步證實了他們的發(fā)現(xiàn)。
這種現(xiàn)象可以用一個比喻來理解:想象一個圖書管理員原本能找到圖書館里各種各樣的書籍,雖然有時需要花很長時間。經(jīng)過"效率訓練"后,他能更快地找到最常借閱的書籍,但卻逐漸忘記了那些偏僻角落里的冷門書籍在哪里。
研究團隊還嘗試了各種技術(shù)調(diào)整,比如增加訓練時的探索次數(shù)、調(diào)整溫度參數(shù)等,但都無法改變這個基本模式。即使提高模型生成的隨機性來匹配原始模型的多樣性,強化學習訓練過的模型仍然無法超越原始模型的推理覆蓋范圍。
六、對AI發(fā)展的深遠影響
這項研究的意義遠超學術(shù)范疇,它可能會改變整個AI產(chǎn)業(yè)對推理能力提升的認知。長期以來,人們相信強化學習能讓AI模型持續(xù)自我改進,就像人類通過練習不斷提升技能一樣。但這項研究表明,目前的強化學習方法更像是在幫助模型更好地利用已有知識,而不是真正獲得新的智能。
這個發(fā)現(xiàn)對AI公司的產(chǎn)品開發(fā)策略可能產(chǎn)生重要影響。如果強化學習無法真正擴展模型的能力邊界,那么持續(xù)的強化學習訓練可能不是提升AI性能的最佳路徑。相反,研究更好的基礎(chǔ)模型訓練方法或者知識蒸餾技術(shù)可能更有價值。
同時,這項研究也為AI安全研究提供了新的視角。如果AI模型的能力主要來源于基礎(chǔ)訓練而不是后續(xù)的強化學習,那么對AI能力的評估和安全控制就需要更多關(guān)注基礎(chǔ)模型的訓練過程。
研究團隊在論文中指出,這種局限性可能源于當前強化學習方法的固有問題。在語言這樣的高維空間中,有效的探索策略可能需要全新的方法。他們建議未來的研究應(yīng)該關(guān)注多輪交互、持續(xù)擴展訓練等新的范式,這些方法可能能夠真正發(fā)現(xiàn)新的推理模式。
七、未來的研究方向
基于這些發(fā)現(xiàn),研究團隊提出了幾個值得探索的方向。首先是開發(fā)更好的探索策略,讓AI模型能在巨大的語言空間中發(fā)現(xiàn)真正新穎的推理路徑。這就像需要更好的地圖和指南針來探索未知的大陸。
其次是研究多輪交互的強化學習方法。目前的方法通常是一次性生成答案然后接受反饋,但真正的學習往往需要多輪的嘗試、反思和改進。這更接近人類的學習過程——我們很少一次就學會復雜的技能,而是通過反復練習和調(diào)整逐步改進。
另一個重要方向是探索如何在強化學習中引入真正的創(chuàng)新激勵。目前的獎勵系統(tǒng)只關(guān)注最終答案的正確性,但也許應(yīng)該獎勵新穎的推理路徑或創(chuàng)造性的解決方案,即使這些方案最初可能不夠完美。
研究團隊還建議關(guān)注基礎(chǔ)模型的訓練質(zhì)量。既然強化學習主要是在優(yōu)化基礎(chǔ)模型已有的能力,那么提升基礎(chǔ)模型的推理能力可能是更根本的解決方案。這意味著需要更好的數(shù)據(jù)、更好的訓練方法和更好的模型架構(gòu)。
說到底,這項研究提醒我們,AI的發(fā)展可能比我們想象的更復雜。那些看起來神奇的AI能力提升,背后的機制可能和我們的直覺不同。強化學習確實能讓AI表現(xiàn)得更好,但這種改善更像是幫助AI更好地發(fā)揮已有潛力,而不是真正教會了它新的技能。
這個發(fā)現(xiàn)并不意味著強化學習沒有價值,而是說我們需要重新思考它的作用和局限性。對于想要構(gòu)建真正智能的AI系統(tǒng)的研究者來說,這項研究提供了重要的指導:單純依靠強化學習可能不夠,我們需要探索更多元化的方法來提升AI的真實智能水平。
有興趣深入了解這項研究的讀者,可以通過訪問arXiv:2504.13837v2獲取完整的論文內(nèi)容,其中包含了詳細的實驗數(shù)據(jù)和技術(shù)細節(jié)。
Q&A
Q1:強化學習到底有沒有用?為什么這些AI公司還在用? A:強化學習確實有用,它能讓AI模型在實際應(yīng)用中表現(xiàn)更好,回答更準確。但這項研究發(fā)現(xiàn)它主要是在優(yōu)化已有能力,而不是創(chuàng)造新能力。AI公司繼續(xù)使用是因為用戶體驗確實改善了,即使底層機制和我們想象的不同。
Q2:這個發(fā)現(xiàn)會不會影響ChatGPT、Claude這些AI的發(fā)展? A:可能會影響未來的技術(shù)路線選擇。如果僅靠強化學習無法持續(xù)提升能力,AI公司可能需要投入更多資源在基礎(chǔ)模型訓練或其他方法上。但短期內(nèi)不會影響現(xiàn)有產(chǎn)品,因為強化學習仍能改善用戶體驗。
Q3:普通用戶應(yīng)該怎么理解這個研究?會影響我們使用AI嗎? A:對普通用戶來說,這個發(fā)現(xiàn)主要是幫助我們更準確地理解AI的能力邊界。你使用的AI助手可能沒有你想象的那么"聰明",它更像是一個知識淵博但思維模式相對固定的助手。了解這一點有助于更合理地設(shè)定期望和使用方式。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。