這項由普林斯頓大學(xué)的楊凌教授和王夢迪教授領(lǐng)導(dǎo)的研究團隊,聯(lián)合伊利諾伊大學(xué)香檳分校、康奈爾大學(xué)以及字節(jié)跳動種子團隊共同完成的研究,發(fā)表于2025年6月23日。有興趣深入了解的讀者可以通過arXiv:2506.18896v1訪問完整論文,研究代碼和模型也已在ReasonFlux-PRM-Code開源發(fā)布。
想象一下這樣的場景:你正在解一道復(fù)雜的數(shù)學(xué)題,大腦中不斷涌現(xiàn)各種想法——有時會走彎路,有時會自我糾正,有時會探索不同的解題路徑。這個思考過程就像一條蜿蜒的河流,充滿了分支、回流和探索。然而,傳統(tǒng)的AI評分系統(tǒng)就像一個只會看最終答案的老師,完全忽略了你思考過程中的精彩部分。
這種局限性在當(dāng)今AI教育領(lǐng)域變得越來越明顯。隨著像GPT和Claude這樣的大型語言模型越來越聰明,它們開始學(xué)會展示自己的"思考過程"——就像學(xué)生在草稿紙上寫下的思路一樣。但問題來了:如何評價這些復(fù)雜的思維軌跡呢?這就好比一位數(shù)學(xué)老師不僅要看學(xué)生的最終答案,還要理解學(xué)生解題時的每一個推理步驟、每一次嘗試,甚至包括那些看似"走錯路"但實際上展現(xiàn)了深度思考的過程。
正是在這樣的背景下,普林斯頓大學(xué)的研究團隊開發(fā)了一套革命性的評分系統(tǒng)——ReasonFlux-PRM。這個系統(tǒng)的名字聽起來很技術(shù)化,但它的作用卻很容易理解:它就像一位極其細(xì)心的老師,不僅能看懂學(xué)生的最終答案,更重要的是,它能深入理解學(xué)生整個思考過程的質(zhì)量。
傳統(tǒng)的AI評分系統(tǒng)面臨著一個根本性的挑戰(zhàn)。當(dāng)你向AI提出一個問題時,比如"解釋為什么天空是藍色的",現(xiàn)代AI系統(tǒng)會先在"腦海"中進行一番復(fù)雜的思考,然后才給出最終回答。這個內(nèi)部思考過程可能包括考慮光的散射原理、回憶相關(guān)的物理知識、組織語言等等。然而,現(xiàn)有的評分系統(tǒng)只能評判最終的回答質(zhì)量,就像一位老師只看學(xué)生交上來的作業(yè)答案,卻完全忽視了學(xué)生在草稿紙上的思考軌跡。
更具體地說,最新一代的AI模型(如DeepSeek-R1)會產(chǎn)生兩種截然不同的輸出:一是詳細(xì)的思考軌跡,記錄了AI"思考"過程中的每一個步驟、每一次嘗試;二是經(jīng)過整理的最終回答。這種差異就像學(xué)生做數(shù)學(xué)題時的草稿和最終答卷的區(qū)別。草稿可能雜亂無章,充滿了涂改、重新開始的痕跡,但卻真實反映了思考的深度;而最終答卷則條理清晰,邏輯嚴(yán)密。
研究團隊發(fā)現(xiàn),現(xiàn)有的評分系統(tǒng)在處理這些復(fù)雜思考軌跡時表現(xiàn)得相當(dāng)糟糕。他們測試了幾個當(dāng)前最先進的評分模型,發(fā)現(xiàn)這些系統(tǒng)在區(qū)分高質(zhì)量和低質(zhì)量的思考過程時幾乎毫無能力。更令人擔(dān)憂的是,當(dāng)使用這些不合適的評分結(jié)果來訓(xùn)練新的AI模型時,訓(xùn)練效果不僅沒有改善,反而出現(xiàn)了明顯的退步。這就像讓一位不懂?dāng)?shù)學(xué)的人去批改數(shù)學(xué)作業(yè),結(jié)果可想而知。
為了解決這個問題,研究團隊深入分析了AI思考軌跡與最終回答之間的本質(zhì)差異。他們發(fā)現(xiàn),思考軌跡具有兩個顯著特點:首先是"分支性思維"——AI在思考過程中會嘗試不同的解題路徑,有時會回頭重新開始,有時會同時探索多個方向;其次是"局部凝聚性"——思考過程中的每一步都專注于當(dāng)前的具體問題,而不太關(guān)心整體的敘述連貫性。相比之下,最終回答通常是線性的、邏輯清晰的,就像一篇經(jīng)過精心編輯的文章。
基于這些洞察,研究團隊設(shè)計了ReasonFlux-PRM系統(tǒng)。這個系統(tǒng)的核心理念是同時關(guān)注思考過程的每一個步驟和整體質(zhì)量。具體來說,它會對思考軌跡進行三個維度的評估。
第一個維度是"對齊度評估"。系統(tǒng)會檢查思考過程中的每一步是否與最終回答保持一致。這就像檢查學(xué)生的草稿思路是否最終導(dǎo)向了正確的答案。系統(tǒng)使用先進的語義相似度技術(shù),能夠識別出那些與最終目標(biāo)相關(guān)的思考步驟,同時發(fā)現(xiàn)那些偏離主題或產(chǎn)生幻覺的內(nèi)容。
第二個維度是"質(zhì)量評估"。對于那些可能與最終答案在表面上不太相似,但實際上體現(xiàn)了深度思考的步驟,系統(tǒng)會進行專門的質(zhì)量判斷。這就像一位經(jīng)驗豐富的老師能夠識別出學(xué)生看似"繞彎路"的思考實際上展現(xiàn)了對問題的深入理解。系統(tǒng)使用強大的AI判斷模型來評估每個思考步驟的邏輯合理性和創(chuàng)新性。
第三個維度是"連貫性評估"。系統(tǒng)會檢查思考過程中相鄰步驟之間的邏輯連接是否合理。這通過一種巧妙的對比學(xué)習(xí)方法實現(xiàn):系統(tǒng)會將當(dāng)前步驟與前一步驟進行對比,同時與一些不相關(guān)的步驟進行對比,從而學(xué)會識別哪些思考轉(zhuǎn)換是合理的,哪些是突兀的。
除了這些步驟級別的評估,ReasonFlux-PRM還引入了一個創(chuàng)新的"模板引導(dǎo)評估"機制。這個機制的工作原理很有趣:系統(tǒng)首先會從復(fù)雜的思考軌跡中提取出一個抽象的"解題模板",就像從一個具體的解題過程中總結(jié)出通用的解題策略。然后,系統(tǒng)會讓其他AI模型按照這個模板來解決類似的問題,并觀察成功率。如果這個模板能夠指導(dǎo)其他模型成功解決問題,那么原始的思考軌跡就被認(rèn)為是高質(zhì)量的。
這種評估方法非常巧妙,因為它不僅關(guān)注思考過程本身的質(zhì)量,還關(guān)注這種思考方式的可推廣性。就像評判一個教學(xué)方法的好壞,不僅要看老師自己能否用這個方法解決問題,還要看學(xué)生是否能夠?qū)W會并應(yīng)用這個方法。
研究團隊將ReasonFlux-PRM設(shè)計成了一個多用途的工具,能夠在AI訓(xùn)練的不同階段發(fā)揮作用。首先,在數(shù)據(jù)篩選階段,系統(tǒng)可以從大量的訓(xùn)練樣本中挑選出高質(zhì)量的思考軌跡,就像一位經(jīng)驗豐富的編輯從眾多稿件中選擇最優(yōu)秀的作品。這種精心篩選的數(shù)據(jù)可以顯著提高后續(xù)AI模型的訓(xùn)練效果。
其次,在強化學(xué)習(xí)階段,ReasonFlux-PRM可以提供實時的反饋信號。當(dāng)AI模型在訓(xùn)練過程中產(chǎn)生新的思考軌跡時,系統(tǒng)會立即給出評分,告訴模型哪些思考方向是值得堅持的,哪些需要調(diào)整。這就像一位私人教練在你運動時提供實時指導(dǎo),幫助你不斷改進動作。
此外,在實際應(yīng)用階段,當(dāng)用戶向AI系統(tǒng)提出問題時,系統(tǒng)可以生成多個不同的回答,然后使用ReasonFlux-PRM來選擇最佳答案。這種"多選一"的策略可以顯著提高AI回答的質(zhì)量和可靠性。
為了驗證ReasonFlux-PRM的效果,研究團隊進行了大規(guī)模的實驗測試。他們使用了多個極具挑戰(zhàn)性的數(shù)學(xué)和科學(xué)推理任務(wù),包括美國數(shù)學(xué)邀請賽(AIME)、高難度數(shù)學(xué)問題集(MATH500)以及博士級科學(xué)問答(GPQA-Diamond)等。這些測試就像AI領(lǐng)域的"高考",能夠真實反映系統(tǒng)的能力水平。
實驗結(jié)果令人印象深刻。在數(shù)據(jù)篩選任務(wù)中,使用ReasonFlux-PRM選擇的訓(xùn)練數(shù)據(jù)訓(xùn)練出的AI模型,比使用人工篩選數(shù)據(jù)訓(xùn)練的模型表現(xiàn)更好。具體來說,在各項測試中,改進幅度達到了平均12.1%。這個提升幅度相當(dāng)可觀,就像學(xué)生的考試成績從70分提高到78分。
在強化學(xué)習(xí)階段,ReasonFlux-PRM的指導(dǎo)作用同樣顯著。相比于傳統(tǒng)的訓(xùn)練方法,使用新系統(tǒng)指導(dǎo)的AI模型在推理能力上平均提升了4.5%。雖然這個數(shù)字看起來不大,但在AI領(lǐng)域,即使1%的提升都可能代表著重大突破。
在實際應(yīng)用中的"多選一"策略也表現(xiàn)出色,平均性能提升達到6.3%。這意味著用戶在使用AI系統(tǒng)時能夠獲得更準(zhǔn)確、更可靠的回答。
特別值得一提的是,研究團隊還開發(fā)了一個輕量級版本的ReasonFlux-PRM,參數(shù)量只有15億,相比于70億參數(shù)的完整版本要小得多。這個小型版本專門為資源受限的應(yīng)用場景設(shè)計,比如移動設(shè)備或邊緣計算環(huán)境。雖然體積小,但這個輕量級版本在許多任務(wù)上的表現(xiàn)依然令人滿意,展現(xiàn)了技術(shù)的實用性。
研究團隊還進行了詳細(xì)的效率分析。他們發(fā)現(xiàn),雖然ReasonFlux-PRM會增加一些計算開銷,但這種開銷是完全可以接受的。更重要的是,通過精心篩選訓(xùn)練數(shù)據(jù),新系統(tǒng)實際上可以減少總的訓(xùn)練時間。這就像通過精心挑選食材,雖然挑選過程需要時間,但最終能夠更快地烹飪出美味佳肴。
為了更直觀地展示ReasonFlux-PRM的能力,研究團隊提供了一些具體的案例研究。在一個數(shù)學(xué)問題的解答中,系統(tǒng)成功識別出了AI思考過程中出現(xiàn)錯誤的具體步驟,并給出了相應(yīng)的低分評價。而對于另一個正確解答的案例,系統(tǒng)不僅給出了高分,還準(zhǔn)確識別出了解題過程中的亮點步驟。
這種精細(xì)化的評估能力具有重要的教育意義。未來,這項技術(shù)可能被應(yīng)用到在線教育平臺中,為學(xué)生提供更精準(zhǔn)的學(xué)習(xí)反饋。系統(tǒng)不僅能告訴學(xué)生答案是否正確,還能詳細(xì)分析學(xué)生的思考過程,指出具體的優(yōu)點和改進空間。
研究團隊對這項工作的局限性也很坦誠。目前的系統(tǒng)主要針對數(shù)學(xué)和科學(xué)推理任務(wù)進行了優(yōu)化,對于更開放性的任務(wù)(如創(chuàng)意寫作或常識對話)可能需要進一步的調(diào)整。此外,系統(tǒng)的訓(xùn)練需要高質(zhì)量的思考軌跡數(shù)據(jù),而獲取這些數(shù)據(jù)本身就是一個挑戰(zhàn)。
不過,研究團隊對未來的發(fā)展前景很樂觀。他們認(rèn)為,隨著AI模型變得越來越復(fù)雜,能夠理解和評估復(fù)雜思考過程的技術(shù)將變得越來越重要。ReasonFlux-PRM代表了這個方向上的重要一步,為AI系統(tǒng)的進一步發(fā)展奠定了基礎(chǔ)。
從更廣闊的視角來看,這項研究反映了AI發(fā)展的一個重要趨勢:從關(guān)注最終結(jié)果轉(zhuǎn)向關(guān)注整個思考過程。這種轉(zhuǎn)變不僅有助于提高AI系統(tǒng)的性能,還能增強AI的可解釋性和可信度。當(dāng)我們能夠理解AI是如何思考的,我們就能更好地信任和使用這些系統(tǒng)。
說到底,ReasonFlux-PRM的核心價值在于它為AI教育和訓(xùn)練提供了一種全新的視角。它不再把學(xué)習(xí)看作是從輸入到輸出的簡單映射,而是將其視為一個復(fù)雜的思考過程。這種理念上的轉(zhuǎn)變可能會深刻影響未來AI系統(tǒng)的設(shè)計和訓(xùn)練方式。歸根結(jié)底,這項研究告訴我們,在AI的世界里,思考的過程和結(jié)果同樣重要。對于普通用戶來說,這意味著未來的AI助手將不僅能給出正確答案,還能展示可靠的推理過程,讓人們更好地理解和信任AI的判斷。這項技術(shù)的成熟應(yīng)用,可能會讓AI教育變得更加個性化和精準(zhǔn),每個學(xué)習(xí)者都能獲得針對其思維特點的專門指導(dǎo)。有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過論文提供的開源代碼和模型進行進一步探索和實驗。
Q&A
Q1:ReasonFlux-PRM是什么?它能做什么? A:ReasonFlux-PRM是普林斯頓大學(xué)開發(fā)的AI評分系統(tǒng),專門用來評估AI的復(fù)雜思考過程。它不僅能看懂AI的最終答案,更重要的是能理解AI"思考"時的每一個步驟質(zhì)量,就像一位能看懂學(xué)生草稿的細(xì)心老師。
Q2:這個系統(tǒng)會不會讓AI變得更聰明? A:是的,實驗顯示使用ReasonFlux-PRM訓(xùn)練的AI模型在數(shù)學(xué)和科學(xué)推理上平均提升了4.5%-12.1%。它通過提供更精準(zhǔn)的學(xué)習(xí)反饋,幫助AI更好地掌握復(fù)雜的推理技能。
Q3:普通人能用到這項技術(shù)嗎?有什么實際好處? A:目前這項技術(shù)主要用于AI研究和開發(fā),但未來可能應(yīng)用到在線教育平臺中。對普通人的好處是AI助手會變得更可靠,不僅給出正確答案,還能展示清晰的推理過程,讓人更容易理解和信任。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。