想象一下,你擁有一個智能助手,這個助手不僅能理解你說的話,還能看懂圖片中的內容并解答復雜的數(shù)學問題。但問題是,它有時候會答非所問,或者明明看起來在認真思考,卻給出錯誤答案。為什么會這樣?如何讓這個助手變得更聰明?這正是上海交通大學魏來、李玉婷、鄭凱鵬等研究團隊在2025年5月發(fā)布的最新研究所關注的問題。
這項研究由上海交通大學計算機科學學院、上海創(chuàng)新研究院、中關村研究院和利哈伊大學的研究人員共同完成,并以《通過冷啟動強化學習提升多模態(tài)推理》為題發(fā)表在arXiv預印本平臺(arXiv:2505.22334v1)。研究團隊為了讓擁有視覺和語言能力的大型模型(也就是多模態(tài)大語言模型,簡稱MLLM)變得更擅長解決復雜推理問題,開發(fā)了一種全新的訓練方法。
在解釋這項研究之前,我們先來聊聊背景。近年來,像ChatGPT這樣的大語言模型(LLM)展現(xiàn)出了令人印象深刻的推理能力,它們能夠一步步分析問題并給出解決方案。這種能力被稱為"思維鏈"(Chain-of-Thought)推理。特別是,當這些模型在解題過程中突然意識到自己的錯誤并進行自我糾正時,研究人員稱之為"啊哈時刻"(aha moment)。許多研究者認為,強化學習(RL)是培養(yǎng)這種能力的關鍵。
但是,當這種能力被應用到既能看圖又能理解文字的多模態(tài)模型時,情況變得更加復雜。想象一下,模型不僅要理解文字描述的數(shù)學問題,還要看懂題目中的幾何圖形、圖表或表格,然后正確分析并解答。這就像是讓一個學生同時應對數(shù)學、物理和藝術鑒賞的綜合考試,難度陡然提升。
現(xiàn)在,來看看上海交大團隊的研究發(fā)現(xiàn)和創(chuàng)新方法。
一、"啊哈時刻"的迷思:自我反思不等于真正的思考能力
研究團隊首先發(fā)現(xiàn)了一個有趣的現(xiàn)象:許多研究者認為強化學習可以讓模型產生"啊哈時刻",即模型能夠自我反思并糾正錯誤,這被視為思考能力提升的標志。然而,上海交大團隊通過實驗發(fā)現(xiàn),這種反思模式實際上在未經強化學習訓練的模型中就已經存在!
具體來說,研究團隊對Qwen2.5-VL模型進行了測試,發(fā)現(xiàn)該模型在回答問題時已經會使用"讓我們重新評估"、"讓我們重新檢查"等反思性表達。更重要的是,他們發(fā)現(xiàn)這些看似反思的表達與模型實際推理能力之間并沒有正相關關系。
想象一下,這就像一個學生在考試中寫道:"等等,我剛才的思路可能有問題,讓我重新思考一下..."但實際上,他仍然得出了錯誤答案。這種表面的自我反思并不能真正提高解題能力。
研究團隊舉了一個具體例子:當一個模型被問到"在平行四邊形ABCD中,如果角B和角D的和為100°,那么角A的度數(shù)是多少?"時,模型會先假設一些條件,然后突然說:"這是不正確的,我們需要重新評估問題。"雖然它表現(xiàn)出了反思的跡象,但最終給出的答案仍然是錯誤的。
這一發(fā)現(xiàn)顛覆了之前的普遍觀點,表明"啊哈時刻"可能只是一種表面現(xiàn)象,而非真正推理能力提升的證據。研究團隊將這種現(xiàn)象形象地比喻為"海市蜃樓"——看起來像是思考能力的提升,實際上可能只是表達方式的變化。
二、冷啟動強化學習:兩階段訓練的創(chuàng)新方法
基于上述發(fā)現(xiàn),研究團隊提出了一種新的訓練方法:冷啟動強化學習。這種方法包含兩個關鍵階段:
第一階段是"冷啟動",就像汽車在寒冷的冬天需要先熱一會兒發(fā)動機才能正常行駛一樣。研究團隊使用監(jiān)督微調(Supervised Fine-Tuning,簡稱SFT)的方法,讓模型學習高質量的推理模式。這就像是先給學生提供詳細的解題步驟和思考方法,讓他們掌握基本的思維框架。
研究團隊探索了多種構建"思維鏈"數(shù)據的方法:
1. 蒸餾式思維鏈(Distilled-CoT):研究團隊使用更大的模型(如Qwen2.5-VL-7B和Qwen2.5-VL-32B)生成高質量的思維鏈回答,然后讓較小的模型學習這些思維模式。這就像是讓優(yōu)秀的老師示范解題,然后讓學生模仿學習。
2. 反思式思維鏈(Reflection-CoT):研究團隊收集了包含正確和錯誤回答的數(shù)據,并創(chuàng)建了一種兩步推理模式。當模型給出錯誤答案后,添加一段反思性文字(如"等等,讓我們從不同角度思考一下..."),然后提供正確答案。這就像教導學生在犯錯后如何進行有效的自我糾正。
3. 描述式思維鏈(Caption-CoT):模型先描述圖像內容,再提供答案。這就像教導學生先仔細觀察題目中的圖形或圖表,理解題意后再解答。
4. 自我批評式思維鏈(Self-Critic-CoT):模型先生成初步答案,然后對自己的回答進行批評性評估,最后提供改進后的最終答案。這就像教導學生如何批判性地審視自己的解題過程。
第二階段是強化學習,研究團隊使用了GRPO(Group-Regularized Policy Optimization)算法。在這個階段,模型通過不斷嘗試和獲得反饋來優(yōu)化自己的推理能力。就像一個學生在掌握了基本解題方法后,通過大量練習和反饋不斷提升自己的能力。
這種兩階段方法的核心思想是:先給模型提供高質量的推理模式作為基礎(冷啟動),然后通過強化學習進一步優(yōu)化和激活這些能力。就像是先教會學生正確的解題方法,然后通過大量練習和反饋幫助他們真正掌握并靈活運用這些方法。
三、實驗結果:小模型也能有大智慧
研究團隊在四個多模態(tài)數(shù)學推理基準測試上評估了他們的方法:MathVision、MathVista、MathVerse和We-Math。這些測試涵蓋了各種復雜的視覺數(shù)學問題,包括幾何題、圖表分析和表格理解等。
實驗結果令人印象深刻。在7B參數(shù)規(guī)模(相當于較大的模型)上,他們的方法相比基礎模型(Qwen2.5-VL-7B)取得了顯著提升:在MathVista上從66.3%提升到73.4%,在We-Math上從62.9%提升到70.4%。平均而言,他們的7B模型在所有基準測試上的得分提高了6.19分。
更令人驚訝的是,他們的3B參數(shù)規(guī)模模型(相當于較小的模型)也取得了出色的表現(xiàn)。平均而言,3B模型的得分提高了10.84分,甚至在某些測試中超過了一些7B規(guī)模的模型,如Qwen2.5-VL-7B和VLAA-Thinker-7B。這就像是一個初中生通過有效的學習方法,在某些題目上能夠超越高中生的表現(xiàn)!
為了更好地理解"冷啟動"和強化學習之間的關系,研究團隊進行了大量的消融實驗(即移除某些組件來觀察效果變化的實驗)。他們發(fā)現(xiàn):
1. 單獨使用監(jiān)督微調(SFT)或強化學習(RL)都能提高模型性能,但兩者結合效果最佳。這就像學習任何技能一樣,理論學習(SFT)和實踐練習(RL)相結合才能取得最佳效果。
2. 冷啟動階段的性能與最終模型質量有很強的正相關關系。這表明投資高質量的監(jiān)督數(shù)據是至關重要的。就像是奠定良好的基礎知識對學生的長期學習成果至關重要。
3. 從更強大的模型(如32B參數(shù)模型)中蒸餾知識,效果優(yōu)于從較小模型(如7B參數(shù)模型)中蒸餾。這就像是向特級教師學習比向普通教師學習更有效。
四、重新審視"啊哈時刻":形式與實質的區(qū)別
研究團隊還專門設計了實驗來重新評估"啊哈時刻"的作用。他們構建了一個只包含展示"啊哈時刻"模式的數(shù)據集(Reflection-CoT v2),并與隨機選擇的32B模型蒸餾數(shù)據進行比較。
結果顯示,在"啊哈時刻"數(shù)據上訓練的模型實際上表現(xiàn)不如在隨機選擇數(shù)據上訓練的模型。這進一步證明了"啊哈時刻"的表面形式并不能真正提升模型的推理能力。
研究團隊還探究了數(shù)據質量對模型性能的影響。他們發(fā)現(xiàn),即使使用包含錯誤答案的數(shù)據進行訓練,模型仍然能從中學習到有用的推理結構。這表明思維鏈推理中的結構模式可以獨立于解題正確性而被學習。就像學生可以從錯誤示例中學習解題的邏輯結構,即使答案本身是錯誤的。
五、研究意義與未來展望
這項研究的意義遠超模型性能的提升。它揭示了一個重要洞見:看似高級的反思能力("啊哈時刻")可能只是一種表面現(xiàn)象,而真正的推理能力提升需要更加系統(tǒng)和有針對性的訓練方法。
研究團隊的兩階段訓練方法——先進行監(jiān)督微調,再進行強化學習——為開發(fā)具有高級推理能力的多模態(tài)模型提供了一個可行且有效的框架。特別是,他們的方法能夠讓較小規(guī)模的模型(3B參數(shù))達到接近甚至超越某些較大模型(7B參數(shù))的性能,這對于資源受限的應用場景具有重要意義。
未來,這種訓練方法可能被應用于各種需要復雜推理的多模態(tài)任務,如醫(yī)學圖像分析、科學文獻理解、復雜圖表解讀等。隨著模型能力的提升,我們可能會看到更多智能助手能夠準確理解并解答涉及文字和圖像的復雜問題,為教育、科研和日常生活帶來便利。
總的來說,上海交大團隊的研究不僅提升了多模態(tài)模型的推理能力,還為我們理解和培養(yǎng)人工智能的"思考能力"提供了新的視角。他們的方法就像是為AI提供了一套更系統(tǒng)、更有效的"學習方法",而不僅僅是讓AI模仿表面的思考過程。隨著這類研究的深入,未來的AI助手可能會更加真正地"理解"我們的問題,而不僅僅是表面上看起來在思考。
有興趣深入了解這項研究的讀者可以通過GitHub(https://github.com/waltonfuture/RL-with-Cold-Start)訪問研究團隊的代碼,或直接查閱原論文(arXiv:2505.22334v1)獲取更詳細的技術細節(jié)。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據不同問題靈活調整內部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數(shù)據集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。