想象一下,你擁有一個智能助手,這個助手不僅能理解你說的話,還能看懂圖片中的內(nèi)容并解答復(fù)雜的數(shù)學(xué)問題。但問題是,它有時候會答非所問,或者明明看起來在認(rèn)真思考,卻給出錯誤答案。為什么會這樣?如何讓這個助手變得更聰明?這正是上海交通大學(xué)魏來、李玉婷、鄭凱鵬等研究團(tuán)隊在2025年5月發(fā)布的最新研究所關(guān)注的問題。
這項(xiàng)研究由上海交通大學(xué)計算機(jī)科學(xué)學(xué)院、上海創(chuàng)新研究院、中關(guān)村研究院和利哈伊大學(xué)的研究人員共同完成,并以《通過冷啟動強(qiáng)化學(xué)習(xí)提升多模態(tài)推理》為題發(fā)表在arXiv預(yù)印本平臺(arXiv:2505.22334v1)。研究團(tuán)隊為了讓擁有視覺和語言能力的大型模型(也就是多模態(tài)大語言模型,簡稱MLLM)變得更擅長解決復(fù)雜推理問題,開發(fā)了一種全新的訓(xùn)練方法。
在解釋這項(xiàng)研究之前,我們先來聊聊背景。近年來,像ChatGPT這樣的大語言模型(LLM)展現(xiàn)出了令人印象深刻的推理能力,它們能夠一步步分析問題并給出解決方案。這種能力被稱為"思維鏈"(Chain-of-Thought)推理。特別是,當(dāng)這些模型在解題過程中突然意識到自己的錯誤并進(jìn)行自我糾正時,研究人員稱之為"啊哈時刻"(aha moment)。許多研究者認(rèn)為,強(qiáng)化學(xué)習(xí)(RL)是培養(yǎng)這種能力的關(guān)鍵。
但是,當(dāng)這種能力被應(yīng)用到既能看圖又能理解文字的多模態(tài)模型時,情況變得更加復(fù)雜。想象一下,模型不僅要理解文字描述的數(shù)學(xué)問題,還要看懂題目中的幾何圖形、圖表或表格,然后正確分析并解答。這就像是讓一個學(xué)生同時應(yīng)對數(shù)學(xué)、物理和藝術(shù)鑒賞的綜合考試,難度陡然提升。
現(xiàn)在,來看看上海交大團(tuán)隊的研究發(fā)現(xiàn)和創(chuàng)新方法。
一、"啊哈時刻"的迷思:自我反思不等于真正的思考能力
研究團(tuán)隊首先發(fā)現(xiàn)了一個有趣的現(xiàn)象:許多研究者認(rèn)為強(qiáng)化學(xué)習(xí)可以讓模型產(chǎn)生"啊哈時刻",即模型能夠自我反思并糾正錯誤,這被視為思考能力提升的標(biāo)志。然而,上海交大團(tuán)隊通過實(shí)驗(yàn)發(fā)現(xiàn),這種反思模式實(shí)際上在未經(jīng)強(qiáng)化學(xué)習(xí)訓(xùn)練的模型中就已經(jīng)存在!
具體來說,研究團(tuán)隊對Qwen2.5-VL模型進(jìn)行了測試,發(fā)現(xiàn)該模型在回答問題時已經(jīng)會使用"讓我們重新評估"、"讓我們重新檢查"等反思性表達(dá)。更重要的是,他們發(fā)現(xiàn)這些看似反思的表達(dá)與模型實(shí)際推理能力之間并沒有正相關(guān)關(guān)系。
想象一下,這就像一個學(xué)生在考試中寫道:"等等,我剛才的思路可能有問題,讓我重新思考一下..."但實(shí)際上,他仍然得出了錯誤答案。這種表面的自我反思并不能真正提高解題能力。
研究團(tuán)隊舉了一個具體例子:當(dāng)一個模型被問到"在平行四邊形ABCD中,如果角B和角D的和為100°,那么角A的度數(shù)是多少?"時,模型會先假設(shè)一些條件,然后突然說:"這是不正確的,我們需要重新評估問題。"雖然它表現(xiàn)出了反思的跡象,但最終給出的答案仍然是錯誤的。
這一發(fā)現(xiàn)顛覆了之前的普遍觀點(diǎn),表明"啊哈時刻"可能只是一種表面現(xiàn)象,而非真正推理能力提升的證據(jù)。研究團(tuán)隊將這種現(xiàn)象形象地比喻為"海市蜃樓"——看起來像是思考能力的提升,實(shí)際上可能只是表達(dá)方式的變化。
二、冷啟動強(qiáng)化學(xué)習(xí):兩階段訓(xùn)練的創(chuàng)新方法
基于上述發(fā)現(xiàn),研究團(tuán)隊提出了一種新的訓(xùn)練方法:冷啟動強(qiáng)化學(xué)習(xí)。這種方法包含兩個關(guān)鍵階段:
第一階段是"冷啟動",就像汽車在寒冷的冬天需要先熱一會兒發(fā)動機(jī)才能正常行駛一樣。研究團(tuán)隊使用監(jiān)督微調(diào)(Supervised Fine-Tuning,簡稱SFT)的方法,讓模型學(xué)習(xí)高質(zhì)量的推理模式。這就像是先給學(xué)生提供詳細(xì)的解題步驟和思考方法,讓他們掌握基本的思維框架。
研究團(tuán)隊探索了多種構(gòu)建"思維鏈"數(shù)據(jù)的方法:
1. 蒸餾式思維鏈(Distilled-CoT):研究團(tuán)隊使用更大的模型(如Qwen2.5-VL-7B和Qwen2.5-VL-32B)生成高質(zhì)量的思維鏈回答,然后讓較小的模型學(xué)習(xí)這些思維模式。這就像是讓優(yōu)秀的老師示范解題,然后讓學(xué)生模仿學(xué)習(xí)。
2. 反思式思維鏈(Reflection-CoT):研究團(tuán)隊收集了包含正確和錯誤回答的數(shù)據(jù),并創(chuàng)建了一種兩步推理模式。當(dāng)模型給出錯誤答案后,添加一段反思性文字(如"等等,讓我們從不同角度思考一下..."),然后提供正確答案。這就像教導(dǎo)學(xué)生在犯錯后如何進(jìn)行有效的自我糾正。
3. 描述式思維鏈(Caption-CoT):模型先描述圖像內(nèi)容,再提供答案。這就像教導(dǎo)學(xué)生先仔細(xì)觀察題目中的圖形或圖表,理解題意后再解答。
4. 自我批評式思維鏈(Self-Critic-CoT):模型先生成初步答案,然后對自己的回答進(jìn)行批評性評估,最后提供改進(jìn)后的最終答案。這就像教導(dǎo)學(xué)生如何批判性地審視自己的解題過程。
第二階段是強(qiáng)化學(xué)習(xí),研究團(tuán)隊使用了GRPO(Group-Regularized Policy Optimization)算法。在這個階段,模型通過不斷嘗試和獲得反饋來優(yōu)化自己的推理能力。就像一個學(xué)生在掌握了基本解題方法后,通過大量練習(xí)和反饋不斷提升自己的能力。
這種兩階段方法的核心思想是:先給模型提供高質(zhì)量的推理模式作為基礎(chǔ)(冷啟動),然后通過強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化和激活這些能力。就像是先教會學(xué)生正確的解題方法,然后通過大量練習(xí)和反饋幫助他們真正掌握并靈活運(yùn)用這些方法。
三、實(shí)驗(yàn)結(jié)果:小模型也能有大智慧
研究團(tuán)隊在四個多模態(tài)數(shù)學(xué)推理基準(zhǔn)測試上評估了他們的方法:MathVision、MathVista、MathVerse和We-Math。這些測試涵蓋了各種復(fù)雜的視覺數(shù)學(xué)問題,包括幾何題、圖表分析和表格理解等。
實(shí)驗(yàn)結(jié)果令人印象深刻。在7B參數(shù)規(guī)模(相當(dāng)于較大的模型)上,他們的方法相比基礎(chǔ)模型(Qwen2.5-VL-7B)取得了顯著提升:在MathVista上從66.3%提升到73.4%,在We-Math上從62.9%提升到70.4%。平均而言,他們的7B模型在所有基準(zhǔn)測試上的得分提高了6.19分。
更令人驚訝的是,他們的3B參數(shù)規(guī)模模型(相當(dāng)于較小的模型)也取得了出色的表現(xiàn)。平均而言,3B模型的得分提高了10.84分,甚至在某些測試中超過了一些7B規(guī)模的模型,如Qwen2.5-VL-7B和VLAA-Thinker-7B。這就像是一個初中生通過有效的學(xué)習(xí)方法,在某些題目上能夠超越高中生的表現(xiàn)!
為了更好地理解"冷啟動"和強(qiáng)化學(xué)習(xí)之間的關(guān)系,研究團(tuán)隊進(jìn)行了大量的消融實(shí)驗(yàn)(即移除某些組件來觀察效果變化的實(shí)驗(yàn))。他們發(fā)現(xiàn):
1. 單獨(dú)使用監(jiān)督微調(diào)(SFT)或強(qiáng)化學(xué)習(xí)(RL)都能提高模型性能,但兩者結(jié)合效果最佳。這就像學(xué)習(xí)任何技能一樣,理論學(xué)習(xí)(SFT)和實(shí)踐練習(xí)(RL)相結(jié)合才能取得最佳效果。
2. 冷啟動階段的性能與最終模型質(zhì)量有很強(qiáng)的正相關(guān)關(guān)系。這表明投資高質(zhì)量的監(jiān)督數(shù)據(jù)是至關(guān)重要的。就像是奠定良好的基礎(chǔ)知識對學(xué)生的長期學(xué)習(xí)成果至關(guān)重要。
3. 從更強(qiáng)大的模型(如32B參數(shù)模型)中蒸餾知識,效果優(yōu)于從較小模型(如7B參數(shù)模型)中蒸餾。這就像是向特級教師學(xué)習(xí)比向普通教師學(xué)習(xí)更有效。
四、重新審視"啊哈時刻":形式與實(shí)質(zhì)的區(qū)別
研究團(tuán)隊還專門設(shè)計了實(shí)驗(yàn)來重新評估"啊哈時刻"的作用。他們構(gòu)建了一個只包含展示"啊哈時刻"模式的數(shù)據(jù)集(Reflection-CoT v2),并與隨機(jī)選擇的32B模型蒸餾數(shù)據(jù)進(jìn)行比較。
結(jié)果顯示,在"啊哈時刻"數(shù)據(jù)上訓(xùn)練的模型實(shí)際上表現(xiàn)不如在隨機(jī)選擇數(shù)據(jù)上訓(xùn)練的模型。這進(jìn)一步證明了"啊哈時刻"的表面形式并不能真正提升模型的推理能力。
研究團(tuán)隊還探究了數(shù)據(jù)質(zhì)量對模型性能的影響。他們發(fā)現(xiàn),即使使用包含錯誤答案的數(shù)據(jù)進(jìn)行訓(xùn)練,模型仍然能從中學(xué)習(xí)到有用的推理結(jié)構(gòu)。這表明思維鏈推理中的結(jié)構(gòu)模式可以獨(dú)立于解題正確性而被學(xué)習(xí)。就像學(xué)生可以從錯誤示例中學(xué)習(xí)解題的邏輯結(jié)構(gòu),即使答案本身是錯誤的。
五、研究意義與未來展望
這項(xiàng)研究的意義遠(yuǎn)超模型性能的提升。它揭示了一個重要洞見:看似高級的反思能力("啊哈時刻")可能只是一種表面現(xiàn)象,而真正的推理能力提升需要更加系統(tǒng)和有針對性的訓(xùn)練方法。
研究團(tuán)隊的兩階段訓(xùn)練方法——先進(jìn)行監(jiān)督微調(diào),再進(jìn)行強(qiáng)化學(xué)習(xí)——為開發(fā)具有高級推理能力的多模態(tài)模型提供了一個可行且有效的框架。特別是,他們的方法能夠讓較小規(guī)模的模型(3B參數(shù))達(dá)到接近甚至超越某些較大模型(7B參數(shù))的性能,這對于資源受限的應(yīng)用場景具有重要意義。
未來,這種訓(xùn)練方法可能被應(yīng)用于各種需要復(fù)雜推理的多模態(tài)任務(wù),如醫(yī)學(xué)圖像分析、科學(xué)文獻(xiàn)理解、復(fù)雜圖表解讀等。隨著模型能力的提升,我們可能會看到更多智能助手能夠準(zhǔn)確理解并解答涉及文字和圖像的復(fù)雜問題,為教育、科研和日常生活帶來便利。
總的來說,上海交大團(tuán)隊的研究不僅提升了多模態(tài)模型的推理能力,還為我們理解和培養(yǎng)人工智能的"思考能力"提供了新的視角。他們的方法就像是為AI提供了一套更系統(tǒng)、更有效的"學(xué)習(xí)方法",而不僅僅是讓AI模仿表面的思考過程。隨著這類研究的深入,未來的AI助手可能會更加真正地"理解"我們的問題,而不僅僅是表面上看起來在思考。
有興趣深入了解這項(xiàng)研究的讀者可以通過GitHub(https://github.com/waltonfuture/RL-with-Cold-Start)訪問研究團(tuán)隊的代碼,或直接查閱原論文(arXiv:2505.22334v1)獲取更詳細(xì)的技術(shù)細(xì)節(jié)。
好文章,需要你的鼓勵
這項(xiàng)研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時實(shí)現(xiàn)10倍速度提升,在七個基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。