大型語言模型(LLMs)在數(shù)學(xué)和編程領(lǐng)域展現(xiàn)出令人矚目的推理能力,這些能力往往通過對更強(qiáng)大模型生成的思維鏈(Chain-of-Thoughts,簡稱CoTs)進(jìn)行后訓(xùn)練而得到加強(qiáng)。然而,當(dāng)前篩選訓(xùn)練數(shù)據(jù)的策略主要依賴于啟發(fā)式方法,這限制了其通用性,也無法捕捉數(shù)據(jù)中隱藏的微妙特性。2025年5月,上海交通大學(xué)的寇思奇、田清源、徐瀚文、曾子豪和鄧志杰團(tuán)隊(duì)在arXiv預(yù)印本平臺(arXiv:2505.19949v1)發(fā)表了一項(xiàng)創(chuàng)新研究,他們利用影響函數(shù)這一工具,系統(tǒng)地將LLMs在數(shù)學(xué)和編程領(lǐng)域的推理能力歸因于特定的訓(xùn)練樣本、序列和詞元,從而深入探索了有效數(shù)據(jù)特征的奧秘。
想象一下,如果你正在訓(xùn)練一個AI助手來解決數(shù)學(xué)問題和編寫代碼,你會給它提供什么樣的練習(xí)材料?是難度較高的大學(xué)數(shù)學(xué)題,還是簡單直觀的編程任務(wù)?或者兩者的某種組合?這個問題對于構(gòu)建高效的AI推理系統(tǒng)至關(guān)重要,而上海交通大學(xué)的研究團(tuán)隊(duì)給出了令人意外的答案。
研究團(tuán)隊(duì)開發(fā)的"基于影響力的推理歸因"(Influence-based Reasoning Attribution,簡稱Infra)方法揭示了數(shù)學(xué)和編程領(lǐng)域之間存在非平凡的交叉影響:高難度數(shù)學(xué)例題能同時(shí)提升AI在數(shù)學(xué)和代碼推理方面的能力,而低難度的編程任務(wù)則對提升代碼推理能力最有效。基于這些發(fā)現(xiàn),研究者提出了一個簡單卻有效的數(shù)據(jù)重新權(quán)重策略——翻轉(zhuǎn)任務(wù)難度(對簡單數(shù)學(xué)問題增加難度,對復(fù)雜編程問題降低難度),這一策略使Qwen2.5-7B-Instruct模型在AIME24測試中的準(zhǔn)確率從10%翻倍至20%,在LiveCodeBench測試中的準(zhǔn)確率從33.8%提升至35.3%。
此外,他們的細(xì)粒度歸因分析還揭示了序列級別的探索行為能增強(qiáng)數(shù)學(xué)和代碼推理性能,以及詞元級別的影響模式在數(shù)學(xué)和代碼推理中有明顯區(qū)別:前者偏好自然語言邏輯連接詞,后者則強(qiáng)調(diào)結(jié)構(gòu)化語法。
一、影響函數(shù):追蹤數(shù)據(jù)對模型行為的影響
想象你正在教一個孩子解決問題。有些教學(xué)方法特別有效,而有些則不然。但具體是哪些教學(xué)內(nèi)容讓孩子進(jìn)步最快呢?影響函數(shù)就像是一個能回答這個問題的神奇工具。
研究團(tuán)隊(duì)采用了影響函數(shù)這一經(jīng)典技術(shù),用它來追蹤單個訓(xùn)練數(shù)據(jù)對模型行為的影響。簡單來說,影響函數(shù)可以告訴我們:"如果我增加這個特定訓(xùn)練樣本的權(quán)重,模型的性能會如何變化?"這就像是衡量每個教學(xué)例子對學(xué)生進(jìn)步的具體貢獻(xiàn)。
基于先前關(guān)于LLMs影響函數(shù)的研究,團(tuán)隊(duì)定義了一個易于實(shí)施且高效的影響函數(shù),專門用于面向推理的監(jiān)督微調(diào)(SFT)過程。他們還將實(shí)例級影響函數(shù)擴(kuò)展到更細(xì)粒度的變體,包括序列級和詞元級,以進(jìn)行深入的數(shù)據(jù)歸因分析。
二、基礎(chǔ)數(shù)學(xué)和代碼推理的交叉影響研究
研究團(tuán)隊(duì)首先調(diào)查了基本數(shù)學(xué)和代碼推理場景中的交叉影響,這些場景不涉及長思維鏈。他們用MetaMathQA和OSS-Instruct數(shù)據(jù)集的混合對LLaMA3-8B-Base模型進(jìn)行了微調(diào),并計(jì)算了這些訓(xùn)練數(shù)據(jù)對GSM8k(一種數(shù)學(xué)測試)和MBPP(一種編程測試)準(zhǔn)確率的影響函數(shù)。
通過對所有訓(xùn)練數(shù)據(jù)按影響分?jǐn)?shù)排名,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個有趣的現(xiàn)象:雖然領(lǐng)域內(nèi)的數(shù)據(jù)(如數(shù)學(xué)數(shù)據(jù)對數(shù)學(xué)測試)產(chǎn)生的影響分?jǐn)?shù)最高,但跨領(lǐng)域數(shù)據(jù)(如代碼數(shù)據(jù)對數(shù)學(xué)測試)也做出了非平凡的貢獻(xiàn)。更具體地說,通過按類別和難度聚合這些分?jǐn)?shù),他們發(fā)現(xiàn)符號數(shù)學(xué)示例和高難度數(shù)學(xué)問題對提高代碼推理特別有效。
想象一下,這就像是學(xué)習(xí)彈鋼琴幫助你提高了數(shù)學(xué)能力,或者解決復(fù)雜數(shù)學(xué)問題提升了你的編程技巧。這種跨領(lǐng)域的技能遷移在人類學(xué)習(xí)中并不罕見,現(xiàn)在我們看到AI學(xué)習(xí)也遵循類似的模式。
三、復(fù)雜思維鏈推理中的數(shù)據(jù)影響分析
接下來,研究團(tuán)隊(duì)將Infra方法擴(kuò)展到更復(fù)雜的長思維鏈推理場景。他們在Bespoke-Stratos-17k數(shù)據(jù)集上微調(diào)了Qwen2.5-7B-Instruct模型,并使用AIME、MATH500和LiveCodeBench基準(zhǔn)測試來測量影響。
與早期發(fā)現(xiàn)一致,他們再次觀察到跨領(lǐng)域增益,更難的數(shù)學(xué)問題更好地幫助了代碼推理。更進(jìn)一步,他們發(fā)現(xiàn)高難度的數(shù)學(xué)和代碼示例對數(shù)學(xué)推理更有影響,而低難度的代碼任務(wù)對代碼推理貢獻(xiàn)最大。
這個發(fā)現(xiàn)可以類比為:要培養(yǎng)全面的解決問題能力,你需要練習(xí)解決困難的數(shù)學(xué)問題;但要提高編程技能,簡單清晰的編程練習(xí)與數(shù)學(xué)思維相結(jié)合會更有效。
基于這些見解,研究團(tuán)隊(duì)采取了一個巧妙的策略:在訓(xùn)練數(shù)據(jù)中,將簡單數(shù)學(xué)問題的難度提高,將困難代碼任務(wù)的難度降低。這種"翻轉(zhuǎn)難度"的策略顯著提升了模型性能,證明了研究發(fā)現(xiàn)的實(shí)用價(jià)值。
四、序列級和詞元級的細(xì)粒度歸因分析
除了實(shí)例級分析外,研究團(tuán)隊(duì)還進(jìn)行了更細(xì)粒度的序列和詞元級歸因。
在序列級分析中,他們發(fā)現(xiàn)一種特殊的認(rèn)知行為非常有益:即使在找到正確答案后,繼續(xù)探索替代方法的行為(稱為"探索行為")顯著提升了數(shù)學(xué)和代碼推理性能。這有點(diǎn)像學(xué)生在解決問題后,不滿足于一種解法,而是繼續(xù)思考其他可能的解決途徑。雖然之前的研究可能將此視為"過度思考",但數(shù)據(jù)表明,這種探索實(shí)際上對培養(yǎng)更強(qiáng)大、更通用的推理能力非常有價(jià)值。
在詞元級分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)數(shù)學(xué)和代碼推理中的影響模式有明顯區(qū)別。在數(shù)學(xué)思維鏈中,最有影響力的詞元是自然語言邏輯連接詞,如"等待"、"然而"、"驗(yàn)證"、"因此"等;而在代碼思維鏈中,最有影響力的詞元是結(jié)構(gòu)或語法元素,如Markdown樣式標(biāo)題、代碼塊標(biāo)記和語法標(biāo)記。
這種對比凸顯了推理范式的差異:數(shù)學(xué)推理更依賴于邏輯話語,而代碼推理則由明確的結(jié)構(gòu)和格式促成。這些不同的模式可能解釋了為什么結(jié)構(gòu)更清晰的簡單代碼問題與已經(jīng)提供強(qiáng)邏輯技能的數(shù)學(xué)思維鏈結(jié)合時(shí),特別有利于增強(qiáng)代碼推理。
想象成學(xué)習(xí)風(fēng)格的差異:有些人通過邏輯推理和批判性思維學(xué)習(xí)最好(類似數(shù)學(xué)推理),而其他人則通過結(jié)構(gòu)化框架和模式識別學(xué)習(xí)最好(類似代碼推理)。研究表明,結(jié)合這兩種方法——但以適當(dāng)?shù)碾y度級別——可以產(chǎn)生最佳結(jié)果。
五、結(jié)論與啟示
這項(xiàng)研究對人工智能教育和訓(xùn)練策略有深遠(yuǎn)的啟示。就像人類教育中,我們不會給初學(xué)者最困難的問題,也不會讓高級學(xué)習(xí)者只做簡單練習(xí)一樣,AI訓(xùn)練也需要精心設(shè)計(jì)的學(xué)習(xí)材料。
研究表明,訓(xùn)練強(qiáng)大的AI推理系統(tǒng)的最佳策略是:提供困難的數(shù)學(xué)問題來培養(yǎng)深度邏輯思維能力,結(jié)合相對簡單但結(jié)構(gòu)清晰的編程任務(wù)來發(fā)展代碼生成技能。此外,鼓勵"探索性思維"——在找到答案后繼續(xù)探索替代方法——對培養(yǎng)全面的推理能力至關(guān)重要。
上海交通大學(xué)的這項(xiàng)研究不僅揭示了數(shù)據(jù)特征如何影響AI推理能力,還提供了實(shí)用的策略來優(yōu)化訓(xùn)練數(shù)據(jù)。這些發(fā)現(xiàn)為構(gòu)建更強(qiáng)大、更通用的AI推理系統(tǒng)鋪平了道路,也讓我們對AI如何"學(xué)習(xí)思考"有了更深入的理解。
對于未來的研究方向,團(tuán)隊(duì)指出了一些局限性,如他們在近似Hessian矩陣時(shí)僅考慮了MLP參數(shù)并將注意力視為固定,以簡化影響函數(shù)計(jì)算。此外,他們的分析僅限于數(shù)學(xué)和編程推理任務(wù),將此框架擴(kuò)展到其他領(lǐng)域,如常識推理,仍是未來研究的開放方向。
總的來說,這項(xiàng)研究不僅在技術(shù)上取得了突破,還為我們理解和優(yōu)化AI學(xué)習(xí)過程提供了寶貴見解,就像理解人類如何學(xué)習(xí)和思考一樣重要。這為未來更智能、更適應(yīng)性強(qiáng)的AI系統(tǒng)開發(fā)提供了堅(jiān)實(shí)基礎(chǔ)。
好文章,需要你的鼓勵
這項(xiàng)研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。