av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 數(shù)學(xué)和代碼推理力的關(guān)鍵數(shù)據(jù)特征是什么?上海交通大學(xué)團(tuán)隊(duì)用影響函數(shù)揭示跨領(lǐng)域?qū)W習(xí)的奧秘

數(shù)學(xué)和代碼推理力的關(guān)鍵數(shù)據(jù)特征是什么?上海交通大學(xué)團(tuán)隊(duì)用影響函數(shù)揭示跨領(lǐng)域?qū)W習(xí)的奧秘

2025-05-29 14:50
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-29 14:50 ? 科技行者

大型語言模型(LLMs)在數(shù)學(xué)和編程領(lǐng)域展現(xiàn)出令人矚目的推理能力,這些能力往往通過對更強(qiáng)大模型生成的思維鏈(Chain-of-Thoughts,簡稱CoTs)進(jìn)行后訓(xùn)練而得到加強(qiáng)。然而,當(dāng)前篩選訓(xùn)練數(shù)據(jù)的策略主要依賴于啟發(fā)式方法,這限制了其通用性,也無法捕捉數(shù)據(jù)中隱藏的微妙特性。2025年5月,上海交通大學(xué)的寇思奇、田清源、徐瀚文、曾子豪和鄧志杰團(tuán)隊(duì)在arXiv預(yù)印本平臺(arXiv:2505.19949v1)發(fā)表了一項(xiàng)創(chuàng)新研究,他們利用影響函數(shù)這一工具,系統(tǒng)地將LLMs在數(shù)學(xué)和編程領(lǐng)域的推理能力歸因于特定的訓(xùn)練樣本、序列和詞元,從而深入探索了有效數(shù)據(jù)特征的奧秘。

想象一下,如果你正在訓(xùn)練一個AI助手來解決數(shù)學(xué)問題和編寫代碼,你會給它提供什么樣的練習(xí)材料?是難度較高的大學(xué)數(shù)學(xué)題,還是簡單直觀的編程任務(wù)?或者兩者的某種組合?這個問題對于構(gòu)建高效的AI推理系統(tǒng)至關(guān)重要,而上海交通大學(xué)的研究團(tuán)隊(duì)給出了令人意外的答案。

研究團(tuán)隊(duì)開發(fā)的"基于影響力的推理歸因"(Influence-based Reasoning Attribution,簡稱Infra)方法揭示了數(shù)學(xué)和編程領(lǐng)域之間存在非平凡的交叉影響:高難度數(shù)學(xué)例題能同時(shí)提升AI在數(shù)學(xué)和代碼推理方面的能力,而低難度的編程任務(wù)則對提升代碼推理能力最有效。基于這些發(fā)現(xiàn),研究者提出了一個簡單卻有效的數(shù)據(jù)重新權(quán)重策略——翻轉(zhuǎn)任務(wù)難度(對簡單數(shù)學(xué)問題增加難度,對復(fù)雜編程問題降低難度),這一策略使Qwen2.5-7B-Instruct模型在AIME24測試中的準(zhǔn)確率從10%翻倍至20%,在LiveCodeBench測試中的準(zhǔn)確率從33.8%提升至35.3%。

此外,他們的細(xì)粒度歸因分析還揭示了序列級別的探索行為能增強(qiáng)數(shù)學(xué)和代碼推理性能,以及詞元級別的影響模式在數(shù)學(xué)和代碼推理中有明顯區(qū)別:前者偏好自然語言邏輯連接詞,后者則強(qiáng)調(diào)結(jié)構(gòu)化語法。

一、影響函數(shù):追蹤數(shù)據(jù)對模型行為的影響

想象你正在教一個孩子解決問題。有些教學(xué)方法特別有效,而有些則不然。但具體是哪些教學(xué)內(nèi)容讓孩子進(jìn)步最快呢?影響函數(shù)就像是一個能回答這個問題的神奇工具。

研究團(tuán)隊(duì)采用了影響函數(shù)這一經(jīng)典技術(shù),用它來追蹤單個訓(xùn)練數(shù)據(jù)對模型行為的影響。簡單來說,影響函數(shù)可以告訴我們:"如果我增加這個特定訓(xùn)練樣本的權(quán)重,模型的性能會如何變化?"這就像是衡量每個教學(xué)例子對學(xué)生進(jìn)步的具體貢獻(xiàn)。

基于先前關(guān)于LLMs影響函數(shù)的研究,團(tuán)隊(duì)定義了一個易于實(shí)施且高效的影響函數(shù),專門用于面向推理的監(jiān)督微調(diào)(SFT)過程。他們還將實(shí)例級影響函數(shù)擴(kuò)展到更細(xì)粒度的變體,包括序列級和詞元級,以進(jìn)行深入的數(shù)據(jù)歸因分析。

二、基礎(chǔ)數(shù)學(xué)和代碼推理的交叉影響研究

研究團(tuán)隊(duì)首先調(diào)查了基本數(shù)學(xué)和代碼推理場景中的交叉影響,這些場景不涉及長思維鏈。他們用MetaMathQA和OSS-Instruct數(shù)據(jù)集的混合對LLaMA3-8B-Base模型進(jìn)行了微調(diào),并計(jì)算了這些訓(xùn)練數(shù)據(jù)對GSM8k(一種數(shù)學(xué)測試)和MBPP(一種編程測試)準(zhǔn)確率的影響函數(shù)。

通過對所有訓(xùn)練數(shù)據(jù)按影響分?jǐn)?shù)排名,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個有趣的現(xiàn)象:雖然領(lǐng)域內(nèi)的數(shù)據(jù)(如數(shù)學(xué)數(shù)據(jù)對數(shù)學(xué)測試)產(chǎn)生的影響分?jǐn)?shù)最高,但跨領(lǐng)域數(shù)據(jù)(如代碼數(shù)據(jù)對數(shù)學(xué)測試)也做出了非平凡的貢獻(xiàn)。更具體地說,通過按類別和難度聚合這些分?jǐn)?shù),他們發(fā)現(xiàn)符號數(shù)學(xué)示例和高難度數(shù)學(xué)問題對提高代碼推理特別有效。

想象一下,這就像是學(xué)習(xí)彈鋼琴幫助你提高了數(shù)學(xué)能力,或者解決復(fù)雜數(shù)學(xué)問題提升了你的編程技巧。這種跨領(lǐng)域的技能遷移在人類學(xué)習(xí)中并不罕見,現(xiàn)在我們看到AI學(xué)習(xí)也遵循類似的模式。

三、復(fù)雜思維鏈推理中的數(shù)據(jù)影響分析

接下來,研究團(tuán)隊(duì)將Infra方法擴(kuò)展到更復(fù)雜的長思維鏈推理場景。他們在Bespoke-Stratos-17k數(shù)據(jù)集上微調(diào)了Qwen2.5-7B-Instruct模型,并使用AIME、MATH500和LiveCodeBench基準(zhǔn)測試來測量影響。

與早期發(fā)現(xiàn)一致,他們再次觀察到跨領(lǐng)域增益,更難的數(shù)學(xué)問題更好地幫助了代碼推理。更進(jìn)一步,他們發(fā)現(xiàn)高難度的數(shù)學(xué)和代碼示例對數(shù)學(xué)推理更有影響,而低難度的代碼任務(wù)對代碼推理貢獻(xiàn)最大。

這個發(fā)現(xiàn)可以類比為:要培養(yǎng)全面的解決問題能力,你需要練習(xí)解決困難的數(shù)學(xué)問題;但要提高編程技能,簡單清晰的編程練習(xí)與數(shù)學(xué)思維相結(jié)合會更有效。

基于這些見解,研究團(tuán)隊(duì)采取了一個巧妙的策略:在訓(xùn)練數(shù)據(jù)中,將簡單數(shù)學(xué)問題的難度提高,將困難代碼任務(wù)的難度降低。這種"翻轉(zhuǎn)難度"的策略顯著提升了模型性能,證明了研究發(fā)現(xiàn)的實(shí)用價(jià)值。

四、序列級和詞元級的細(xì)粒度歸因分析

除了實(shí)例級分析外,研究團(tuán)隊(duì)還進(jìn)行了更細(xì)粒度的序列和詞元級歸因。

在序列級分析中,他們發(fā)現(xiàn)一種特殊的認(rèn)知行為非常有益:即使在找到正確答案后,繼續(xù)探索替代方法的行為(稱為"探索行為")顯著提升了數(shù)學(xué)和代碼推理性能。這有點(diǎn)像學(xué)生在解決問題后,不滿足于一種解法,而是繼續(xù)思考其他可能的解決途徑。雖然之前的研究可能將此視為"過度思考",但數(shù)據(jù)表明,這種探索實(shí)際上對培養(yǎng)更強(qiáng)大、更通用的推理能力非常有價(jià)值。

在詞元級分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)數(shù)學(xué)和代碼推理中的影響模式有明顯區(qū)別。在數(shù)學(xué)思維鏈中,最有影響力的詞元是自然語言邏輯連接詞,如"等待"、"然而"、"驗(yàn)證"、"因此"等;而在代碼思維鏈中,最有影響力的詞元是結(jié)構(gòu)或語法元素,如Markdown樣式標(biāo)題、代碼塊標(biāo)記和語法標(biāo)記。

這種對比凸顯了推理范式的差異:數(shù)學(xué)推理更依賴于邏輯話語,而代碼推理則由明確的結(jié)構(gòu)和格式促成。這些不同的模式可能解釋了為什么結(jié)構(gòu)更清晰的簡單代碼問題與已經(jīng)提供強(qiáng)邏輯技能的數(shù)學(xué)思維鏈結(jié)合時(shí),特別有利于增強(qiáng)代碼推理。

想象成學(xué)習(xí)風(fēng)格的差異:有些人通過邏輯推理和批判性思維學(xué)習(xí)最好(類似數(shù)學(xué)推理),而其他人則通過結(jié)構(gòu)化框架和模式識別學(xué)習(xí)最好(類似代碼推理)。研究表明,結(jié)合這兩種方法——但以適當(dāng)?shù)碾y度級別——可以產(chǎn)生最佳結(jié)果。

五、結(jié)論與啟示

這項(xiàng)研究對人工智能教育和訓(xùn)練策略有深遠(yuǎn)的啟示。就像人類教育中,我們不會給初學(xué)者最困難的問題,也不會讓高級學(xué)習(xí)者只做簡單練習(xí)一樣,AI訓(xùn)練也需要精心設(shè)計(jì)的學(xué)習(xí)材料。

研究表明,訓(xùn)練強(qiáng)大的AI推理系統(tǒng)的最佳策略是:提供困難的數(shù)學(xué)問題來培養(yǎng)深度邏輯思維能力,結(jié)合相對簡單但結(jié)構(gòu)清晰的編程任務(wù)來發(fā)展代碼生成技能。此外,鼓勵"探索性思維"——在找到答案后繼續(xù)探索替代方法——對培養(yǎng)全面的推理能力至關(guān)重要。

上海交通大學(xué)的這項(xiàng)研究不僅揭示了數(shù)據(jù)特征如何影響AI推理能力,還提供了實(shí)用的策略來優(yōu)化訓(xùn)練數(shù)據(jù)。這些發(fā)現(xiàn)為構(gòu)建更強(qiáng)大、更通用的AI推理系統(tǒng)鋪平了道路,也讓我們對AI如何"學(xué)習(xí)思考"有了更深入的理解。

對于未來的研究方向,團(tuán)隊(duì)指出了一些局限性,如他們在近似Hessian矩陣時(shí)僅考慮了MLP參數(shù)并將注意力視為固定,以簡化影響函數(shù)計(jì)算。此外,他們的分析僅限于數(shù)學(xué)和編程推理任務(wù),將此框架擴(kuò)展到其他領(lǐng)域,如常識推理,仍是未來研究的開放方向。

總的來說,這項(xiàng)研究不僅在技術(shù)上取得了突破,還為我們理解和優(yōu)化AI學(xué)習(xí)過程提供了寶貴見解,就像理解人類如何學(xué)習(xí)和思考一樣重要。這為未來更智能、更適應(yīng)性強(qiáng)的AI系統(tǒng)開發(fā)提供了堅(jiān)實(shí)基礎(chǔ)。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-