人工智能研究的一個(gè)長(zhǎng)期謎題終于有了新的突破。你是否好奇過(guò),為什么有些AI模型在數(shù)學(xué)題上訓(xùn)練后,竟然在邏輯推理甚至創(chuàng)意寫作上也表現(xiàn)出色?這種"舉一反三"的能力背后究竟隱藏著什么秘密?
這項(xiàng)由字節(jié)跳動(dòng)種子團(tuán)隊(duì)的何峰、陳子俊等研究人員與上海交通大學(xué)合作完成的研究,發(fā)表于2025年6月,為我們揭開了大型語(yǔ)言模型跨領(lǐng)域推理能力的神秘面紗。有興趣深入了解的讀者可以通過(guò)arXiv:2506.15211v1訪問(wèn)完整論文。研究團(tuán)隊(duì)提出了一個(gè)全新的理論假設(shè):AI模型之所以能在不同領(lǐng)域間自由轉(zhuǎn)換推理技能,是因?yàn)樗鼈冋莆樟艘环N叫做"推理原型"的抽象思維模式。
簡(jiǎn)單來(lái)說(shuō),推理原型就像是思維的"萬(wàn)能鑰匙"。正如熟練的廚師能夠用相同的基本烹飪技巧制作不同菜系的美食一樣,AI模型也能用相同的抽象推理模式解決看似完全不同的問(wèn)題。一道數(shù)學(xué)證明題和一個(gè)邏輯推理謎題,表面上風(fēng)馬牛不相及,但在抽象層面上,它們可能使用著相同的思維結(jié)構(gòu)和推理步驟。
為了驗(yàn)證這一假設(shè),研究團(tuán)隊(duì)開發(fā)了名為"ProtoReasoning"的創(chuàng)新框架。這個(gè)框架的核心思想是讓AI模型先在高度抽象的"原型語(yǔ)言"中練習(xí)推理,然后將這些技能遷移到具體的應(yīng)用場(chǎng)景中。他們選擇了兩種經(jīng)典的原型語(yǔ)言:Prolog用于邏輯推理訓(xùn)練,PDDL用于規(guī)劃任務(wù)訓(xùn)練。
Prolog可以理解為一種專門用來(lái)表達(dá)邏輯關(guān)系的"數(shù)學(xué)語(yǔ)言"。它能夠?qū)?fù)雜的邏輯問(wèn)題簡(jiǎn)化為最基本的事實(shí)和規(guī)則。比如,當(dāng)我們說(shuō)"所有的鳥都會(huì)飛,企鵝是鳥,那么企鵝會(huì)飛嗎?"這樣的問(wèn)題時(shí),Prolog會(huì)將其轉(zhuǎn)換為純粹的邏輯關(guān)系表達(dá),剝離掉所有具體的細(xì)節(jié),只保留推理的骨架結(jié)構(gòu)。這就像是將一個(gè)復(fù)雜的建筑簡(jiǎn)化為工程圖紙,讓AI能夠?qū)W⒂趯W(xué)習(xí)推理的基本架構(gòu)。
PDDL則是規(guī)劃領(lǐng)域的"通用語(yǔ)言",專門用來(lái)描述如何從一個(gè)狀態(tài)轉(zhuǎn)換到另一個(gè)狀態(tài)。無(wú)論是規(guī)劃一次旅行路線,還是安排工廠的生產(chǎn)流程,PDDL都能將這些問(wèn)題抽象為相同的基本元素:初始狀態(tài)、目標(biāo)狀態(tài)、可執(zhí)行的操作以及操作的前提條件和效果。這種抽象讓AI能夠掌握規(guī)劃思維的本質(zhì),而不被具體問(wèn)題的表面細(xì)節(jié)所困擾。
研究團(tuán)隊(duì)的實(shí)驗(yàn)設(shè)計(jì)可以說(shuō)是相當(dāng)巧妙。他們首先收集了大量的自然語(yǔ)言推理問(wèn)題,然后通過(guò)先進(jìn)的AI模型將這些問(wèn)題轉(zhuǎn)換為Prolog和PDDL格式。這個(gè)轉(zhuǎn)換過(guò)程不是簡(jiǎn)單的翻譯,而是一種"思維重構(gòu)",將問(wèn)題的表面形式剝離,露出其內(nèi)在的推理結(jié)構(gòu)。
更重要的是,他們建立了一套完善的驗(yàn)證系統(tǒng)。對(duì)于Prolog問(wèn)題,他們使用SWI-Prolog解釋器來(lái)驗(yàn)證答案的正確性;對(duì)于PDDL問(wèn)題,則使用VAL驗(yàn)證器來(lái)確保規(guī)劃方案的可行性。這種驗(yàn)證機(jī)制的價(jià)值在于,它能夠自動(dòng)生成大量正確的訓(xùn)練數(shù)據(jù),而不需要人工標(biāo)注。這就像有了一位永不疲倦的老師,能夠不斷出題并立即判斷答案的對(duì)錯(cuò)。
在PDDL規(guī)劃訓(xùn)練中,研究團(tuán)隊(duì)設(shè)計(jì)了三種不同的任務(wù)類型。第一種是"規(guī)劃生成",要求AI從頭開始制定完整的行動(dòng)計(jì)劃,就像讓AI成為一個(gè)項(xiàng)目經(jīng)理,需要安排從項(xiàng)目啟動(dòng)到完成的所有步驟。第二種是"規(guī)劃補(bǔ)全",給出部分計(jì)劃步驟,要求AI填補(bǔ)缺失的部分,這類似于讓AI成為一個(gè)顧問(wèn),幫助完善不完整的方案。第三種是"規(guī)劃重排",給出打亂順序的行動(dòng)步驟,要求AI重新排列出正確的執(zhí)行順序,這就像解一個(gè)行動(dòng)順序的拼圖游戲。
訓(xùn)練過(guò)程采用了精心設(shè)計(jì)的三階段策略。第一階段是"知識(shí)蒸餾",研究團(tuán)隊(duì)使用性能優(yōu)異的DeepSeek-R1模型為原始數(shù)據(jù)生成詳細(xì)的推理鏈,這就像讓一位經(jīng)驗(yàn)豐富的專家為初學(xué)者示范解題思路,不僅給出答案,還詳細(xì)解釋每一步的思考過(guò)程。
第二階段是"難度分層",通過(guò)讓模型多次嘗試解決同一問(wèn)題,根據(jù)成功率將問(wèn)題分為"具有挑戰(zhàn)性"、"中等難度"和"基礎(chǔ)級(jí)別"三個(gè)檔次。具體來(lái)說(shuō),如果模型10次嘗試中只成功0到3次,問(wèn)題被標(biāo)記為具有挑戰(zhàn)性;成功4到6次的為中等難度;成功7到9次的為基礎(chǔ)級(jí)別。那些模型完全解決不了或者總是能輕松解決的問(wèn)題則被排除在外,因?yàn)榍罢哌^(guò)于困難可能導(dǎo)致無(wú)效學(xué)習(xí),后者過(guò)于簡(jiǎn)單無(wú)法提供足夠的訓(xùn)練價(jià)值。
第三階段是"質(zhì)量篩選",使用在前一階段訓(xùn)練的改進(jìn)模型進(jìn)行最終的數(shù)據(jù)篩選,確保訓(xùn)練數(shù)據(jù)的高質(zhì)量。這個(gè)過(guò)程就像層層篩選優(yōu)質(zhì)食材一樣,最終保證模型接受的都是最有營(yíng)養(yǎng)價(jià)值的訓(xùn)練樣本。
實(shí)驗(yàn)結(jié)果令人印象深刻。在邏輯推理基準(zhǔn)測(cè)試Enigmata-Eval上,ProtoReasoning框架將模型性能從37.3%提升到42.0%,實(shí)現(xiàn)了4.7%的顯著改進(jìn)。在規(guī)劃任務(wù)上的提升更加明顯,Nexus-Hard基準(zhǔn)測(cè)試成績(jī)從53.1%躍升至59.5%,專門的規(guī)劃任務(wù)性能也從46.7%提高到53.0%,分別實(shí)現(xiàn)了6.4%和6.3%的改進(jìn)。
更令人驚喜的是,這種在抽象原型空間的訓(xùn)練不僅提升了目標(biāo)領(lǐng)域的性能,還展現(xiàn)出強(qiáng)大的泛化能力。在通用知識(shí)基準(zhǔn)MMLU上,模型性能從82.7%提升到86.7%,實(shí)現(xiàn)了4.0%的改進(jìn)。在數(shù)學(xué)推理基準(zhǔn)AIME24上也有1.0%的提升,從72.0%增長(zhǎng)到73.0%。這些結(jié)果充分證明了推理原型的存在及其價(jià)值。
為了進(jìn)一步驗(yàn)證推理原型假設(shè)的正確性,研究團(tuán)隊(duì)進(jìn)行了細(xì)致的對(duì)比實(shí)驗(yàn)。他們將同一批邏輯推理問(wèn)題分別轉(zhuǎn)換為Prolog格式和保持自然語(yǔ)言格式,然后分別訓(xùn)練兩個(gè)模型,最后比較它們?cè)谙嗤瑴y(cè)試集上的表現(xiàn)。
實(shí)驗(yàn)結(jié)果顯示,在Prolog原型表示上訓(xùn)練的模型,其性能與在自然語(yǔ)言上訓(xùn)練的模型相當(dāng),甚至在某些類別上表現(xiàn)更好。比如在密碼學(xué)問(wèn)題上,Prolog訓(xùn)練的模型實(shí)現(xiàn)了28.3%的提升,而自然語(yǔ)言訓(xùn)練的模型提升了26.1%。在圖論問(wèn)題上,兩種方法的提升幅度分別為15.4%和19.0%,非常接近。
這個(gè)發(fā)現(xiàn)具有重要意義。它表明,抽象的原型表示確實(shí)捕獲了推理問(wèn)題的本質(zhì)結(jié)構(gòu),而且這種結(jié)構(gòu)化的學(xué)習(xí)方式可以達(dá)到甚至超越傳統(tǒng)自然語(yǔ)言訓(xùn)練的效果。這就像學(xué)習(xí)音樂(lè)一樣,通過(guò)練習(xí)抽象的音階和和弦進(jìn)行,最終能夠演奏出優(yōu)美的具體樂(lè)曲。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:當(dāng)他們移除Prolog訓(xùn)練中的推理鏈(Chain-of-Thought)時(shí),模型性能急劇下降。這證實(shí)了顯式推理過(guò)程對(duì)于原型學(xué)習(xí)的重要性。抽象的原型表示必須配合清晰的推理步驟,才能真正發(fā)揮作用。這就像學(xué)習(xí)數(shù)學(xué),不僅要記住公式,更要理解推導(dǎo)過(guò)程。
從認(rèn)知科學(xué)的角度來(lái)看,這項(xiàng)研究為理解人類推理能力提供了新的視角。人類之所以能夠在不同領(lǐng)域間靈活運(yùn)用推理技能,很可能也是因?yàn)槲覀兊拇竽X中存在著類似的抽象推理原型。當(dāng)我們面對(duì)新問(wèn)題時(shí),大腦會(huì)自動(dòng)尋找合適的推理模式,然后將其應(yīng)用到具體情境中。
這種認(rèn)知機(jī)制的發(fā)現(xiàn)對(duì)AI教育和訓(xùn)練具有重要啟示。傳統(tǒng)的AI訓(xùn)練往往專注于特定領(lǐng)域的大量數(shù)據(jù)喂養(yǎng),就像讓學(xué)生反復(fù)做同一類型的題目。而ProtoReasoning框架提出了一種更高效的訓(xùn)練策略:先在抽象層面掌握推理的基本模式,再將這些模式應(yīng)用到具體問(wèn)題中。這種方法更接近人類的學(xué)習(xí)方式,也更有可能培養(yǎng)出真正具有通用推理能力的AI系統(tǒng)。
從技術(shù)實(shí)現(xiàn)的角度來(lái)看,ProtoReasoning框架的另一個(gè)優(yōu)勢(shì)是其可擴(kuò)展性。由于Prolog和PDDL都有成熟的解釋器和驗(yàn)證器,研究團(tuán)隊(duì)能夠自動(dòng)生成大量高質(zhì)量的訓(xùn)練數(shù)據(jù),而無(wú)需耗費(fèi)大量人力進(jìn)行標(biāo)注。這就像有了一臺(tái)自動(dòng)出題機(jī),能夠根據(jù)需要生成各種難度和類型的練習(xí)題,大大降低了數(shù)據(jù)準(zhǔn)備的成本。
研究團(tuán)隊(duì)在論文中誠(chéng)實(shí)地指出了當(dāng)前工作的局限性。他們承認(rèn),對(duì)"推理原型"的理論定義還不夠嚴(yán)格,缺乏形式化的數(shù)學(xué)框架。此外,跨領(lǐng)域遷移的具體機(jī)制仍需要更深入的理論探索。這種坦誠(chéng)的態(tài)度反映了真正的科學(xué)精神,也為后續(xù)研究指明了方向。
從應(yīng)用前景來(lái)看,ProtoReasoning框架有望在多個(gè)領(lǐng)域產(chǎn)生重要影響。在教育技術(shù)方面,它可能催生新型的AI輔導(dǎo)系統(tǒng),能夠教授學(xué)生抽象的思維模式,而不僅僅是具體的解題技巧。在自動(dòng)化軟件開發(fā)領(lǐng)域,基于這種框架訓(xùn)練的AI可能具備更強(qiáng)的跨領(lǐng)域問(wèn)題解決能力,能夠?qū)⒁粋€(gè)領(lǐng)域的解決方案遷移到另一個(gè)看似無(wú)關(guān)的領(lǐng)域。
在科學(xué)研究中,這種技術(shù)可能幫助發(fā)現(xiàn)不同學(xué)科之間的隱藏聯(lián)系,促進(jìn)跨學(xué)科創(chuàng)新。比如,一個(gè)在物理學(xué)中成功的推理模式可能也適用于生物學(xué)或經(jīng)濟(jì)學(xué)中的某些問(wèn)題。這種發(fā)現(xiàn)可能開啟全新的研究方向。
當(dāng)然,這項(xiàng)研究也引發(fā)了一些深層次的思考。如果AI真的能夠掌握抽象的推理原型,那么它們是否已經(jīng)具備了某種形式的"理解"能力?還是說(shuō),它們只是在更高的抽象層面進(jìn)行模式匹配?這個(gè)問(wèn)題觸及了AI意識(shí)和理解的哲學(xué)核心,需要更多的研究來(lái)探索。
此外,隨著AI系統(tǒng)推理能力的不斷增強(qiáng),我們也需要思考如何確保這些系統(tǒng)的安全性和可控性。具有強(qiáng)大跨領(lǐng)域推理能力的AI系統(tǒng),在帶來(lái)便利的同時(shí),也可能產(chǎn)生意想不到的行為。因此,在推進(jìn)技術(shù)發(fā)展的同時(shí),建立相應(yīng)的安全保障機(jī)制也顯得尤為重要。
研究團(tuán)隊(duì)在論文末尾表示,他們計(jì)劃開源相關(guān)的數(shù)據(jù)集和代碼,并在開源大型語(yǔ)言模型上復(fù)現(xiàn)實(shí)驗(yàn)結(jié)果,以便學(xué)術(shù)界能夠進(jìn)一步驗(yàn)證和發(fā)展這些研究成果。這種開放的態(tài)度有助于推動(dòng)整個(gè)領(lǐng)域的進(jìn)步,也體現(xiàn)了科學(xué)研究的協(xié)作精神。
總的來(lái)說(shuō),這項(xiàng)研究不僅在技術(shù)層面取得了顯著進(jìn)展,更重要的是為理解AI推理能力提供了全新的理論框架。通過(guò)引入推理原型的概念,研究團(tuán)隊(duì)為解釋和改進(jìn)AI的跨領(lǐng)域推理能力開辟了新的道路。這種基于抽象思維模式的訓(xùn)練方法,可能成為未來(lái)AI發(fā)展的重要方向,幫助我們構(gòu)建更加智能、更加通用的AI系統(tǒng)。
隨著這一理論框架的不斷完善和應(yīng)用,我們有理由期待,未來(lái)的AI系統(tǒng)將具備更加靈活和強(qiáng)大的推理能力,能夠像人類一樣在不同領(lǐng)域間自如地運(yùn)用抽象思維,真正實(shí)現(xiàn)"舉一反三"的智能水平。這不僅將推動(dòng)AI技術(shù)的發(fā)展,也將深化我們對(duì)智能本質(zhì)的認(rèn)識(shí),為人工智能向著更高層次發(fā)展奠定堅(jiān)實(shí)的理論基礎(chǔ)。
Q&A
Q1:什么是推理原型?它為什么這么重要? A:推理原型是一種抽象的思維模式,就像思維的"萬(wàn)能鑰匙"。它能讓AI掌握解決問(wèn)題的基本套路,然后在不同領(lǐng)域復(fù)用這些套路。重要之處在于,它解釋了為什么AI在數(shù)學(xué)上訓(xùn)練后,在邏輯推理甚至創(chuàng)意寫作上也能表現(xiàn)出色,這是AI"舉一反三"能力的秘密。
Q2:ProtoReasoning框架具體是怎么工作的? A:這個(gè)框架讓AI先在抽象的"原型語(yǔ)言"(如Prolog和PDDL)中練習(xí)推理,就像讓廚師先練基本刀工再做具體菜品。通過(guò)在這些抽象語(yǔ)言中訓(xùn)練,AI學(xué)會(huì)了推理的基本結(jié)構(gòu),然后能將這些技能遷移到具體的應(yīng)用場(chǎng)景中。
Q3:這項(xiàng)研究會(huì)對(duì)普通人的生活產(chǎn)生什么影響? A:未來(lái)可能出現(xiàn)更智能的AI助手,能夠跨領(lǐng)域解決問(wèn)題。比如,一個(gè)在數(shù)學(xué)上訓(xùn)練的AI也能幫你做邏輯推理、規(guī)劃行程甚至協(xié)助創(chuàng)意寫作。在教育上,可能產(chǎn)生新型AI輔導(dǎo)系統(tǒng),教授抽象思維模式而不只是具體解題技巧。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。