av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 騰訊研究團(tuán)隊(duì)首次從理論高度解密AI為何需要工具,背后竟隱藏著這樣的數(shù)學(xué)原理

騰訊研究團(tuán)隊(duì)首次從理論高度解密AI為何需要工具,背后竟隱藏著這樣的數(shù)學(xué)原理

2025-09-02 09:33
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-02 09:33 ? 科技行者

這項(xiàng)由騰訊公司和清華大學(xué)的林恒、徐中文團(tuán)隊(duì)進(jìn)行的突破性研究,發(fā)表于2025年8月的計(jì)算機(jī)科學(xué)預(yù)印本服務(wù)器arXiv上(論文編號(hào):arXiv:2508.19201v1),有興趣深入了解的讀者可以通過該編號(hào)在arXiv網(wǎng)站上訪問完整論文。

當(dāng)今的AI語言模型就像是一位博學(xué)的學(xué)者,能夠流暢地對(duì)話、寫作、推理,但卻無法直接操作計(jì)算器、運(yùn)行代碼或搜索最新信息。為了讓AI變得更強(qiáng)大,研究者們開始為它們配備各種"工具"——比如Python代碼解釋器、搜索引擎、計(jì)算器等。這種被稱為"工具集成推理"的方法在實(shí)際應(yīng)用中表現(xiàn)驚人,但一直以來,沒有人能從理論層面清晰解釋為什么給AI配備工具會(huì)如此有效。

騰訊和清華的研究團(tuán)隊(duì)決定從數(shù)學(xué)原理的角度徹底解開這個(gè)謎團(tuán)。他們的發(fā)現(xiàn)不僅在理論層面具有開創(chuàng)性意義,更為AI系統(tǒng)的設(shè)計(jì)和優(yōu)化提供了全新的指導(dǎo)原則。這項(xiàng)研究首次用嚴(yán)格的數(shù)學(xué)證明揭示了工具集成推理的本質(zhì)機(jī)制,同時(shí)開發(fā)了一種全新的訓(xùn)練算法,讓AI能夠更早、更頻繁地使用工具,從而獲得更強(qiáng)的問題解決能力。

一、純文本AI的"隱形枷鎖"——為什么再怎么訓(xùn)練都有局限

要理解為什么AI需要工具,我們首先要明白純文本AI面臨的根本限制。目前主流的AI訓(xùn)練方法叫做強(qiáng)化學(xué)習(xí),可以把它理解為一個(gè)不斷改進(jìn)的過程:AI生成答案,人類給出好壞評(píng)價(jià),AI據(jù)此調(diào)整自己的行為。

然而,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)被稱為"隱形枷鎖"的重要現(xiàn)象。純文本AI在強(qiáng)化學(xué)習(xí)過程中,實(shí)際上被牢牢限制在它最初就能生成的答案范圍內(nèi)。換句話說,如果AI的基礎(chǔ)模型從來沒有生成過某種類型的推理路徑,那么即使通過大量訓(xùn)練,它也永遠(yuǎn)學(xué)不會(huì)這種推理方式。

這就像是一個(gè)只會(huì)做中式炒菜的廚師,無論你怎么鼓勵(lì)他創(chuàng)新,他也不可能突然學(xué)會(huì)做法式烘焙,因?yàn)樗闹R(shí)體系中根本沒有烘焙的基礎(chǔ)概念和步驟。AI也是如此——它只能在已有的"菜譜"中重新組合和優(yōu)化,卻無法創(chuàng)造出全新的"菜系"。

研究團(tuán)隊(duì)用數(shù)學(xué)方法嚴(yán)格證明了這種限制的存在。他們將AI能夠生成的所有可能答案定義為一個(gè)"支持集",就像是一個(gè)裝滿所有可能答案的大盒子。純文本AI在訓(xùn)練過程中,這個(gè)盒子的大小是固定的——它只能調(diào)整盒子里每個(gè)答案被選擇的概率,但絕對(duì)無法往盒子里添加新的答案類型。

這種限制在解決復(fù)雜數(shù)學(xué)問題時(shí)表現(xiàn)得尤為明顯。許多數(shù)學(xué)問題需要進(jìn)行大量重復(fù)計(jì)算、搜索所有可能的組合,或者驗(yàn)證復(fù)雜的數(shù)學(xué)關(guān)系。純文本AI要完成這些任務(wù),就必須用自然語言逐步描述每一個(gè)計(jì)算步驟,這不僅容易出錯(cuò),而且會(huì)消耗大量的"思考空間"(在AI術(shù)語中叫做"上下文窗口")。

二、工具集成如何打破枷鎖——數(shù)學(xué)證明背后的深刻原理

研究團(tuán)隊(duì)的核心發(fā)現(xiàn)是:當(dāng)AI配備外部工具后,它的"支持集"——也就是能夠生成的答案類型——會(huì)發(fā)生本質(zhì)性的擴(kuò)展。這種擴(kuò)展不是量的增加,而是質(zhì)的突破。

為了理解這個(gè)原理,我們可以想象兩個(gè)不同的問題解決場景。第一個(gè)場景中,你需要心算一個(gè)復(fù)雜的數(shù)學(xué)表達(dá)式,比如計(jì)算573×891+432÷17的精確結(jié)果。你必須在腦中逐步進(jìn)行每個(gè)運(yùn)算,容易出錯(cuò),而且需要記住很多中間結(jié)果。第二個(gè)場景中,你可以使用計(jì)算器,只需要輸入表達(dá)式就能立即得到準(zhǔn)確答案。

這兩種方法雖然都能解決同一個(gè)問題,但它們屬于完全不同的"策略類別"。研究團(tuán)隊(duì)將這種區(qū)別形式化為"計(jì)算等價(jià)類"的概念——雖然最終目標(biāo)相同,但解決路徑在本質(zhì)上完全不同。

更重要的是,研究團(tuán)隊(duì)提出了"令牌效率"的概念。AI處理信息的單位叫做"令牌"(token),就像人類思考時(shí)的"思維步驟"。對(duì)于涉及大量重復(fù)計(jì)算的問題,用自然語言描述每一步的成本是巨大的。假設(shè)你要檢查10000個(gè)數(shù)字中哪些是質(zhì)數(shù),用自然語言描述就需要寫"首先檢查1是否為質(zhì)數(shù),然后檢查2,接著檢查3...",這樣的描述可能需要幾十萬個(gè)令牌。但如果寫一段簡單的程序代碼,可能只需要幾十個(gè)令牌就能完成同樣的任務(wù)。

研究團(tuán)隊(duì)用一個(gè)巧妙的數(shù)學(xué)構(gòu)造證明了這種差異的必然性。他們考慮了一種特殊的計(jì)算任務(wù),類似于查找一個(gè)巨大字典中的特定詞條。如果沒有工具,AI必須逐個(gè)描述查找的每一步,就像一頁頁翻閱字典并大聲讀出每個(gè)詞條。但如果有工具(比如哈希函數(shù)),AI可以直接"跳轉(zhuǎn)"到正確位置,瞬間找到答案。

這種差異不僅存在于明顯的計(jì)算任務(wù)中。即使是需要深度數(shù)學(xué)洞察的抽象問題,工具也能提供意想不到的幫助。研究團(tuán)隊(duì)發(fā)現(xiàn),AI可以用代碼進(jìn)行"探索性計(jì)算"——通過嘗試不同的數(shù)值例子來發(fā)現(xiàn)數(shù)學(xué)模式,然后基于這些模式構(gòu)建嚴(yán)格的數(shù)學(xué)證明。這就像是數(shù)學(xué)家使用計(jì)算器輔助驗(yàn)證猜想,雖然最終的證明仍需要數(shù)學(xué)洞察,但工具能夠大大加速發(fā)現(xiàn)過程。

三、實(shí)驗(yàn)驗(yàn)證——三種新奇的AI"思維模式"

為了驗(yàn)證理論發(fā)現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了大量實(shí)驗(yàn),重點(diǎn)關(guān)注AI如何解決具有挑戰(zhàn)性的數(shù)學(xué)競賽題目。他們訓(xùn)練了兩個(gè)版本的AI:一個(gè)只能使用文本進(jìn)行推理,另一個(gè)配備了Python代碼解釋器。

實(shí)驗(yàn)結(jié)果完全證實(shí)了理論預(yù)測。配備工具的AI在所有測試中都顯著超越了純文本版本,而且這種優(yōu)勢在樣本數(shù)量增加時(shí)始終保持,沒有出現(xiàn)此前研究中觀察到的性能交叉現(xiàn)象。更令人驚訝的是,這種優(yōu)勢不僅存在于計(jì)算密集型問題中,即使是需要深度抽象思維的數(shù)學(xué)問題,工具集成的AI也表現(xiàn)得更好。

為了理解這種普遍優(yōu)勢的來源,研究團(tuán)隊(duì)開發(fā)了一個(gè)"算法友好度"評(píng)分系統(tǒng),用來衡量數(shù)學(xué)問題對(duì)計(jì)算方法的依賴程度。他們發(fā)現(xiàn),即使是評(píng)分很低的問題(主要依賴抽象推理而非計(jì)算),配備工具的AI仍然保持約9%的性能優(yōu)勢。這說明工具的作用遠(yuǎn)超簡單的"計(jì)算器"功能。

通過深入分析AI的解題過程,研究團(tuán)隊(duì)識(shí)別出了三種全新的"認(rèn)知模式",這些模式只在工具集成的AI中出現(xiàn)。

第一種模式被稱為"洞察到計(jì)算的轉(zhuǎn)換"。在這種模式下,AI首先進(jìn)行深度的數(shù)學(xué)分析,將復(fù)雜的抽象問題轉(zhuǎn)化為可以用算法高效解決的具體問題。例如,面對(duì)一個(gè)復(fù)雜的幾何問題,AI會(huì)先用數(shù)學(xué)推理將其轉(zhuǎn)化為需要檢驗(yàn)大量數(shù)值組合的代數(shù)方程,然后編寫代碼系統(tǒng)性地搜索所有可能的解。這種方法的精妙之處在于,它將人類數(shù)學(xué)家的洞察力與計(jì)算機(jī)的計(jì)算能力完美結(jié)合。

第二種模式是"通過代碼進(jìn)行探索和驗(yàn)證"。當(dāng)面對(duì)解法不明顯的問題時(shí),AI會(huì)將代碼解釋器當(dāng)作一個(gè)"實(shí)驗(yàn)室",通過編寫小段代碼來測試各種假設(shè)。這個(gè)過程很像科學(xué)家進(jìn)行實(shí)驗(yàn)——提出猜想,設(shè)計(jì)實(shí)驗(yàn)驗(yàn)證,根據(jù)結(jié)果調(diào)整理論,然后繼續(xù)實(shí)驗(yàn)。比如,在解決一個(gè)關(guān)于最優(yōu)參數(shù)的問題時(shí),AI可能會(huì)先編寫代碼測試幾個(gè)具體的參數(shù)值,觀察結(jié)果的模式,然后基于這些觀察提出一般性的數(shù)學(xué)證明。

第三種模式是"復(fù)雜計(jì)算的外包"。這是最直觀的工具使用方式,AI將容易出錯(cuò)的復(fù)雜計(jì)算委托給代碼解釋器處理。雖然看似簡單,但這種模式的重要性不可低估。通過避免計(jì)算錯(cuò)誤,AI可以將全部"注意力"集中在高層次的推理上,大大提高了整體解題質(zhì)量。

四、新算法解決實(shí)際問題——讓AI更早使用工具

理論發(fā)現(xiàn)和實(shí)驗(yàn)驗(yàn)證都指向一個(gè)重要結(jié)論:AI應(yīng)該更頻繁、更早地使用工具。然而,當(dāng)研究團(tuán)隊(duì)嘗試用傳統(tǒng)方法訓(xùn)練AI更早使用代碼時(shí),遇到了意想不到的技術(shù)難題。

傳統(tǒng)的做法是修改獎(jiǎng)勵(lì)函數(shù)——如果AI在解題過程中較早使用了代碼,就給它額外的獎(jiǎng)勵(lì)分?jǐn)?shù)。這種方法在理論上很直觀,但在實(shí)際訓(xùn)練中卻導(dǎo)致了嚴(yán)重的不穩(wěn)定性。問題的根源在于現(xiàn)代AI訓(xùn)練算法的一個(gè)技術(shù)細(xì)節(jié):為了保持訓(xùn)練穩(wěn)定,算法會(huì)對(duì)獎(jiǎng)勵(lì)分?jǐn)?shù)進(jìn)行標(biāo)準(zhǔn)化處理。

這個(gè)標(biāo)準(zhǔn)化過程就像是將所有學(xué)生的考試成績轉(zhuǎn)換為相對(duì)排名——無論原始分?jǐn)?shù)是多少,總是有一半學(xué)生會(huì)被排在平均水平以下。當(dāng)所有AI回答都正確時(shí),原本用來區(qū)分正確答案的主要獎(jiǎng)勵(lì)信號(hào)會(huì)被標(biāo)準(zhǔn)化抵消,結(jié)果導(dǎo)致那些本來應(yīng)該被鼓勵(lì)的早期代碼使用行為反而被當(dāng)作"錯(cuò)誤"受到懲罰。

面對(duì)這個(gè)技術(shù)挑戰(zhàn),研究團(tuán)隊(duì)開發(fā)了一種全新的訓(xùn)練算法,名為"優(yōu)勢塑形策略優(yōu)化"(ASPO)。這種方法的核心思想是繞過不穩(wěn)定的獎(jiǎng)勵(lì)修改,直接在訓(xùn)練的最后階段調(diào)整AI的行為傾向。

ASPO的工作原理可以用調(diào)音師調(diào)節(jié)鋼琴的比喻來理解。傳統(tǒng)方法試圖通過改變琴弦的材質(zhì)來改變音調(diào),但這會(huì)影響鋼琴的整體穩(wěn)定性。ASPO則是在保持琴弦不變的情況下,在最后的調(diào)音環(huán)節(jié)進(jìn)行精細(xì)調(diào)整。具體來說,算法會(huì)在確定AI回答正確性之后,根據(jù)代碼使用的時(shí)機(jī)給予額外的"微調(diào)",鼓勵(lì)早期使用代碼,但這種調(diào)整的幅度被嚴(yán)格限制,確保不會(huì)影響AI回答正確性的基本判斷。

實(shí)驗(yàn)結(jié)果證明了ASPO算法的有效性。使用新算法訓(xùn)練的AI平均在1000個(gè)令牌位置就開始使用代碼,而傳統(tǒng)方法訓(xùn)練的AI通常要等到4000個(gè)令牌位置才開始使用工具。同時(shí),新算法訓(xùn)練的AI每個(gè)問題平均進(jìn)行3.3輪代碼交互,是傳統(tǒng)方法的兩倍多。更重要的是,這些行為改變是在不犧牲解題準(zhǔn)確性的前提下實(shí)現(xiàn)的。

五、更廣泛的應(yīng)用前景——不只是Python代碼

雖然這項(xiàng)研究主要關(guān)注Python代碼解釋器,但其理論框架適用于各種類型的外部工具。研究團(tuán)隊(duì)在論文的擴(kuò)展部分詳細(xì)分析了理論如何應(yīng)用于搜索引擎、數(shù)據(jù)庫、驗(yàn)證工具,甚至是與環(huán)境的交互。

搜索和檢索工具的情況特別有趣。當(dāng)AI需要獲取最新信息或特定領(lǐng)域的專業(yè)知識(shí)時(shí),搜索工具提供的信息往往具有很高的"信息密度"——用很少的令牌就能傳遞大量有價(jià)值的內(nèi)容。相比之下,如果讓AI嘗試從記憶中重現(xiàn)這些信息,不僅可能不準(zhǔn)確,而且會(huì)消耗大量的思考空間。

驗(yàn)證工具代表了另一個(gè)重要的應(yīng)用方向。這類工具包括單元測試框架、符號(hào)代數(shù)系統(tǒng)、SAT求解器等。它們的主要作用不是提供新信息,而是快速驗(yàn)證AI的推理結(jié)果。在復(fù)雜的問題解決過程中,這種即時(shí)驗(yàn)證能力極大地減少了錯(cuò)誤積累,讓AI可以更大膽地探索不同的解決路徑。

對(duì)于需要大量外部存儲(chǔ)的任務(wù),鍵值存儲(chǔ)、向量數(shù)據(jù)庫等工具能夠?yàn)锳I提供幾乎無限的"外部記憶"。這特別適用于需要處理大量文檔、維護(hù)復(fù)雜狀態(tài),或進(jìn)行長期推理的任務(wù)。

六、實(shí)際影響與未來展望

這項(xiàng)研究的理論貢獻(xiàn)超越了具體的技術(shù)實(shí)現(xiàn),為整個(gè)AI領(lǐng)域提供了新的思考框架。它表明,未來的AI系統(tǒng)設(shè)計(jì)應(yīng)該從根本上擺脫"萬能單體"的思路,轉(zhuǎn)向"專業(yè)協(xié)作"的模式——讓AI核心負(fù)責(zé)高層次推理和決策,將專業(yè)化任務(wù)委托給相應(yīng)的工具。

從實(shí)際應(yīng)用的角度來看,這種理念已經(jīng)在多個(gè)領(lǐng)域展現(xiàn)出巨大潛力。在科學(xué)研究中,配備計(jì)算工具的AI可以幫助研究者快速驗(yàn)證理論假設(shè),探索大規(guī)模參數(shù)空間,發(fā)現(xiàn)人類難以察覺的數(shù)據(jù)模式。在軟件開發(fā)領(lǐng)域,能夠熟練使用各種開發(fā)工具的AI助手正在改變程序員的工作方式。在教育領(lǐng)域,可以使用計(jì)算工具的AI tutors能夠?yàn)閷W(xué)生提供更準(zhǔn)確、更個(gè)性化的學(xué)習(xí)指導(dǎo)。

研究團(tuán)隊(duì)開發(fā)的ASPO算法也有廣泛的應(yīng)用價(jià)值。它解決的核心問題——如何在不影響主要目標(biāo)的前提下優(yōu)化AI的行為模式——在許多AI訓(xùn)練場景中都會(huì)遇到。這種方法可能會(huì)被用來訓(xùn)練AI更好地與人類協(xié)作,更有效地使用各種專業(yè)工具,或者表現(xiàn)出更符合人類期望的交互風(fēng)格。

更深層次的意義在于,這項(xiàng)研究為AI能力的理論邊界提供了新的理解。它證明了外部工具不是AI系統(tǒng)的簡單附加功能,而是突破內(nèi)在限制的必要條件。這種認(rèn)識(shí)可能會(huì)影響未來AI系統(tǒng)的架構(gòu)設(shè)計(jì),推動(dòng)更多創(chuàng)新性的人機(jī)協(xié)作模式出現(xiàn)。

從長遠(yuǎn)來看,這項(xiàng)研究指向了一個(gè)令人興奮的未來愿景:AI系統(tǒng)不再是孤立的智能體,而是能夠熟練使用各種專業(yè)工具的智能代理。它們可以根據(jù)任務(wù)需要靈活選擇和組合不同的工具,形成強(qiáng)大的問題解決網(wǎng)絡(luò)。在這樣的系統(tǒng)中,人類的角色也會(huì)發(fā)生相應(yīng)變化——從直接的問題解決者轉(zhuǎn)向AI系統(tǒng)的指導(dǎo)者和協(xié)調(diào)者,專注于提供創(chuàng)造性洞察和價(jià)值判斷。

這項(xiàng)由騰訊和清華研究團(tuán)隊(duì)完成的工作,不僅在理論上回答了"為什么AI需要工具"這個(gè)基礎(chǔ)問題,更為實(shí)際的AI系統(tǒng)優(yōu)化提供了科學(xué)的指導(dǎo)原則。它標(biāo)志著我們對(duì)AI能力理解的一個(gè)重要進(jìn)步,也為構(gòu)建更強(qiáng)大、更實(shí)用的AI系統(tǒng)指明了方向。對(duì)于有興趣深入了解技術(shù)細(xì)節(jié)的讀者,完整的研究論文可以通過arXiv編號(hào)2508.19201v1獲取。

Q&A

Q1:什么是工具集成推理,它與普通的AI有什么區(qū)別?

A:工具集成推理就是讓AI不僅能用文字思考,還能使用外部工具如代碼解釋器、搜索引擎等來解決問題。就像給一個(gè)只會(huì)心算的人配備計(jì)算器和參考書,普通AI只能用文字逐步推理,而配備工具的AI可以將復(fù)雜計(jì)算交給專業(yè)工具處理,從而解決更復(fù)雜的問題。

Q2:為什么純文本AI無論怎么訓(xùn)練都有局限性?

A:研究發(fā)現(xiàn)純文本AI被"隱形枷鎖"束縛——它只能在最初就能生成的答案類型中優(yōu)化,無法創(chuàng)造全新的推理路徑。這就像一個(gè)只會(huì)中式炒菜的廚師,無論怎么練習(xí)都學(xué)不會(huì)法式烘焙,因?yàn)橹R(shí)體系中缺乏基礎(chǔ)概念。AI也是如此,強(qiáng)化學(xué)習(xí)只能調(diào)整已有答案的概率,不能添加新的解題策略。

Q3:ASPO算法解決了什么問題,它是如何工作的?

A:ASPO算法解決了訓(xùn)練AI更早使用工具時(shí)出現(xiàn)的不穩(wěn)定問題。傳統(tǒng)方法通過修改獎(jiǎng)勵(lì)容易導(dǎo)致訓(xùn)練崩潰,ASPO則繞過這個(gè)問題,在訓(xùn)練最后階段直接調(diào)整AI的行為傾向。就像調(diào)音師不改變琴弦材質(zhì),而是在最后的調(diào)音環(huán)節(jié)進(jìn)行精細(xì)調(diào)整,既鼓勵(lì)早期使用代碼,又保持訓(xùn)練穩(wěn)定性。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-