av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 中科大與科大訊飛重磅突破:讓AI既會(huì)思考又會(huì)用工具,數(shù)學(xué)推理能力史無(wú)前例提升!

中科大與科大訊飛重磅突破:讓AI既會(huì)思考又會(huì)用工具,數(shù)學(xué)推理能力史無(wú)前例提升!

2025-09-29 14:29
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-29 14:29 ? 科技行者

這項(xiàng)由中國(guó)科學(xué)技術(shù)大學(xué)的張奇凱、胡鵬飛、潘奕誠(chéng)等研究者,以及科大訊飛研究院的張振榮、馬杰峰、張建舒等學(xué)者共同完成的突破性研究,發(fā)表于2025年1月。完整論文可通過(guò)arXiv:2509.13761v1訪問(wèn)。這項(xiàng)研究首次真正解決了大語(yǔ)言模型在精確計(jì)算上的根本性弱點(diǎn),就像給一個(gè)聰明但計(jì)算能力有限的學(xué)生配備了計(jì)算器和各種工具。

回到最基本的問(wèn)題:現(xiàn)在的AI語(yǔ)言模型雖然能進(jìn)行復(fù)雜的對(duì)話和推理,但在需要精確計(jì)算的數(shù)學(xué)問(wèn)題上經(jīng)常出錯(cuò)。這就好比一個(gè)博學(xué)的教授,能夠滔滔不絕地講述數(shù)學(xué)理論,但在計(jì)算具體的數(shù)值時(shí)卻會(huì)犯低級(jí)錯(cuò)誤。這種現(xiàn)象的根本原因在于,語(yǔ)言模型本質(zhì)上是通過(guò)預(yù)測(cè)下一個(gè)詞來(lái)工作的,它們更擅長(zhǎng)處理語(yǔ)言和概念,而不是精確的數(shù)值運(yùn)算。

研究團(tuán)隊(duì)將這種困境比作讓一個(gè)文科生去解高難度的數(shù)學(xué)物理題。雖然這個(gè)文科生可能理解題目的含義,甚至知道解題的大致思路,但在具體的計(jì)算步驟上卻頻頻出錯(cuò)。為了解決這個(gè)問(wèn)題,最自然的想法就是讓這個(gè)文科生學(xué)會(huì)使用計(jì)算器、函數(shù)表和其他數(shù)學(xué)工具。同樣道理,研究團(tuán)隊(duì)開(kāi)發(fā)了THOR系統(tǒng),教會(huì)AI模型在推理過(guò)程中調(diào)用外部工具來(lái)完成精確計(jì)算。

THOR的名字來(lái)自"Tool-Integrated Hierarchical Optimization via RL"(基于強(qiáng)化學(xué)習(xí)的工具集成分層優(yōu)化),這個(gè)系統(tǒng)的核心創(chuàng)新在于三個(gè)方面的突破。

**一、革命性的數(shù)據(jù)構(gòu)建方法:讓AI學(xué)會(huì)"什么時(shí)候該用工具"**

傳統(tǒng)的方法就像讓學(xué)生死記硬背什么時(shí)候用計(jì)算器,效果很差且不夠靈活。THOR采用了一種更加智能的方法,叫做TIRGen(工具集成推理數(shù)據(jù)生成管道)。這個(gè)系統(tǒng)就像一個(gè)智能的數(shù)學(xué)老師和助教的組合。

在這個(gè)系統(tǒng)中,"演員"(Actor)負(fù)責(zé)進(jìn)行數(shù)學(xué)推理,就像一個(gè)學(xué)生在解題時(shí)的思考過(guò)程。而"評(píng)論家"(Critic)則像一個(gè)經(jīng)驗(yàn)豐富的助教,能夠識(shí)別哪些推理步驟可以用代碼工具來(lái)精確執(zhí)行。當(dāng)演員寫(xiě)出"接下來(lái)我需要計(jì)算這個(gè)復(fù)雜的積分"時(shí),評(píng)論家會(huì)說(shuō):"等等,這個(gè)計(jì)算步驟我們可以用Python代碼來(lái)精確完成。"

這種方法的巧妙之處在于,它不是簡(jiǎn)單地告訴AI"遇到計(jì)算就用工具",而是讓AI學(xué)會(huì)判斷:"這個(gè)問(wèn)題的哪個(gè)部分真的需要工具輔助,哪個(gè)部分我自己的推理就足夠了。"就像一個(gè)熟練的木工,知道什么時(shí)候用手工,什么時(shí)候用電動(dòng)工具。

通過(guò)這種方法,研究團(tuán)隊(duì)成功生成了高質(zhì)量的訓(xùn)練數(shù)據(jù)。對(duì)于非推理模型,他們生成了29,217個(gè)短推理樣本;對(duì)于推理模型,則生成了57,598個(gè)長(zhǎng)推理樣本。這些數(shù)據(jù)的質(zhì)量遠(yuǎn)超傳統(tǒng)方法,因?yàn)樗鼈兺耆N合模型的實(shí)際能力和思考方式。

**二、分層優(yōu)化策略:既看全局又抓細(xì)節(jié)**

THOR的第二個(gè)重大創(chuàng)新是采用了分層的強(qiáng)化學(xué)習(xí)策略。傳統(tǒng)的方法就像只看整道題的最終答案對(duì)不對(duì),但THOR同時(shí)關(guān)注整個(gè)解題過(guò)程和每個(gè)具體計(jì)算步驟的正確性。

研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)重要規(guī)律:如果AI在解題過(guò)程中某個(gè)工具調(diào)用成功了(比如一段代碼正確執(zhí)行并給出了結(jié)果),那么這道題最終答對(duì)的可能性會(huì)大大增加。這個(gè)發(fā)現(xiàn)就像發(fā)現(xiàn)了"如果一個(gè)學(xué)生的計(jì)算步驟都是正確的,那么最終答案正確的概率就很高"一樣直觀但重要。

基于這個(gè)發(fā)現(xiàn),THOR設(shè)計(jì)了雙重獎(jiǎng)勵(lì)機(jī)制。在宏觀層面,系統(tǒng)會(huì)根據(jù)最終答案的正確性給出獎(jiǎng)勵(lì),就像期末考試的總分。在微觀層面,系統(tǒng)還會(huì)根據(jù)每個(gè)工具調(diào)用是否成功給出即時(shí)反饋,就像平時(shí)作業(yè)的每道小題都有分?jǐn)?shù)。

這種分層優(yōu)化就像訓(xùn)練一個(gè)籃球運(yùn)動(dòng)員:既要看他整場(chǎng)比賽的表現(xiàn),也要分析他每次投籃、每次傳球的技術(shù)動(dòng)作。通過(guò)這種細(xì)致的訓(xùn)練,AI不僅學(xué)會(huì)了解決復(fù)雜問(wèn)題的整體策略,還掌握了每個(gè)具體計(jì)算步驟的技巧。

**三、智能自我糾錯(cuò):從錯(cuò)誤中實(shí)時(shí)學(xué)習(xí)**

THOR的第三個(gè)突破是引入了自我糾錯(cuò)機(jī)制。當(dāng)AI在推理過(guò)程中調(diào)用工具失敗時(shí)(比如代碼出錯(cuò)),系統(tǒng)不會(huì)簡(jiǎn)單地放棄,而是會(huì)智能地回退并嘗試其他方法。

這個(gè)過(guò)程就像一個(gè)學(xué)生在考試中發(fā)現(xiàn)計(jì)算錯(cuò)誤后的反應(yīng)。聰明的學(xué)生不會(huì)整道題重做,而是回到出錯(cuò)的地方,重新思考這一步該怎么算。THOR也是如此:當(dāng)一段代碼執(zhí)行失敗時(shí),它會(huì)回到生成這段代碼之前的推理步驟,重新思考這個(gè)問(wèn)題,然后生成新的解決方案。

這種機(jī)制的巧妙之處在于,它讓AI能夠從每次錯(cuò)誤中學(xué)習(xí),而且這種學(xué)習(xí)是實(shí)時(shí)的。傳統(tǒng)方法中,AI只能從訓(xùn)練數(shù)據(jù)中學(xué)習(xí),但THOR讓AI在實(shí)際解題過(guò)程中也能不斷改進(jìn)自己的方法。

研究團(tuán)隊(duì)在多個(gè)數(shù)學(xué)競(jìng)賽數(shù)據(jù)集上測(cè)試了THOR的效果,結(jié)果令人驚嘆。在AIME 2024競(jìng)賽中,經(jīng)過(guò)THOR訓(xùn)練的7B參數(shù)模型達(dá)到了50.0%的正確率,而同等規(guī)模的基準(zhǔn)模型只有26.7%。在AIME 2025中,THOR達(dá)到了33.3%,基準(zhǔn)模型只有13.3%。更令人印象深刻的是,在AMC 2023競(jìng)賽中,THOR的正確率達(dá)到了81.3%,遠(yuǎn)超基準(zhǔn)模型的57.4%。

這些數(shù)字背后的意義非常深遠(yuǎn)。AIME和AMC都是美國(guó)高中數(shù)學(xué)競(jìng)賽,題目難度很高,能夠在這些競(jìng)賽中取得好成績(jī)的學(xué)生通常都是數(shù)學(xué)天才。THOR能夠在這些競(jìng)賽中達(dá)到如此高的正確率,意味著它已經(jīng)具備了接近頂尖高中生的數(shù)學(xué)解題能力。

更有趣的是,THOR的提升不僅限于數(shù)學(xué)領(lǐng)域。研究團(tuán)隊(duì)發(fā)現(xiàn),經(jīng)過(guò)THOR訓(xùn)練的模型在代碼生成任務(wù)上也有顯著提升。在HumanEval+編程競(jìng)賽中,THOR相比基準(zhǔn)模型提升了2.2%;在MBPP+中提升了3.5%;在LiveCodeBench中更是提升了2.4%。這說(shuō)明學(xué)會(huì)使用工具的能力是可以遷移的,就像學(xué)會(huì)使用計(jì)算器的學(xué)生往往在其他需要精確計(jì)算的科目上也會(huì)表現(xiàn)更好。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的分析,發(fā)現(xiàn)THOR的成功有幾個(gè)關(guān)鍵因素。通過(guò)統(tǒng)計(jì)分析,他們證實(shí)了"工具調(diào)用成功是最終答案正確的強(qiáng)預(yù)測(cè)因子"這一假設(shè)。具體來(lái)說(shuō),如果AI在解題過(guò)程中的代碼都能正確執(zhí)行,那么最終答案正確的概率會(huì)顯著增加。這個(gè)發(fā)現(xiàn)為分層優(yōu)化策略提供了強(qiáng)有力的理論支撐。

同時(shí),研究團(tuán)隊(duì)發(fā)現(xiàn)自我糾錯(cuò)機(jī)制對(duì)性能提升也很關(guān)鍵。當(dāng)允許AI進(jìn)行最多4次糾錯(cuò)嘗試時(shí),性能會(huì)有顯著提升。這就像給學(xué)生提供了檢查和修正錯(cuò)誤的機(jī)會(huì),最終的答題質(zhì)量自然會(huì)更高。

從技術(shù)實(shí)現(xiàn)角度看,THOR的設(shè)計(jì)非常巧妙。它不需要額外的大型外部模型來(lái)評(píng)估結(jié)果質(zhì)量,而是直接利用工具執(zhí)行的反饋?zhàn)鳛楠?jiǎng)勵(lì)信號(hào)。這就像直接用計(jì)算器的結(jié)果來(lái)判斷計(jì)算是否正確,簡(jiǎn)單直接且準(zhǔn)確可靠。

這種設(shè)計(jì)還有一個(gè)重要優(yōu)勢(shì):它大大降低了推理時(shí)的計(jì)算成本。傳統(tǒng)的方法往往需要生成多個(gè)候選答案,然后用復(fù)雜的評(píng)估模型來(lái)選擇最佳答案。而THOR通過(guò)實(shí)時(shí)的工具反饋,能夠在生成過(guò)程中就及時(shí)糾正錯(cuò)誤,避免了大量無(wú)效計(jì)算。

研究團(tuán)隊(duì)測(cè)試發(fā)現(xiàn),THOR在推理過(guò)程中的token消耗量實(shí)際上比基準(zhǔn)模型更少。對(duì)于非推理模型,THOR減少了6%的token消耗;對(duì)于推理模型,更是減少了13%。這意味著THOR不僅解題更準(zhǔn)確,效率也更高。

THOR的成功還體現(xiàn)在它的通用性上。研究團(tuán)隊(duì)在多種不同規(guī)模的模型上都驗(yàn)證了THOR的有效性,從1.5B參數(shù)的輕量級(jí)模型到8B參數(shù)的大型模型,THOR都能帶來(lái)顯著提升。這說(shuō)明THOR的方法不是針對(duì)特定模型的技巧,而是一種通用的能力提升方案。

特別值得注意的是,THOR在推理模型上的表現(xiàn)尤其出色。推理模型是最新一代的AI模型,它們?cè)趦?nèi)部有一個(gè)"思考"過(guò)程,然后再給出最終答案。THOR成功地將工具使用能力集成到了這種思考過(guò)程中,讓AI能夠在思考過(guò)程中就調(diào)用工具來(lái)驗(yàn)證和計(jì)算。

這種集成就像教會(huì)一個(gè)學(xué)生在做題時(shí)邊思考邊使用工具,而不是思考完了再去用工具。這種方式更加自然和高效,也更接近人類專家解決復(fù)雜問(wèn)題的方式。

從更廣闊的視角來(lái)看,THOR的成功代表了AI發(fā)展的一個(gè)重要趨勢(shì):從純粹的語(yǔ)言模型向能夠與外部世界交互的智能體發(fā)展。傳統(tǒng)的語(yǔ)言模型就像一個(gè)博學(xué)但與世隔絕的學(xué)者,只能依靠自己的知識(shí)來(lái)回答問(wèn)題。而THOR展示了一種新的可能性:AI可以像人類專家一樣,在需要時(shí)主動(dòng)尋求工具的幫助,從而解決更加復(fù)雜和精確的問(wèn)題。

這種能力的重要性不僅體現(xiàn)在數(shù)學(xué)領(lǐng)域。在科學(xué)研究、工程設(shè)計(jì)、金融分析等需要精確計(jì)算的領(lǐng)域,能夠智能調(diào)用工具的AI將會(huì)發(fā)揮越來(lái)越重要的作用。THOR開(kāi)創(chuàng)的這種方法,可能會(huì)成為未來(lái)AI發(fā)展的一個(gè)重要方向。

說(shuō)到底,THOR的突破在于它解決了AI領(lǐng)域的一個(gè)根本性矛盾:如何讓擅長(zhǎng)語(yǔ)言理解的AI也能進(jìn)行精確計(jì)算。通過(guò)巧妙的訓(xùn)練方法和智能的工具集成,THOR讓AI既保持了強(qiáng)大的推理能力,又獲得了精確計(jì)算的技能。這就像培養(yǎng)出了一個(gè)既有文科生的思辨能力,又有理科生計(jì)算技能的全才學(xué)生。

對(duì)于普通人來(lái)說(shuō),THOR的成功意味著未來(lái)的AI助手將能夠更好地幫助解決日常生活中的數(shù)學(xué)問(wèn)題。無(wú)論是幫孩子檢查作業(yè),還是協(xié)助進(jìn)行復(fù)雜的財(cái)務(wù)計(jì)算,這樣的AI將會(huì)變得更加可靠和實(shí)用。而對(duì)于教育工作者來(lái)說(shuō),THOR提供了一個(gè)很好的啟示:最好的學(xué)習(xí)方式不是死記硬背,而是學(xué)會(huì)在適當(dāng)?shù)臅r(shí)候使用適當(dāng)?shù)墓ぞ?,這種元認(rèn)知能力可能比具體的知識(shí)技能更加重要。

Q&A

Q1:THOR是什么?它能解決什么問(wèn)題?

A:THOR是中科大和科大訊飛聯(lián)合開(kāi)發(fā)的AI系統(tǒng),全名叫"基于強(qiáng)化學(xué)習(xí)的工具集成分層優(yōu)化"。它主要解決大語(yǔ)言模型在數(shù)學(xué)推理中計(jì)算不準(zhǔn)確的問(wèn)題,讓AI學(xué)會(huì)在解題時(shí)智能地調(diào)用計(jì)算器、編程工具等外部工具,就像給學(xué)生配備了計(jì)算工具一樣。

Q2:THOR在數(shù)學(xué)競(jìng)賽中表現(xiàn)如何?

A:THOR的表現(xiàn)非常出色。在美國(guó)高中數(shù)學(xué)競(jìng)賽AIME 2024中,THOR達(dá)到了50.0%的正確率,而同等規(guī)模的普通模型只有26.7%。在AMC 2023競(jìng)賽中更是達(dá)到了81.3%的正確率,遠(yuǎn)超普通模型的57.4%,基本達(dá)到了優(yōu)秀高中生的水平。

Q3:THOR的技術(shù)創(chuàng)新主要體現(xiàn)在哪些方面?

A:THOR有三大創(chuàng)新:首先是TIRGen數(shù)據(jù)生成方法,讓AI學(xué)會(huì)判斷什么時(shí)候該用工具;其次是分層優(yōu)化策略,既關(guān)注整體解題效果又重視每個(gè)計(jì)算步驟的準(zhǔn)確性;最后是自我糾錯(cuò)機(jī)制,當(dāng)工具調(diào)用失敗時(shí)能夠智能回退并嘗試新方法,就像學(xué)生發(fā)現(xiàn)錯(cuò)誤后重新思考一樣。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-