av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 南洋理工大學(xué)重大突破:AI智能助手終于學(xué)會(huì)"穩(wěn)扎穩(wěn)打"多輪推理,不再半路"掉鏈子"

南洋理工大學(xué)重大突破:AI智能助手終于學(xué)會(huì)"穩(wěn)扎穩(wěn)打"多輪推理,不再半路"掉鏈子"

2025-09-24 13:56
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-24 13:56 ? 科技行者

這項(xiàng)由新加坡南洋理工大學(xué)的薛正海、鄭龍濤、安波教授團(tuán)隊(duì),聯(lián)合TikTok公司的劉倩、李英茹等研究者共同完成的重要研究,發(fā)表于2025年9月2日,論文標(biāo)題為《SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning》。感興趣的讀者可以通過(guò)arXiv:2509.02479v2訪問(wèn)完整論文,相關(guān)代碼和模型已在GitHub和HuggingFace平臺(tái)開源。

當(dāng)我們和AI聊天時(shí),經(jīng)常會(huì)遇到這樣的情況:AI在解決復(fù)雜問(wèn)題時(shí)需要多次調(diào)用計(jì)算器、搜索引擎或編程工具。就像一個(gè)學(xué)生做數(shù)學(xué)題,需要先用草稿紙算出中間步驟,再根據(jù)結(jié)果繼續(xù)推進(jìn)。然而,現(xiàn)在的AI系統(tǒng)在這種"多輪對(duì)話"中經(jīng)常出現(xiàn)問(wèn)題——它們可能在第三輪、第四輪時(shí)突然"卡殼",開始胡說(shuō)八道,或者直接"罷工"不干了。

這個(gè)問(wèn)題就像一個(gè)原本很有條理的廚師,在制作復(fù)雜菜品時(shí),做著做著就忘記了前面的步驟,開始隨意添加調(diào)料,最終把整道菜搞砸了。研究團(tuán)隊(duì)發(fā)現(xiàn),這種"掉鏈子"現(xiàn)象的根本原因在于,當(dāng)AI使用外部工具(比如代碼執(zhí)行器)獲得反饋信息時(shí),這些信息往往與AI原本的"知識(shí)體系"不太匹配,就像突然聽到了一種陌生的方言,導(dǎo)致AI在后續(xù)對(duì)話中變得"語(yǔ)無(wú)倫次"。

為了解決這個(gè)棘手問(wèn)題,研究團(tuán)隊(duì)開發(fā)了一套名為SimpleTIR的訓(xùn)練方法。這個(gè)方法的核心思想非常巧妙:它會(huì)識(shí)別并過(guò)濾掉那些包含"無(wú)效回合"的對(duì)話序列。什么是無(wú)效回合呢?就是AI既沒(méi)有生成完整的代碼,也沒(méi)有給出最終答案的那些回合——這些回合往往是AI"迷路"的標(biāo)志。

通過(guò)在強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中剔除這些有問(wèn)題的對(duì)話樣本,SimpleTIR成功地讓AI學(xué)會(huì)了更穩(wěn)定的多輪推理。就像訓(xùn)練一個(gè)學(xué)生時(shí),我們會(huì)把那些思路混亂的作業(yè)先放一邊,專門用那些邏輯清晰的優(yōu)質(zhì)作業(yè)來(lái)教學(xué)。

一、問(wèn)題的本質(zhì):為什么AI會(huì)在多輪對(duì)話中"失控"

要理解這個(gè)問(wèn)題,我們可以把AI的學(xué)習(xí)過(guò)程比作學(xué)開車。當(dāng)你剛學(xué)會(huì)基本駕駛技能后,在熟悉的路段開車還算順利。但如果突然遇到了從未見(jiàn)過(guò)的復(fù)雜路況——比如暴雨中的山路急轉(zhuǎn)彎,你可能會(huì)因?yàn)榫o張而做出錯(cuò)誤判斷,甚至完全不知所措。

AI面臨的情況類似。當(dāng)它需要使用Python代碼解決數(shù)學(xué)問(wèn)題時(shí),每次執(zhí)行代碼后得到的結(jié)果可能包含一些"意外"的信息。比如,AI可能期望得到一個(gè)簡(jiǎn)單的數(shù)字答案,但代碼執(zhí)行結(jié)果卻包含了復(fù)雜的錯(cuò)誤信息、調(diào)試輸出,或者格式奇特的計(jì)算結(jié)果。這些"意外"信息就像開車時(shí)突然遇到的復(fù)雜路況,讓AI開始"緊張",在接下來(lái)的對(duì)話輪次中產(chǎn)生越來(lái)越多的低概率詞匯——相當(dāng)于司機(jī)越來(lái)越緊張,操作越來(lái)越不穩(wěn)定。

研究團(tuán)隊(duì)通過(guò)深入分析發(fā)現(xiàn),這種現(xiàn)象會(huì)形成一個(gè)惡性循環(huán)。第一輪對(duì)話中,外部工具返回的信息讓AI感到"陌生",導(dǎo)致它在第二輪生成內(nèi)容時(shí)開始偏離正常軌道。到了第三輪、第四輪,這種偏離越來(lái)越嚴(yán)重,AI開始生成一些它自己都"不太確定"的詞匯和短語(yǔ)。最終,整個(gè)對(duì)話變得支離破碎,AI徹底"迷路"了。

更具體地說(shuō),研究團(tuán)隊(duì)發(fā)現(xiàn)了兩個(gè)關(guān)鍵的技術(shù)問(wèn)題。第一個(gè)是"梯度爆炸"——當(dāng)AI訓(xùn)練時(shí)遇到這些低概率詞匯,就像汽車引擎突然過(guò)載,整個(gè)訓(xùn)練過(guò)程變得極不穩(wěn)定。第二個(gè)是"信用分配錯(cuò)誤"——當(dāng)一個(gè)多輪對(duì)話最終失敗時(shí),訓(xùn)練算法無(wú)法準(zhǔn)確判斷到底是哪個(gè)環(huán)節(jié)出了問(wèn)題,可能會(huì)錯(cuò)誤地"懲罰"那些其實(shí)表現(xiàn)還不錯(cuò)的早期回合。

二、SimpleTIR的巧妙解決方案:識(shí)別并過(guò)濾"無(wú)效回合"

面對(duì)這個(gè)復(fù)雜問(wèn)題,研究團(tuán)隊(duì)提出的解決方案出人意料地簡(jiǎn)單而有效。他們沒(méi)有試圖修復(fù)那些有問(wèn)題的對(duì)話,而是選擇了一個(gè)更加直接的策略:識(shí)別并完全忽略那些包含"無(wú)效回合"的整個(gè)對(duì)話序列。

什么是無(wú)效回合?研究團(tuán)隊(duì)定義得很清楚:如果在某一輪對(duì)話中,AI既沒(méi)有生成完整的可執(zhí)行代碼塊,也沒(méi)有給出問(wèn)題的最終答案,這一輪就被認(rèn)為是無(wú)效的。這種情況通常發(fā)生在AI"迷路"的時(shí)候——它可能生成了一半的代碼就突然停止,或者開始重復(fù)之前的內(nèi)容,或者產(chǎn)生一些毫無(wú)意義的文本。

這個(gè)策略的精妙之處在于,它抓住了問(wèn)題的本質(zhì)。無(wú)效回合往往是AI開始"犯糊涂"的信號(hào),而且這些回合幾乎不可能出現(xiàn)在成功的問(wèn)題解決過(guò)程中。就像一個(gè)學(xué)生做數(shù)學(xué)題,如果他寫了一半就放棄,或者開始在紙上涂鴉,這張答卷顯然不是好的學(xué)習(xí)樣本。

在實(shí)際操作中,SimpleTIR的工作流程非常直觀。訓(xùn)練系統(tǒng)會(huì)讓AI嘗試解決大量問(wèn)題,生成許多多輪對(duì)話序列。然后,它會(huì)仔細(xì)檢查每個(gè)對(duì)話序列,一旦發(fā)現(xiàn)其中包含無(wú)效回合,就會(huì)將整個(gè)序列標(biāo)記出來(lái),在訓(xùn)練更新時(shí)完全忽略這些序列。只有那些每一輪都"有所貢獻(xiàn)"的對(duì)話序列才會(huì)被用來(lái)更新AI的參數(shù)。

這種方法的效果立竿見(jiàn)影。通過(guò)過(guò)濾掉那些有問(wèn)題的訓(xùn)練樣本,AI不再被那些混亂的、低質(zhì)量的對(duì)話模式所"誤導(dǎo)"。同時(shí),由于去除了導(dǎo)致梯度爆炸的低概率序列,整個(gè)訓(xùn)練過(guò)程變得穩(wěn)定得多。更重要的是,這解決了信用分配問(wèn)題——系統(tǒng)不再需要猜測(cè)一個(gè)失敗對(duì)話中哪些部分是好的,哪些是壞的,因?yàn)樗粚W(xué)習(xí)那些完全成功的對(duì)話。

三、令人驚嘆的實(shí)驗(yàn)結(jié)果:從22.1分躍升至50.5分

為了驗(yàn)證SimpleTIR的效果,研究團(tuán)隊(duì)進(jìn)行了大量嚴(yán)格的對(duì)比實(shí)驗(yàn)。他們選擇了著名的AIME24數(shù)學(xué)競(jìng)賽題目作為測(cè)試基準(zhǔn)——這些題目對(duì)人類高中生來(lái)說(shuō)都相當(dāng)有挑戰(zhàn)性,需要多步驟的復(fù)雜推理和計(jì)算。

實(shí)驗(yàn)結(jié)果令人印象深刻。使用基礎(chǔ)的Qwen2.5-7B模型,傳統(tǒng)的多輪訓(xùn)練方法只能達(dá)到22.1分的準(zhǔn)確率,而且訓(xùn)練過(guò)程極不穩(wěn)定,經(jīng)常出現(xiàn)性能崩潰。相比之下,使用SimpleTIR訓(xùn)練的同樣模型達(dá)到了50.5分,提升幅度超過(guò)了一倍。更重要的是,整個(gè)訓(xùn)練過(guò)程非常穩(wěn)定,沒(méi)有出現(xiàn)傳統(tǒng)方法中常見(jiàn)的梯度爆炸問(wèn)題。

這個(gè)提升幅度在AI研究領(lǐng)域是相當(dāng)顯著的。要知道,AIME競(jìng)賽題目的難度相當(dāng)于美國(guó)高中數(shù)學(xué)競(jìng)賽的水平,能夠在這樣的測(cè)試中獲得如此大的改進(jìn),說(shuō)明SimpleTIR確實(shí)解決了多輪推理中的核心問(wèn)題。

除了AIME24,研究團(tuán)隊(duì)還在其他多個(gè)數(shù)學(xué)推理任務(wù)上驗(yàn)證了方法的有效性。在MATH500數(shù)據(jù)集上,SimpleTIR達(dá)到了88.4%的準(zhǔn)確率;在AMC23競(jìng)賽中得分79.1分;在Olympic數(shù)學(xué)題目中達(dá)到54.8分的成績(jī)。這些結(jié)果表明,SimpleTIR的改進(jìn)不是偶然的,而是在各種類型的數(shù)學(xué)推理任務(wù)中都能穩(wěn)定發(fā)揮作用。

特別值得注意的是,SimpleTIR不僅在準(zhǔn)確率上有顯著提升,在訓(xùn)練穩(wěn)定性方面也表現(xiàn)出色。傳統(tǒng)的多輪訓(xùn)練方法在訓(xùn)練過(guò)程中會(huì)出現(xiàn)劇烈的性能波動(dòng),有時(shí)甚至?xí)耆罎?,需要重新開始訓(xùn)練。而SimpleTIR的訓(xùn)練曲線非常平滑,就像一條穩(wěn)步上升的直線,這對(duì)于實(shí)際應(yīng)用來(lái)說(shuō)意義重大。

四、意外收獲:AI學(xué)會(huì)了三種高級(jí)推理模式

除了解決穩(wěn)定性問(wèn)題,SimpleTIR還帶來(lái)了一個(gè)意外的驚喜:AI自動(dòng)學(xué)會(huì)了三種高級(jí)的推理模式,這些模式在傳統(tǒng)訓(xùn)練方法中很難出現(xiàn)。

第一種是"交叉驗(yàn)證"模式。AI會(huì)用兩種不同的方法解決同一個(gè)問(wèn)題,然后比較結(jié)果是否一致。如果結(jié)果不一致,它會(huì)進(jìn)一步分析哪種方法更可靠。這就像一個(gè)謹(jǐn)慎的學(xué)生做完數(shù)學(xué)題后,會(huì)用另一種方法驗(yàn)算一遍,確保答案正確。

第二種是"漸進(jìn)式推理"模式。對(duì)于復(fù)雜問(wèn)題,AI學(xué)會(huì)了將其分解為多個(gè)小步驟,每個(gè)步驟都建立在前一步的基礎(chǔ)上。每完成一個(gè)小步驟,AI會(huì)檢查結(jié)果是否合理,然后再進(jìn)行下一步。這種方法讓AI能夠處理更加復(fù)雜和深入的問(wèn)題。

第三種是"自我糾錯(cuò)"模式。當(dāng)AI發(fā)現(xiàn)自己的代碼出現(xiàn)錯(cuò)誤時(shí),它不會(huì)簡(jiǎn)單地放棄,而是會(huì)分析錯(cuò)誤原因,修改代碼,重新嘗試。這個(gè)過(guò)程可能會(huì)重復(fù)幾次,直到獲得正確結(jié)果。這種"不放棄"的精神讓AI的問(wèn)題解決能力大大增強(qiáng)。

這三種推理模式的自然出現(xiàn),說(shuō)明SimpleTIR不僅解決了技術(shù)問(wèn)題,還釋放了AI的學(xué)習(xí)潛力。當(dāng)訓(xùn)練環(huán)境變得穩(wěn)定后,AI能夠探索和掌握更加復(fù)雜、更加有效的推理策略。這些策略并不是研究人員直接教給AI的,而是AI在穩(wěn)定的學(xué)習(xí)環(huán)境中自己"摸索"出來(lái)的。

五、技術(shù)突破的深層意義:為什么這很重要

SimpleTIR的成功不僅僅是一個(gè)技術(shù)改進(jìn),它實(shí)際上為AI系統(tǒng)的發(fā)展開辟了新的方向。在此之前,大多數(shù)AI系統(tǒng)在處理需要多步驟推理的復(fù)雜任務(wù)時(shí),都采用"冷啟動(dòng)"的方法——也就是先用人工標(biāo)注的高質(zhì)量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,然后再用強(qiáng)化學(xué)習(xí)進(jìn)行微調(diào)。

這種傳統(tǒng)方法的問(wèn)題在于,它限制了AI的創(chuàng)新能力。由于預(yù)訓(xùn)練階段使用的是人工設(shè)計(jì)的推理模式,AI往往會(huì)被"固化"在這些預(yù)設(shè)的思維框架中,難以探索新的、可能更有效的推理方式。

SimpleTIR采用的"零強(qiáng)化學(xué)習(xí)"方法完全不同。它直接從基礎(chǔ)模型開始,讓AI在與環(huán)境的互動(dòng)中自主學(xué)習(xí)推理技能。這種方法雖然訓(xùn)練難度更大,但給了AI更大的探索空間,讓它能夠發(fā)現(xiàn)那些人類可能沒(méi)有想到的推理策略。

從更廣的角度來(lái)看,這項(xiàng)研究解決了AI領(lǐng)域的一個(gè)基礎(chǔ)問(wèn)題:如何讓AI在復(fù)雜的、多步驟的任務(wù)中保持穩(wěn)定和高效。這個(gè)問(wèn)題不僅存在于數(shù)學(xué)推理中,也存在于程序設(shè)計(jì)、科學(xué)研究、創(chuàng)意寫作等多個(gè)領(lǐng)域。SimpleTIR提供的解決思路——通過(guò)識(shí)別和過(guò)濾有問(wèn)題的訓(xùn)練樣本來(lái)提升學(xué)習(xí)質(zhì)量——可能對(duì)這些其他領(lǐng)域也有啟發(fā)價(jià)值。

六、實(shí)用價(jià)值:對(duì)普通人意味著什么

對(duì)于普通用戶來(lái)說(shuō),SimpleTIR的改進(jìn)可能會(huì)帶來(lái)更加可靠和智能的AI助手體驗(yàn)。當(dāng)你向AI詢問(wèn)需要多步計(jì)算的復(fù)雜問(wèn)題時(shí)——比如規(guī)劃一次復(fù)雜的旅行,計(jì)算房貸還款方案,或者分析投資組合的風(fēng)險(xiǎn)收益——AI將能夠更加穩(wěn)定地完成這些任務(wù),而不會(huì)在中途"掉鏈子"。

在教育領(lǐng)域,這種改進(jìn)特別有意義。AI可以更好地扮演數(shù)學(xué)輔導(dǎo)老師的角色,不僅能夠解決學(xué)生提出的復(fù)雜問(wèn)題,還能夠展示完整的解題過(guò)程,甚至用多種方法驗(yàn)證答案的正確性。這對(duì)于提高學(xué)生的數(shù)學(xué)理解和培養(yǎng)邏輯思維能力將大有幫助。

在專業(yè)工作領(lǐng)域,SimpleTIR的技術(shù)也有廣泛的應(yīng)用前景。工程師可以依靠AI進(jìn)行更復(fù)雜的計(jì)算和設(shè)計(jì)驗(yàn)證;數(shù)據(jù)分析師可以讓AI協(xié)助處理多步驟的數(shù)據(jù)處理流程;研究人員可以利用AI進(jìn)行更深入的文獻(xiàn)分析和假設(shè)驗(yàn)證。

需要注意的是,目前這項(xiàng)技術(shù)還處于研究階段,距離大規(guī)模商業(yè)應(yīng)用還有一段距離。研究團(tuán)隊(duì)也承認(rèn),他們的方法目前最多支持10輪對(duì)話,對(duì)于某些極其復(fù)雜的任務(wù)可能還不夠。此外,訓(xùn)練這樣的AI系統(tǒng)需要大量的計(jì)算資源和并行的代碼執(zhí)行環(huán)境,這在技術(shù)實(shí)現(xiàn)上還有一些挑戰(zhàn)。

不過(guò),隨著計(jì)算技術(shù)的進(jìn)步和訓(xùn)練方法的進(jìn)一步優(yōu)化,我們有理由期待,更加智能、更加可靠的AI助手將逐漸走進(jìn)我們的日常生活,成為我們處理復(fù)雜問(wèn)題時(shí)的得力幫手。SimpleTIR的成功為這個(gè)美好愿景的實(shí)現(xiàn)奠定了重要的技術(shù)基礎(chǔ)。

說(shuō)到底,SimpleTIR的成功告訴我們,有時(shí)候解決復(fù)雜問(wèn)題的最好方法不是直接修補(bǔ)所有的缺陷,而是學(xué)會(huì)識(shí)別和避開那些注定會(huì)導(dǎo)致失敗的路徑。就像一個(gè)有經(jīng)驗(yàn)的登山者,與其試圖征服每一條危險(xiǎn)的路線,不如選擇那些雖然挑戰(zhàn)性強(qiáng)但相對(duì)安全的路徑。這種智慧不僅適用于AI訓(xùn)練,在我們的日常生活和工作中也同樣有價(jià)值。

Q&A

Q1:SimpleTIR是什么?它解決了什么問(wèn)題?

A:SimpleTIR是由新加坡南洋理工大學(xué)開發(fā)的AI訓(xùn)練方法,專門解決AI在多輪對(duì)話中容易"掉鏈子"的問(wèn)題。當(dāng)AI需要多次使用工具(如計(jì)算器、代碼執(zhí)行器)解決復(fù)雜問(wèn)題時(shí),傳統(tǒng)方法經(jīng)常在第三四輪就開始出錯(cuò)。SimpleTIR通過(guò)識(shí)別并過(guò)濾掉包含"無(wú)效回合"的訓(xùn)練樣本,讓AI學(xué)會(huì)更穩(wěn)定的多輪推理。

Q2:SimpleTIR的效果有多好?

A:在AIME24數(shù)學(xué)競(jìng)賽測(cè)試中,使用SimpleTIR訓(xùn)練的AI模型準(zhǔn)確率從22.1分提升到50.5分,提升幅度超過(guò)一倍。更重要的是,訓(xùn)練過(guò)程變得非常穩(wěn)定,不再出現(xiàn)傳統(tǒng)方法中常見(jiàn)的性能崩潰問(wèn)題。AI還自動(dòng)學(xué)會(huì)了交叉驗(yàn)證、漸進(jìn)式推理和自我糾錯(cuò)三種高級(jí)推理模式。

Q3:SimpleTIR對(duì)普通人有什么實(shí)用價(jià)值?

A:SimpleTIR讓AI助手在處理復(fù)雜多步驟任務(wù)時(shí)更加可靠,比如復(fù)雜計(jì)算、旅行規(guī)劃、投資分析等。在教育領(lǐng)域,AI可以更好地充當(dāng)數(shù)學(xué)輔導(dǎo)老師,展示完整解題過(guò)程并驗(yàn)證答案。不過(guò)目前這項(xiàng)技術(shù)還在研究階段,距離大規(guī)模應(yīng)用還需要一些時(shí)間。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-