這項由中國科學(xué)技術(shù)大學(xué)的李成鵬以及阿里巴巴集團的薛明峰、張振如、楊佳希等研究人員合作完成的研究發(fā)表于2025年3月,題為"START: Self-taught Reasoner with Tools"。有興趣深入了解的讀者可以通過arXiv:2503.04625v2訪問完整論文。
當我們遇到復(fù)雜的數(shù)學(xué)題時,大多數(shù)人會自然而然地拿出計算器或者在草稿紙上畫圖輔助思考。然而,目前最先進的AI推理模型,比如OpenAI的o1和DeepSeek的R1,雖然能進行復(fù)雜的邏輯推理,卻只能"空想"——它們無法像人類一樣使用外部工具來輔助計算和驗證。這就好比讓一個數(shù)學(xué)家在沒有任何工具的情況下,僅憑大腦就要解決復(fù)雜的微積分問題,自然容易出現(xiàn)錯誤和幻覺。
阿里巴巴的研究團隊意識到了這個問題,并開發(fā)出了一個名為START(Self-taught Reasoner with Tools)的創(chuàng)新系統(tǒng)。這個系統(tǒng)就像是給AI裝上了一雙"巧手",讓它能夠在思考問題的同時使用Python編程工具進行計算、驗證和調(diào)試,大大提升了推理的準確性和可靠性。
START的核心創(chuàng)新在于它的自學(xué)習(xí)能力。研究團隊沒有給AI提供大量的示例來教它如何使用工具,而是開發(fā)了一種巧妙的"提示注入"技術(shù)。這就好比在學(xué)生做題時,老師在關(guān)鍵時刻輕聲提醒"也許用計算器會更好",從而激發(fā)學(xué)生自主使用工具的意識。
一、START的工作原理:從"空想家"到"實干家"
傳統(tǒng)的大型推理模型在解決問題時,就像一個坐在書桌前冥思苦想的學(xué)者,只能依靠內(nèi)在的邏輯推理能力。雖然這些模型在處理抽象概念方面表現(xiàn)出色,但當面臨需要精確計算或復(fù)雜驗證的問題時,往往會產(chǎn)生"幻覺"——也就是給出看似合理但實際錯誤的答案。
START的突破在于將這種"純思維"的推理模式轉(zhuǎn)變?yōu)?思維+工具"的協(xié)作模式。當START遇到一個復(fù)雜的數(shù)學(xué)問題時,它不僅會進行邏輯分析,還會主動編寫Python代碼來驗證計算結(jié)果,檢查答案的合理性,甚至在發(fā)現(xiàn)錯誤時進行自我調(diào)試。
這種轉(zhuǎn)變的實現(xiàn)依賴于兩個關(guān)鍵技術(shù)創(chuàng)新。第一個是"Hint-infer"(提示推理)技術(shù)。研究團隊發(fā)現(xiàn),如果在模型推理過程中的特定位置插入精心設(shè)計的提示語,比如"等等,也許在這里使用Python是個好主意",模型就會自然而然地開始使用編程工具。這些提示不是隨意放置的,而是插入在模型出現(xiàn)"另外"、"等等"等表示反思或?qū)で笮路椒ǖ脑~匯之后,因為這些時刻正是人類在解題時會考慮使用工具的關(guān)鍵節(jié)點。
第二個創(chuàng)新是"Hint-RFT"(提示拒絕采樣微調(diào))技術(shù)。這個過程就像是一個嚴格的質(zhì)量控制系統(tǒng):首先讓模型生成大量帶有工具使用的推理過程,然后對這些過程進行評分和篩選,保留那些正確且有效的解題軌跡,最后用這些高質(zhì)量的數(shù)據(jù)來訓(xùn)練模型,使其學(xué)會自主使用工具。
二、從理論到實踐:START的訓(xùn)練過程
研究團隊選擇了QwQ-32B-Preview作為基礎(chǔ)模型進行改進。這個選擇頗具戰(zhàn)略意義,因為QwQ-32B-Preview本身就具備較強的推理能力,研究團隊需要做的是在此基礎(chǔ)上增加工具使用能力,而不是從零開始構(gòu)建。
訓(xùn)練數(shù)據(jù)的選擇也很有講究。研究團隊收集了大約5萬個問題,其中包括4萬個數(shù)學(xué)問題和1萬個編程問題。數(shù)學(xué)問題來源于歷年的AIME競賽題目、MATH數(shù)據(jù)集以及Numina-MATH數(shù)據(jù)集,而編程問題則來自Codeforces、代碼競賽以及LiveCodeBench等平臺。這些問題都具有相當?shù)碾y度,需要復(fù)雜的推理和計算才能解決。
訓(xùn)練過程分為兩個階段,就像培養(yǎng)一個學(xué)生首先學(xué)會使用工具,然后熟練掌握工具使用技巧。在第一階段,研究團隊使用Hint-infer技術(shù)讓基礎(chǔ)模型學(xué)會在推理過程中使用Python工具。他們發(fā)現(xiàn),當在模型的推理過程中插入適當?shù)奶崾竞?,模型竟然能夠自然地開始編寫代碼來解決問題,這表明大型語言模型本身就具備了使用工具的潛力,只是需要適當?shù)募ぐl(fā)。
在第二階段,研究團隊使用更加精細的訓(xùn)練方法。他們讓經(jīng)過初步訓(xùn)練的模型(稱為START-0)生成大量的解題過程,然后使用嚴格的評分標準篩選出高質(zhì)量的推理軌跡。這些軌跡不僅要得到正確答案,還要展現(xiàn)出良好的工具使用習(xí)慣和清晰的推理邏輯。最終,這些精選的訓(xùn)練數(shù)據(jù)被用來進一步優(yōu)化模型,產(chǎn)生了最終的START系統(tǒng)。
三、令人矚目的性能表現(xiàn)
START在多個權(quán)威基準測試中都取得了顯著的性能提升,這些測試涵蓋了從博士級科學(xué)問答到競賽級數(shù)學(xué)和編程問題的各個領(lǐng)域。在GPQA(研究生級問答)測試中,START達到了63.6%的準確率,比基礎(chǔ)模型提升了5.5個百分點。更令人印象深刻的是,在數(shù)學(xué)競賽方面,START在AMC23上達到了95.0%的準確率,在AIME24上達到66.7%,在AIME25上達到47.1%,這些提升幅度分別為15.0%、16.7%和7.1%。
在編程能力測試LiveCodeBench上,START也表現(xiàn)出色,準確率達到47.3%,比基礎(chǔ)模型提升了5.9%。這些數(shù)字背后反映的是START能夠在解決復(fù)雜問題時有效利用工具進行計算驗證和錯誤調(diào)試。
為了更直觀地展示START的優(yōu)勢,研究團隊提供了一個具體的對比案例。面對一個復(fù)雜的編程問題,基礎(chǔ)的QwQ-32B-Preview模型雖然能夠進行深入的邏輯分析和自我反思,但在處理復(fù)雜的測試用例時出現(xiàn)了"幻覺",導(dǎo)致最終答案錯誤。而START則能夠通過執(zhí)行代碼來驗證結(jié)果,當發(fā)現(xiàn)輸出不匹配時,它會進行迭代分析和調(diào)試,最終給出正確的解決方案。
四、創(chuàng)新技術(shù)的深層機制
START的成功很大程度上歸功于其創(chuàng)新的"提示庫"設(shè)計。這個提示庫就像是一個經(jīng)驗豐富的導(dǎo)師的工具箱,包含了針對不同情況的各種提示語。對于數(shù)學(xué)推理任務(wù),提示庫包含了鼓勵復(fù)雜計算、自我反思、邏輯檢查和探索替代方法的各種提示。對于編程任務(wù),提示庫則專注于促進模型的自我調(diào)試能力,鼓勵模型將代碼與測試用例進行對比驗證。
特別值得注意的是,研究團隊發(fā)現(xiàn)當在模型推理的結(jié)束位置插入提示時,會產(chǎn)生一種"順序測試時間縮放"效應(yīng)。簡單來說,就是給模型更多的思考時間,其解決問題的成功率也會相應(yīng)提高。這個發(fā)現(xiàn)為提升AI推理能力提供了一個簡單而有效的方法。
研究團隊還進行了詳細的對比實驗來驗證工具使用的價值。他們創(chuàng)建了一個對照版本,使用相同的訓(xùn)練數(shù)據(jù)但不包含工具使用功能,結(jié)果發(fā)現(xiàn)這個版本的性能與原始基礎(chǔ)模型幾乎相同。這清楚地表明,START的性能提升主要來源于其工具使用能力,而不是簡單的數(shù)據(jù)增加。
五、技術(shù)實現(xiàn)的巧思
START的實現(xiàn)過程充滿了技術(shù)巧思。研究團隊發(fā)現(xiàn),傳統(tǒng)的提示方法無法有效激發(fā)大型推理模型使用工具的能力。他們嘗試了直接提示、精心設(shè)計的提示以及上下文示例等多種方法,但都未能成功讓模型在長鏈推理過程中主動調(diào)用Python工具。
最終的突破來自于對模型推理過程的深入分析。研究團隊注意到,在模型的推理過程中,某些特定的連接詞(如"另外"、"等等")通常表示模型開始內(nèi)省或?qū)で笮碌慕鉀Q方案。在這些關(guān)鍵時刻插入提示,就能有效激發(fā)模型使用工具的行為。
這種發(fā)現(xiàn)的意義遠不止于技術(shù)層面。它揭示了大型語言模型內(nèi)部可能存在某種類似人類認知的結(jié)構(gòu),在特定的"反思時刻"更容易接受外部建議和使用輔助工具。這為我們理解AI的推理機制提供了新的視角。
六、實際應(yīng)用場景的展示
研究團隊通過多個具體案例展示了START的實際應(yīng)用效果。在一個關(guān)于硬幣組合的數(shù)學(xué)問題中,START不僅能夠理解問題的數(shù)學(xué)本質(zhì)(這是一個弗羅貝尼烏斯硬幣問題),還能夠編寫Python代碼來驗證所有可能的組合,最終準確找到無法用給定面值硬幣支付的最大金額。
在另一個更加復(fù)雜的數(shù)論問題中,START展現(xiàn)出了令人印象深刻的自主學(xué)習(xí)能力。面對尋找最小素數(shù)的問題,START不僅進行了理論分析,還編寫了復(fù)雜的搜索程序來驗證結(jié)果,甚至在計算過程中發(fā)現(xiàn)并修正了自己的錯誤。
在編程任務(wù)方面,START的表現(xiàn)同樣出色。面對一個需要處理單調(diào)對的復(fù)雜算法問題,START不僅理解了問題的數(shù)學(xué)約束條件,還設(shè)計出了高效的動態(tài)規(guī)劃解決方案,并通過代碼執(zhí)行驗證了算法的正確性。
七、測試時間縮放的意外發(fā)現(xiàn)
研究過程中的一個有趣發(fā)現(xiàn)是START具備"測試時間縮放"能力。這意味著通過在推理過程中多次插入提示,給模型更多的思考和工具使用機會,其性能會持續(xù)提升。這就像給學(xué)生更多時間和更多次使用計算器的機會,他們的答題準確率會相應(yīng)提高。
這個特性的發(fā)現(xiàn)為AI系統(tǒng)的實際部署提供了重要參考。在對準確性要求較高的場景中,可以通過增加推理時間來獲得更好的結(jié)果。而在對速度要求較高的場景中,則可以在準確性和效率之間找到合適的平衡點。
八、與現(xiàn)有技術(shù)的比較優(yōu)勢
START的出現(xiàn)填補了當前AI推理領(lǐng)域的一個重要空白。雖然OpenAI的o1模型也聲稱具備使用外部工具的能力,但相關(guān)的技術(shù)細節(jié)并未公開。START作為首個開源的工具集成長鏈推理模型,為整個AI社區(qū)提供了寶貴的技術(shù)參考。
與傳統(tǒng)的工具增強推理方法相比,START的優(yōu)勢在于其自主性。以往的系統(tǒng)需要明確的指令或示例來指導(dǎo)工具使用,而START能夠根據(jù)問題的需要自主決定何時以及如何使用工具。這種自主性使得START能夠處理更加復(fù)雜和多樣化的問題。
在性能方面,START在多個基準測試中都達到了與頂級閉源模型相當?shù)乃?。特別是在數(shù)學(xué)推理任務(wù)上,START的表現(xiàn)甚至超過了一些知名的商業(yè)模型,這證明了開源研究在推動AI技術(shù)發(fā)展方面的重要價值。
說到底,START代表了AI推理技術(shù)發(fā)展的一個重要里程碑。它不僅展示了如何將符號計算與神經(jīng)推理有效結(jié)合,更重要的是驗證了AI系統(tǒng)通過自主學(xué)習(xí)掌握工具使用的可能性。這種能力的獲得,使得AI在解決復(fù)雜問題時更加可靠和準確,大大減少了"幻覺"現(xiàn)象的出現(xiàn)。
對于普通用戶而言,START技術(shù)的意義在于它預(yù)示著未來的AI助手將能夠更好地處理需要精確計算和驗證的任務(wù)。無論是幫助學(xué)生解決復(fù)雜的數(shù)學(xué)題目,還是協(xié)助工程師進行技術(shù)方案的驗證,這種能夠自主使用工具的AI系統(tǒng)都將帶來更高的準確性和可信度。當然,目前START仍然主要專注于Python工具的使用,未來如果能夠擴展到更多種類的工具和應(yīng)用領(lǐng)域,其實用價值將會更加顯著。
這項研究也引發(fā)了一些值得思考的問題:隨著AI系統(tǒng)越來越善于使用工具,人類在問題解決過程中的獨特價值又在哪里?如何確保這種強大的AI系統(tǒng)被正確和安全地使用?這些問題的答案或許需要在技術(shù)繼續(xù)發(fā)展的過程中逐步探索和發(fā)現(xiàn)。無論如何,START的出現(xiàn)為我們展示了AI技術(shù)發(fā)展的一個令人興奮的新方向,值得持續(xù)關(guān)注和深入研究。
Q&A
Q1:START技術(shù)是什么?它能做什么? A:START是阿里巴巴開發(fā)的AI推理系統(tǒng),它的核心能力是讓AI在解決復(fù)雜問題時能夠像人類一樣主動使用工具(如Python編程)進行計算、驗證和調(diào)試。這大大提升了AI解決數(shù)學(xué)和編程問題的準確性,減少了"幻覺"現(xiàn)象。
Q2:START會不會取代人類解決復(fù)雜問題? A:目前不會完全取代人類,但會顯著改變問題解決方式。START主要在數(shù)學(xué)計算和編程調(diào)試方面表現(xiàn)出色,但人類在創(chuàng)造性思維、問題定義和價值判斷方面仍具有不可替代的優(yōu)勢。未來更可能是人機協(xié)作的模式。
Q3:普通人能使用START技術(shù)嗎? A:目前START主要是研究階段的技術(shù),普通用戶還無法直接使用。不過這項技術(shù)是開源的,研究人員可以通過arXiv:2503.04625v2獲取技術(shù)細節(jié)。預(yù)計未來會有基于這種技術(shù)的產(chǎn)品應(yīng)用出現(xiàn),為教育和工程等領(lǐng)域提供更準確的AI助手。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。