av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<bdo id="qtr9d"></bdo>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

小模型也能超越大模型？KRAFTON揭秘讓AI學(xué)會"自己驗證答案"的神奇工具

人工智能模型驗證小型語言模型

小模型也能超越大模型？KRAFTON揭秘讓AI學(xué)會"自己驗證答案"的神奇工具

作者：科技行者

2025-07-14 14:39

分享至：

KRAFTON研究團隊提出T1方法，讓小型AI模型通過借助代碼解釋器等外部工具進行自我驗證，解決了小模型記憶力有限導(dǎo)致的驗證準確性問題。實驗顯示，10億參數(shù)的模型配合T1方法在數(shù)學(xué)推理任務(wù)上能夠超越80億參數(shù)的獨立模型，為小型AI模型的高效部署開辟了新路徑。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-14 14:39 ? 科技行者

這項由韓國KRAFTON公司的康珉基（Minki Kang）、鄭鐘元（Jongwon Jeong）和趙在雄（Jaewoong Cho）領(lǐng)導(dǎo)的研究團隊在2025年4月提交的論文，探索了一個令人著迷的問題：能否讓小型AI模型學(xué)會像人類一樣"自己檢查作業(yè)"？這篇題為《T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models》的研究論文揭示了一種革命性的方法，讓體積小巧的AI模型通過借助外部工具來驗證自己的答案，從而在數(shù)學(xué)推理等復(fù)雜任務(wù)上超越體積大得多的模型。有興趣深入了解的讀者可以通過arXiv平臺訪問完整論文（論文編號：2504.04718v1）。

在人工智能的世界里，一直存在著一個有趣的現(xiàn)象：就像學(xué)生做數(shù)學(xué)題一樣，AI模型也會犯各種錯誤，特別是在需要復(fù)雜推理的任務(wù)中。傳統(tǒng)的解決方案是讓AI"多做幾遍題目"，然后選擇看起來最好的答案。但這里有個關(guān)鍵問題：誰來判斷哪個答案是對的？通常，我們需要一個"老師"——也就是更大、更強的AI模型來做判斷?？墒?，如果我們想要使用小型、高效的AI模型（比如只有10億參數(shù)的模型），卻還需要依賴70億參數(shù)的大模型來做驗證，這就失去了使用小模型的意義。

正是在這樣的背景下，KRAFTON的研究團隊開始思考：能否讓小模型學(xué)會自己驗證答案？他們發(fā)現(xiàn)，即使通過知識蒸餾技術(shù)（可以理解為讓小模型"抄"大模型的作業(yè)方法）訓(xùn)練小模型進行自我驗證，效果仍然不盡如人意。深入研究后，他們意識到問題的根源在于小模型的"記憶力"有限——它們往往記不住足夠多的事實和計算規(guī)則來準確判斷答案的正誤。

研究團隊通過一個簡單而有趣的實驗證明了這個觀點。他們讓一個10億參數(shù)的小模型驗證不同復(fù)雜度的數(shù)學(xué)計算，發(fā)現(xiàn)隨著計算中數(shù)字個數(shù)的增加，模型的驗證準確率急劇下降。比如驗證3個三位數(shù)的加法，準確率還能保持在較高水平，但當數(shù)字增加到10個時，準確率就跌到了60%左右。然而，當研究人員讓模型不是直接驗證答案，而是生成Python代碼來計算并驗證時，準確率幾乎保持不變，始終接近100%。這個發(fā)現(xiàn)就像突然找到了鑰匙一樣——原來小模型不是不會驗證，而是需要借助合適的工具。

基于這個洞察，研究團隊提出了"工具集成自驗證"（T1）方法。這個方法的核心理念很簡單：讓小模型把那些需要大量記憶的驗證步驟外包給專門的工具。就像人類在做復(fù)雜計算時會使用計算器一樣，AI模型也可以借助代碼解釋器來驗證數(shù)學(xué)計算，或者使用搜索引擎來核實事實信息。

T1方法的工作流程可以比作一個精心設(shè)計的質(zhì)量控制系統(tǒng)。當AI模型生成多個候選答案后，首先通過工具驗證階段進行初步篩選，就像工廠的第一道質(zhì)檢環(huán)節(jié)，把明顯有問題的產(chǎn)品（比如計算錯誤的答案）直接淘汰。接著，通過獎勵模型評分階段對剩余的候選答案進行細致評估，就像終極質(zhì)檢環(huán)節(jié)，從邏輯一致性、表達連貫性等多個維度綜合評分，最終選出得分最高的答案作為最終結(jié)果。

為了讓小模型學(xué)會有效使用這些工具，研究團隊采用了知識蒸餾技術(shù)。他們先讓更強大的教師模型（如GPT-4o-mini）展示如何正確使用工具進行驗證，然后讓小模型學(xué)習(xí)模仿這些行為。這個過程就像師傅教徒弟手藝一樣，通過大量的示范和練習(xí)，讓小模型掌握工具使用的技巧。為了高效管理不同類型的驗證任務(wù)，研究團隊還采用了多LoRA（Low-Rank Adaptation）技術(shù)，為每種驗證任務(wù)分配專門的適配器，就像給不同的工作配備專門的工具箱。

從理論角度來看，T1方法的有效性可以用一個直觀的數(shù)學(xué)分析來解釋。研究團隊以簡單的算術(shù)驗證任務(wù)為例，證明了當模型需要記住所有可能的加法組合時，所需的信息量會隨著數(shù)字范圍的立方增長。比如要驗證所有三位數(shù)的加法，模型需要記住大約一百萬種組合的結(jié)果。但當模型可以使用外部計算工具時，它幾乎不需要記住任何具體的計算結(jié)果，只需要學(xué)會如何正確調(diào)用工具即可。這就像從需要背誦整本字典，變成了只需要學(xué)會如何查字典。

研究團隊的實驗結(jié)果令人印象深刻。在數(shù)學(xué)推理任務(wù)上，配備了T1方法的10億參數(shù)Llama-3.2模型竟然能夠超越未使用T1的80億參數(shù)Llama-3.1模型。這就像一個初中生借助計算器和參考書，在數(shù)學(xué)競賽中擊敗了僅憑記憶應(yīng)戰(zhàn)的大學(xué)生。具體來說，在MATH500這個包含大學(xué)水平數(shù)學(xué)問題的測試集上，使用T1方法的1B模型在生成64個候選答案時的準確率達到了約50%，而8B模型在貪婪解碼（只生成一個答案）時的準確率僅為約47%。

更有趣的是，T1方法不僅在純數(shù)學(xué)任務(wù)上表現(xiàn)出色，在需要事實核查的知識密集型任務(wù)上也展現(xiàn)了良好的適應(yīng)性。研究團隊將T1擴展到MMLU-Pro這樣的多領(lǐng)域知識問答任務(wù)中，讓模型使用檢索工具從維基百科獲取相關(guān)信息來驗證答案中的事實陳述。實驗結(jié)果顯示，在健康、經(jīng)濟學(xué)和歷史等不同領(lǐng)域，T1方法都能帶來顯著的性能提升。

研究團隊進一步分析了T1方法在不同數(shù)學(xué)領(lǐng)域和難度級別上的表現(xiàn)。他們發(fā)現(xiàn)，T1在代數(shù)、數(shù)論和概率統(tǒng)計等計算密集型領(lǐng)域效果最為顯著，這符合預(yù)期，因為這些領(lǐng)域的驗證任務(wù)主要依賴準確的數(shù)值計算。然而，在幾何等更依賴空間推理的領(lǐng)域，改進效果相對有限，這暗示了當前方法的局限性。就難度級別而言，T1在中等難度（2-4級）的問題上表現(xiàn)最佳，但在最高難度（5級）的問題上效果有所下降，這表明僅僅解決計算準確性問題還不足以應(yīng)對最復(fù)雜的推理挑戰(zhàn)。

實驗還揭示了一個有趣的現(xiàn)象：隨著驗證模型規(guī)模的增大，T1帶來的改進幅度會逐漸縮小，但改進始終存在。這說明即使是大型模型也能從工具輔助驗證中受益，不過收益遞減效應(yīng)比較明顯。同時，研究團隊發(fā)現(xiàn)T1能夠有效地作為過濾器，顯著減少錯誤答案的數(shù)量。通過分析64個候選答案中正確答案的比例分布，他們發(fā)現(xiàn)T1能夠大幅提升每個問題的正確答案占比，從而為最終的答案選擇提供更好的候選池。

為了驗證理論分析的正確性，研究團隊還研究了T1在不同驗證模型規(guī)模下的表現(xiàn)。他們固定工具驗證部分使用1B模型，但讓獎勵模型的規(guī)模從1B擴展到8B。結(jié)果顯示，1B模型配合T1的表現(xiàn)甚至能夠超越8B模型的獨立驗證，這進一步證明了工具集成比簡單增加模型規(guī)模更為有效。

在數(shù)據(jù)效率方面，T1方法也表現(xiàn)出了令人驚喜的特點。研究團隊發(fā)現(xiàn)，即使只使用10%的訓(xùn)練數(shù)據(jù)來訓(xùn)練工具驗證模塊，其性能仍然能夠保持在較高水平，這大大降低了實際部署的成本和復(fù)雜度。這種數(shù)據(jù)效率的優(yōu)勢使得T1方法在資源受限的實際應(yīng)用場景中具有很強的實用性。

當然，T1方法也存在一些局限性。首先，工具驗證目前只能起到過濾器的作用，能夠排除明顯錯誤的答案，但無法挽救被錯誤拒絕的正確答案。這就像一個過于嚴格的審查員，雖然很少會讓錯誤通過，但有時也會誤殺正確的內(nèi)容。其次，當前的研究主要集中在并行測試時計算擴展（best-of-N方法）上，這種方法雖然簡單有效，但缺乏不同生成之間的信息共享，可能錯過了進一步優(yōu)化的機會。

研究團隊也注意到了工具驗證中的一些技術(shù)細節(jié)問題。比如在數(shù)學(xué)驗證中，有時生成的Python代碼可能在邏輯上是正確的，但由于符號計算的細微差別導(dǎo)致驗證失敗。例如，兩個數(shù)學(xué)上等價的表達式可能因為形式不同而被判斷為不相等，這需要更精細的符號等價性檢查技術(shù)來解決。

展望未來，T1方法開啟了小型AI模型增強的新方向。研究團隊提出了幾個有趣的擴展可能性。第一個方向是將工具集成擴展到驗證步驟本身，讓驗證過程不僅能夠過濾錯誤答案，還能夠利用工具的正確性保證來主動修正和改進答案。第二個方向是探索T1在其他測試時計算擴展策略中的應(yīng)用，比如步級搜索或序列化測試時擴展，這些方法可能能夠更好地利用工具輔助推理的優(yōu)勢。

從更廣闊的視角來看，T1方法體現(xiàn)了AI發(fā)展的一個重要趨勢：不是單純追求模型規(guī)模的增大，而是通過智能的系統(tǒng)設(shè)計來實現(xiàn)性能的突破。這種思路不僅在技術(shù)上更加優(yōu)雅，在實用性上也更有前景，因為它降低了高性能AI系統(tǒng)的部署門檻，使得更多的應(yīng)用場景能夠受益于先進的AI能力。

說到底，KRAFTON的這項研究告訴我們一個簡單而深刻的道理：在AI的世界里，"小而巧"有時比"大而全"更有效。就像一個聰明的學(xué)生知道何時使用計算器，何時查閱資料一樣，AI模型也可以通過學(xué)會合理使用工具來彌補自身能力的不足。這不僅為小型AI模型的應(yīng)用開辟了新的可能性，也為整個AI系統(tǒng)的設(shè)計提供了新的思路。未來，我們可能會看到越來越多的AI系統(tǒng)采用這種"模型+工具"的協(xié)作模式，讓AI變得既高效又可靠。對于普通用戶而言，這意味著我們可能很快就能在手機、個人電腦等資源有限的設(shè)備上享受到高質(zhì)量的AI服務(wù)，而不需要依賴昂貴的云端大模型。有興趣深入了解技術(shù)細節(jié)的讀者，可以通過arXiv平臺查閱完整的研究論文，探索這一創(chuàng)新方法的更多可能性。

Q&A

Q1：T1方法是什么？它能做什么？ A：T1（Tool-integrated Self-verification）是一種讓小型AI模型借助外部工具來驗證自己答案的方法。它能讓小模型在數(shù)學(xué)推理等任務(wù)上超越大模型，就像學(xué)生借助計算器和參考書來提高答題準確性一樣。

Q2：小模型使用T1方法會不會完全取代大模型？ A：目前不會完全取代，但會大大改變AI模型的使用方式。T1主要在特定任務(wù)（如數(shù)學(xué)計算、事實核查）上讓小模型表現(xiàn)更好，但大模型在復(fù)雜推理和創(chuàng)造性任務(wù)上仍有優(yōu)勢。

Q3：T1方法的工具驗證有什么局限性？ A：主要局限是只能過濾錯誤答案，無法修復(fù)被誤判的正確答案。另外，生成的驗證代碼有時可能因為技術(shù)細節(jié)問題導(dǎo)致誤判，需要更精細的驗證機制來改進。

人工智能模型驗證小型語言模型

分享至

0贊

好文章，需要你的鼓勵

推薦文章

人工智能
動態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學(xué)團隊提出動態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準確率，且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準確

清華大學(xué)研究團隊提出SIRI方法，通過"壓縮-擴張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示，該方法在數(shù)學(xué)競賽題上將模型準確率提升43.2%的同時，輸出長度減少46.9%，真正實現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實時流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù)，實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新，解決了長視頻生成中的錯誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團隊發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集，使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示，幾何訓(xùn)練在四個空間智能測試基準上都帶來顯著提升，其中最佳模型達到49.6%準確率，超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。

浙江大學(xué)突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

浙江大學(xué)突破：讓AI專家團隊在考試時"動態(tài)組隊"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準確

清華大學(xué)新突破：AI模型居然能學(xué)會"少說話多做事"，推理效率提升一倍還更準確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實現(xiàn)多分鐘視頻實時流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團隊突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn

<ruby id="j6pwn"></ruby>