av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<pre id="nt1kg"></pre>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

小個(gè)子AI也能打敗巨無(wú)霸？上海AI實(shí)驗(yàn)室發(fā)現(xiàn)"考試時(shí)間換智商"的神奇現(xiàn)象

人工智能測(cè)試時(shí)計(jì)算擴(kuò)展小模型逆襲

小個(gè)子AI也能打敗巨無(wú)霸？上海AI實(shí)驗(yàn)室發(fā)現(xiàn)"考試時(shí)間換智商"的神奇現(xiàn)象

作者：科技行者

2025-08-26 12:01

分享至：

上海AI實(shí)驗(yàn)室聯(lián)合清華等機(jī)構(gòu)發(fā)現(xiàn)，通過(guò)"測(cè)試時(shí)計(jì)算擴(kuò)展"策略，小型AI模型可以戰(zhàn)勝參數(shù)規(guī)模大135倍的巨型模型。10億參數(shù)的模型在數(shù)學(xué)推理任務(wù)上超越了4050億參數(shù)的模型，甚至5億參數(shù)的迷你模型都能勝過(guò)GPT-4o。研究揭示了AI發(fā)展新方向：聰明的推理策略比模型規(guī)模更重要，為資源有限的機(jī)構(gòu)提供了"以智取勝"的可能性。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-08-26 12:01 ? 科技行者

這項(xiàng)由上海AI實(shí)驗(yàn)室、清華大學(xué)、哈爾濱工業(yè)大學(xué)和北京郵電大學(xué)聯(lián)合完成的研究發(fā)表于2025年2月，論文標(biāo)題為《Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling》。感興趣的讀者可以通過(guò)arXiv預(yù)印本平臺(tái)訪問(wèn)完整論文（論文編號(hào)：arXiv:2502.06703v1）。

這個(gè)研究就像是發(fā)現(xiàn)了一個(gè)教育界的神奇現(xiàn)象：給學(xué)習(xí)能力一般的學(xué)生更多考試時(shí)間和輔導(dǎo)，他們竟然能考過(guò)那些天資聰穎但匆忙答題的尖子生。在人工智能的世界里，研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)同樣令人震驚的事實(shí)：只有10億參數(shù)的"小個(gè)子"AI模型，通過(guò)巧妙的"考試策略"，居然能在數(shù)學(xué)推理任務(wù)上打敗擁有4050億參數(shù)的"巨無(wú)霸"AI模型。

具體來(lái)說(shuō)，這項(xiàng)研究揭示了一個(gè)被稱為"測(cè)試時(shí)計(jì)算擴(kuò)展"的神奇現(xiàn)象。就好比兩個(gè)學(xué)生面對(duì)同一道數(shù)學(xué)題，聰明的學(xué)生可能會(huì)很快給出答案，但普通學(xué)生如果有足夠時(shí)間反復(fù)思考、嘗試多種解題方法，最終可能得出更準(zhǔn)確的答案。研究團(tuán)隊(duì)發(fā)現(xiàn)，當(dāng)給小型AI模型分配更多的計(jì)算資源和推理時(shí)間時(shí)，它們的表現(xiàn)可以超越那些參數(shù)規(guī)模大得多的模型。

這個(gè)發(fā)現(xiàn)打破了AI領(lǐng)域長(zhǎng)期以來(lái)的一個(gè)固有認(rèn)知。過(guò)去，人們普遍認(rèn)為模型越大越好，參數(shù)越多越聰明。但這項(xiàng)研究證明，在某些情況下，"小而精"配合"深度思考"的策略，可能比"大而全"配合"快速反應(yīng)"的方式更有效。

研究團(tuán)隊(duì)在兩個(gè)具有挑戰(zhàn)性的數(shù)學(xué)數(shù)據(jù)集上進(jìn)行了詳盡的實(shí)驗(yàn)：MATH-500和AIME24。MATH-500包含500個(gè)高難度數(shù)學(xué)問(wèn)題，而AIME24則是2024年美國(guó)數(shù)學(xué)邀請(qǐng)賽的題目，這些都是連人類數(shù)學(xué)高手都需要仔細(xì)思考才能解決的難題。

令人驚嘆的是，在研究團(tuán)隊(duì)精心設(shè)計(jì)的策略下，一個(gè)只有10億參數(shù)的小型模型在MATH-500上的表現(xiàn)竟然超過(guò)了擁有4050億參數(shù)的大型模型。更夸張的是，一個(gè)僅有5億參數(shù)的"迷你"模型居然在某些測(cè)試中勝過(guò)了大名鼎鼎的GPT-4o，而一個(gè)30億參數(shù)的模型甚至超越了OpenAI最先進(jìn)的o1模型和DeepSeek的R1模型。

這個(gè)現(xiàn)象的核心在于研究團(tuán)隊(duì)發(fā)現(xiàn)的"計(jì)算最優(yōu)測(cè)試時(shí)擴(kuò)展策略"。簡(jiǎn)單來(lái)說(shuō)，就是要根據(jù)不同的AI模型、不同的評(píng)分系統(tǒng)和不同難度的問(wèn)題，采用不同的"考試策略"。就像不同的學(xué)生需要不同的學(xué)習(xí)方法一樣，不同的AI模型也需要量身定制的推理策略才能發(fā)揮最佳水平。

一、小模型如何戰(zhàn)勝大模型：測(cè)試時(shí)計(jì)算擴(kuò)展的奧秘

要理解這個(gè)現(xiàn)象，我們可以把AI模型比作不同能力的學(xué)生。傳統(tǒng)觀念認(rèn)為，智商高的學(xué)生（大模型）總是比智商一般的學(xué)生（小模型）表現(xiàn)更好。但研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：如果給智商一般的學(xué)生足夠的時(shí)間和合適的方法，他們可能會(huì)比匆忙作答的天才學(xué)生表現(xiàn)更好。

測(cè)試時(shí)計(jì)算擴(kuò)展技術(shù)就像是給AI模型提供了一套"深度思考工具包"。當(dāng)遇到一道復(fù)雜的數(shù)學(xué)題時(shí)，小模型不會(huì)像大模型那樣快速給出一個(gè)答案，而是會(huì)采用多種策略：生成多個(gè)可能的解答，仔細(xì)檢查每一步的邏輯，甚至?xí)?換個(gè)角度"重新思考問(wèn)題。

這個(gè)過(guò)程類似于一個(gè)謹(jǐn)慎的學(xué)生在考試中的行為。他們不會(huì)急于寫(xiě)下第一個(gè)想到的答案，而是會(huì)在草稿紙上嘗試不同的解題思路，對(duì)比各種可能性，最后選擇最有把握的答案。雖然這樣做需要更多時(shí)間，但往往能獲得更準(zhǔn)確的結(jié)果。

研究團(tuán)隊(duì)發(fā)現(xiàn)，這種策略在數(shù)學(xué)推理任務(wù)上特別有效。數(shù)學(xué)問(wèn)題往往有明確的對(duì)錯(cuò)標(biāo)準(zhǔn)，而且解題過(guò)程可以分解為多個(gè)步驟。小模型雖然在單步推理能力上不如大模型，但通過(guò)多次嘗試和仔細(xì)驗(yàn)證，它們能夠找到正確的解題路徑。

具體來(lái)說(shuō)，研究中使用的小模型會(huì)采用三種主要策略。第一種是"最佳選擇策略"，模型會(huì)生成多個(gè)不同的答案，然后從中選擇最可能正確的那一個(gè)。第二種是"束搜索策略"，模型會(huì)在解題過(guò)程中保持多個(gè)可能的思路，逐步篩選出最有希望的路徑。第三種是"多樣化驗(yàn)證樹(shù)搜索"，模型會(huì)構(gòu)建一個(gè)決策樹(shù)，探索各種可能的解題方向，最終找到最優(yōu)解。

這些策略的效果非常顯著。在MATH-500數(shù)據(jù)集上，一個(gè)僅有30億參數(shù)的Llama模型使用優(yōu)化策略后，準(zhǔn)確率達(dá)到了78.2%，而擁有4050億參數(shù)的大型模型在常規(guī)模式下只有71.4%的準(zhǔn)確率。這意味著小模型不僅戰(zhàn)勝了大模型，而且是在一個(gè)135倍參數(shù)差距的巨大劣勢(shì)下實(shí)現(xiàn)的逆轉(zhuǎn)。

更令人印象深刻的是，研究團(tuán)隊(duì)還發(fā)現(xiàn)這種優(yōu)勢(shì)在更具挑戰(zhàn)性的AIME24數(shù)據(jù)集上依然存在。這個(gè)數(shù)據(jù)集包含的是美國(guó)數(shù)學(xué)競(jìng)賽中的高難度題目，即使是數(shù)學(xué)專業(yè)的大學(xué)生也需要仔細(xì)思考才能解決。在這個(gè)測(cè)試中，一個(gè)75億參數(shù)的小模型使用優(yōu)化策略后，竟然在某些指標(biāo)上超過(guò)了OpenAI的o1模型。

二、量身定制的智慧：為什么一種策略不適用所有模型

研究中最重要的發(fā)現(xiàn)之一是，沒(méi)有一種"萬(wàn)能"的測(cè)試時(shí)擴(kuò)展策略能夠適用于所有情況。就像每個(gè)學(xué)生都有自己的學(xué)習(xí)風(fēng)格和優(yōu)勢(shì)科目一樣，不同的AI模型需要不同的推理策略才能發(fā)揮最佳性能。

這個(gè)發(fā)現(xiàn)顛覆了很多人對(duì)AI優(yōu)化的簡(jiǎn)單認(rèn)知。過(guò)去，研究者們往往尋找一種普遍適用的方法，希望它能在所有模型和所有任務(wù)上都有效。但這項(xiàng)研究告訴我們，AI優(yōu)化更像是個(gè)性化教育——需要根據(jù)每個(gè)"學(xué)生"的特點(diǎn)制定專門(mén)的學(xué)習(xí)計(jì)劃。

研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn)，最優(yōu)策略的選擇取決于三個(gè)關(guān)鍵因素：模型大小、評(píng)分系統(tǒng)和問(wèn)題難度。這三個(gè)因素之間的相互作用就像是一個(gè)復(fù)雜的化學(xué)反應(yīng)，不同的組合會(huì)產(chǎn)生截然不同的效果。

首先是模型大小的影響。研究團(tuán)隊(duì)測(cè)試了從5億參數(shù)到720億參數(shù)的各種規(guī)模的模型，發(fā)現(xiàn)了一個(gè)有趣的規(guī)律：對(duì)于小型模型（參數(shù)少于70億），基于搜索的策略效果最好；而對(duì)于大型模型，簡(jiǎn)單的多選擇策略往往更有效。這就好比給小學(xué)生和大學(xué)生設(shè)計(jì)不同的學(xué)習(xí)方法——小學(xué)生需要更多的引導(dǎo)和步驟分解，而大學(xué)生更適合獨(dú)立思考和快速?zèng)Q策。

其次是評(píng)分系統(tǒng)的重要性。在這項(xiàng)研究中，AI模型的推理過(guò)程需要一個(gè)"老師"來(lái)評(píng)判每一步是否正確，這個(gè)"老師"就是所謂的過(guò)程獎(jiǎng)勵(lì)模型（PRM）。研究團(tuán)隊(duì)發(fā)現(xiàn)，不同的PRM就像不同風(fēng)格的老師，它們的評(píng)判標(biāo)準(zhǔn)和偏好會(huì)顯著影響學(xué)生（AI模型）的表現(xiàn)。

有些PRM偏好簡(jiǎn)潔的解答，它們會(huì)給簡(jiǎn)短的推理步驟打高分；而有些PRM則更看重詳細(xì)的論證過(guò)程，傾向于獎(jiǎng)勵(lì)冗長(zhǎng)但完整的解題思路。更有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)某些PRM存在明顯的"評(píng)分偏見(jiàn)"——它們可能會(huì)因?yàn)榇鸢傅拈L(zhǎng)度、格式或表達(dá)方式而給出不公正的評(píng)分，就像某些老師可能會(huì)因?yàn)樽舟E工整而給作業(yè)更高分?jǐn)?shù)一樣。

第三個(gè)因素是問(wèn)題難度。研究團(tuán)隊(duì)將數(shù)學(xué)問(wèn)題按難度分為三個(gè)級(jí)別：簡(jiǎn)單（成功率50%-100%）、中等（成功率10%-50%）和困難（成功率0%-10%）。他們發(fā)現(xiàn)，不同難度的問(wèn)題需要不同的解題策略。對(duì)于簡(jiǎn)單問(wèn)題，快速的多選擇策略通常就足夠了；但對(duì)于困難問(wèn)題，需要更加深入的搜索和驗(yàn)證過(guò)程。

這種策略的差異化不僅體現(xiàn)在方法選擇上，還體現(xiàn)在計(jì)算資源的分配上。研究團(tuán)隊(duì)發(fā)現(xiàn)，給困難問(wèn)題分配更多的計(jì)算時(shí)間和嘗試次數(shù)是值得的，而對(duì)于簡(jiǎn)單問(wèn)題，過(guò)多的計(jì)算反而可能導(dǎo)致"過(guò)度思考"，降低效率。

更深層次的發(fā)現(xiàn)是，這三個(gè)因素之間存在復(fù)雜的相互作用。某個(gè)PRM可能在評(píng)價(jià)大型模型時(shí)表現(xiàn)出色，但在指導(dǎo)小型模型時(shí)卻效果不佳。同樣，某種策略在簡(jiǎn)單問(wèn)題上可能很有效，但在困難問(wèn)題上卻可能適得其反。這種復(fù)雜性使得尋找最優(yōu)策略變成了一個(gè)需要精細(xì)調(diào)優(yōu)的過(guò)程。

為了驗(yàn)證這些發(fā)現(xiàn)，研究團(tuán)隊(duì)進(jìn)行了數(shù)千次實(shí)驗(yàn)，測(cè)試了不同模型、不同PRM和不同策略的各種組合。結(jié)果顯示，經(jīng)過(guò)精心優(yōu)化的組合比隨意選擇的組合平均性能提升了50%以上。這個(gè)數(shù)字清楚地說(shuō)明了"量身定制"策略的重要性。

三、評(píng)分老師的偏見(jiàn)：AI評(píng)判系統(tǒng)的隱藏問(wèn)題

在深入研究測(cè)試時(shí)擴(kuò)展策略的過(guò)程中，研究團(tuán)隊(duì)意外發(fā)現(xiàn)了一個(gè)令人擔(dān)憂的現(xiàn)象：負(fù)責(zé)評(píng)判AI推理過(guò)程的"老師"——過(guò)程獎(jiǎng)勵(lì)模型，存在著各種令人意想不到的偏見(jiàn)和錯(cuò)誤傾向。這個(gè)發(fā)現(xiàn)就像是發(fā)現(xiàn)了一位看似公正的老師實(shí)際上在評(píng)分時(shí)帶有個(gè)人喜好一樣重要。

過(guò)程獎(jiǎng)勵(lì)模型的作用就像是數(shù)學(xué)考試中的閱卷老師，它需要逐步評(píng)判AI模型解題過(guò)程中每一步的正確性。理想情況下，這個(gè)"老師"應(yīng)該能夠準(zhǔn)確識(shí)別哪些推理步驟是正確的，哪些是錯(cuò)誤的，從而引導(dǎo)AI模型走向正確答案。但研究團(tuán)隊(duì)發(fā)現(xiàn)，這些"老師"遠(yuǎn)沒(méi)有想象中那么可靠。

研究團(tuán)隊(duì)識(shí)別出了四種主要的評(píng)分偏見(jiàn)。第一種是"過(guò)度批評(píng)"現(xiàn)象。就像某些老師對(duì)學(xué)生要求過(guò)于嚴(yán)格一樣，有些過(guò)程獎(jiǎng)勵(lì)模型會(huì)給明顯正確的推理步驟打低分。研究人員展示了一個(gè)典型案例：在簡(jiǎn)化根號(hào)242的問(wèn)題中，AI模型給出了完全正確的數(shù)學(xué)推理過(guò)程，但評(píng)分系統(tǒng)卻給出了越來(lái)越低的分?jǐn)?shù)，最后一步的正確答案甚至只得到了0.46分。這種不合理的嚴(yán)苛評(píng)判會(huì)誤導(dǎo)AI模型，讓它們懷疑自己的正確思路。

第二種偏見(jiàn)是"錯(cuò)誤忽視"。這恰恰與過(guò)度批評(píng)相反——評(píng)分系統(tǒng)對(duì)明顯的錯(cuò)誤視而不見(jiàn)，甚至給錯(cuò)誤的推理步驟打高分。研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人啼笑皆非的例子：在一個(gè)三角函數(shù)問(wèn)題中，AI模型犯了一個(gè)基礎(chǔ)的數(shù)學(xué)錯(cuò)誤，將sin函數(shù)的定義搞錯(cuò)了，但評(píng)分系統(tǒng)卻給這個(gè)錯(cuò)誤步驟打了很高的分?jǐn)?shù)。這種"視而不見(jiàn)"的態(tài)度會(huì)讓AI模型在錯(cuò)誤的道路上越走越遠(yuǎn)。

第三種偏見(jiàn)被稱為"錯(cuò)誤定位偏差"。這種情況下，評(píng)分系統(tǒng)雖然感覺(jué)到某個(gè)地方有問(wèn)題，但卻找錯(cuò)了問(wèn)題所在。就像一個(gè)老師知道學(xué)生的答案有問(wèn)題，但卻在錯(cuò)誤的地方扣分一樣。研究團(tuán)隊(duì)觀察到，某些評(píng)分系統(tǒng)會(huì)對(duì)解題過(guò)程中間的正確步驟給出低分，而對(duì)真正出錯(cuò)的地方反而比較寬容。

第四種偏見(jiàn)是"格式歧視"，這可能是最有趣也最令人意外的發(fā)現(xiàn)。研究團(tuán)隊(duì)發(fā)現(xiàn)，評(píng)分系統(tǒng)會(huì)因?yàn)榇鸢傅拈L(zhǎng)度、格式或表達(dá)風(fēng)格而給出不同的分?jǐn)?shù)，即使數(shù)學(xué)內(nèi)容完全相同。他們展示了兩個(gè)解決同一問(wèn)題的方案：一個(gè)簡(jiǎn)潔明了只有31個(gè)詞，另一個(gè)詳細(xì)冗長(zhǎng)有283個(gè)詞。令人驚訝的是，簡(jiǎn)潔版本的最后一步得分是0.51，而冗長(zhǎng)版本的最后一步卻只得到0.12分。這種長(zhǎng)度偏見(jiàn)就像某些老師會(huì)因?yàn)閷W(xué)生寫(xiě)得太少或太多而影響評(píng)分一樣不合理。

更深入的分析揭示了這些偏見(jiàn)的根源。研究團(tuán)隊(duì)發(fā)現(xiàn)，過(guò)程獎(jiǎng)勵(lì)模型的訓(xùn)練數(shù)據(jù)質(zhì)量直接影響其評(píng)分行為。某些模型在訓(xùn)練時(shí)接觸的數(shù)據(jù)平均長(zhǎng)度較短，導(dǎo)致它們偏好簡(jiǎn)潔的答案；而另一些模型則因?yàn)橛?xùn)練數(shù)據(jù)過(guò)于詳細(xì)而偏好冗長(zhǎng)的解釋。

這種偏見(jiàn)不僅影響單個(gè)問(wèn)題的解決，更會(huì)在整個(gè)推理搜索過(guò)程中產(chǎn)生累積效應(yīng)。當(dāng)AI模型依賴一個(gè)有偏見(jiàn)的評(píng)分系統(tǒng)進(jìn)行自我改進(jìn)時(shí)，它可能會(huì)逐漸學(xué)會(huì)迎合這些偏見(jiàn)，而不是真正提高推理能力。這就像學(xué)生為了迎合某個(gè)老師的喜好而改變自己的答題風(fēng)格，最終可能偏離了真正的學(xué)習(xí)目標(biāo)。

研究團(tuán)隊(duì)還發(fā)現(xiàn)，不同類型的過(guò)程獎(jiǎng)勵(lì)模型在處理不同來(lái)源的AI模型時(shí)表現(xiàn)差異巨大。這種"水土不服"現(xiàn)象表明，一個(gè)評(píng)分系統(tǒng)可能只適合評(píng)判特定類型的推理風(fēng)格，而對(duì)其他風(fēng)格的推理產(chǎn)生系統(tǒng)性偏見(jiàn)。這個(gè)發(fā)現(xiàn)對(duì)實(shí)際應(yīng)用具有重要意義，因?yàn)樗馕吨荒芎?jiǎn)單地將任意的評(píng)分系統(tǒng)與任意的AI模型組合使用。

為了量化這些偏見(jiàn)的影響，研究團(tuán)隊(duì)進(jìn)行了對(duì)比實(shí)驗(yàn)。他們發(fā)現(xiàn)，使用有偏見(jiàn)的評(píng)分系統(tǒng)會(huì)使AI模型的最終性能下降10%-30%，這個(gè)數(shù)字足以決定一個(gè)AI系統(tǒng)的成敗。更重要的是，這些偏見(jiàn)往往是隱藏的——從表面上看，評(píng)分系統(tǒng)似乎在正常工作，但實(shí)際上卻在暗中誤導(dǎo)整個(gè)推理過(guò)程。

四、小模型逆襲大模型的驚人戰(zhàn)績(jī)

在驗(yàn)證了理論和策略之后，研究團(tuán)隊(duì)開(kāi)始了最激動(dòng)人心的實(shí)戰(zhàn)測(cè)試：讓經(jīng)過(guò)優(yōu)化的小型AI模型與業(yè)界最強(qiáng)大的大型模型正面較量。這場(chǎng)"大衛(wèi)對(duì)歌利亞"式的對(duì)決產(chǎn)生了令整個(gè)AI界震驚的結(jié)果。

最引人矚目的成就來(lái)自一個(gè)僅有30億參數(shù)的Llama模型。在使用了計(jì)算最優(yōu)測(cè)試時(shí)擴(kuò)展策略后，這個(gè)"小個(gè)子"在MATH-500數(shù)據(jù)集上達(dá)到了78.2%的準(zhǔn)確率，而擁有4050億參數(shù)的巨型Llama模型在標(biāo)準(zhǔn)模式下只能達(dá)到71.4%。這意味著小模型不僅戰(zhàn)勝了大135倍的對(duì)手，而且勝得相當(dāng)漂亮。

更令人震驚的是，這種逆轉(zhuǎn)在更加困難的AIME24數(shù)據(jù)集上也得到了驗(yàn)證。AIME24包含的是美國(guó)數(shù)學(xué)邀請(qǐng)賽2024年的題目，這些題目的難度足以讓數(shù)學(xué)專業(yè)的大學(xué)生頭疼。在這個(gè)極具挑戰(zhàn)性的測(cè)試中，同樣是這個(gè)30億參數(shù)的小模型達(dá)到了30%的準(zhǔn)確率，而4050億參數(shù)的大模型只有23.3%。

但這還不是最極端的例子。研究團(tuán)隊(duì)發(fā)現(xiàn)，一個(gè)僅有5億參數(shù)的"迷你"模型，在經(jīng)過(guò)精心優(yōu)化后，竟然在MATH-500上達(dá)到了76.4%的準(zhǔn)確率，超過(guò)了GPT-4o的74.6%。這個(gè)結(jié)果讓人不禁懷疑自己的眼睛——一個(gè)參數(shù)規(guī)?？赡苓€不到GPT-4o千分之一的小模型，居然能在數(shù)學(xué)推理上勝過(guò)這個(gè)全球知名的大模型。

更令人興奮的是與OpenAI最新o1模型系列的對(duì)比。o1模型被譽(yù)為推理能力的新標(biāo)桿，它們專門(mén)針對(duì)復(fù)雜推理任務(wù)進(jìn)行了優(yōu)化。但在研究團(tuán)隊(duì)的測(cè)試中，一個(gè)15億參數(shù)的DeepSeek小模型在使用優(yōu)化策略后，在MATH-500上達(dá)到了91.6%的準(zhǔn)確率，超過(guò)了o1-preview的85.5%和o1-mini的90.0%。

最頂級(jí)的對(duì)決發(fā)生在75億參數(shù)的DeepSeek模型與o1模型之間。這個(gè)相對(duì)較小的模型在MATH-500上達(dá)到了95.2%的準(zhǔn)確率，而被視為當(dāng)前最強(qiáng)推理模型的o1只有94.8%。在AIME24這個(gè)更具挑戰(zhàn)性的測(cè)試中，差距更加明顯：75億參數(shù)的模型達(dá)到了83.3%，而o1只有79.2%。

這些數(shù)字背后隱藏著更深層的意義。研究團(tuán)隊(duì)計(jì)算了不同方案的計(jì)算效率，發(fā)現(xiàn)小模型的優(yōu)勢(shì)不僅體現(xiàn)在性能上，還體現(xiàn)在資源消耗上。一個(gè)經(jīng)過(guò)優(yōu)化的30億參數(shù)模型所需的總計(jì)算量（包括訓(xùn)練和推理）比4050億參數(shù)的大模型少了100到1000倍。這意味著小模型不僅更聰明，還更節(jié)能環(huán)保。

在效率分析中，研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人驚喜的現(xiàn)象：計(jì)算最優(yōu)測(cè)試時(shí)擴(kuò)展策略可以讓AI模型的效率提升256倍以上。具體來(lái)說(shuō)，一個(gè)10億參數(shù)的模型在使用優(yōu)化策略后，性能提升了154.6%，同時(shí)計(jì)算效率比傳統(tǒng)多數(shù)投票方法高出256倍。這種效率提升對(duì)于實(shí)際應(yīng)用具有巨大價(jià)值，特別是在計(jì)算資源有限的環(huán)境中。

研究團(tuán)隊(duì)還與其他先進(jìn)的數(shù)學(xué)推理方法進(jìn)行了對(duì)比。他們測(cè)試了幾種最新的"長(zhǎng)思維鏈"方法，這些方法通過(guò)讓AI模型進(jìn)行更長(zhǎng)時(shí)間的內(nèi)部思考來(lái)提升推理能力。結(jié)果顯示，測(cè)試時(shí)擴(kuò)展策略在大多數(shù)情況下都能超越這些方法。例如，一個(gè)75億參數(shù)的模型使用測(cè)試時(shí)擴(kuò)展策略在MATH-500上達(dá)到了88.0%的準(zhǔn)確率，而使用其他先進(jìn)方法的同規(guī)模模型只能達(dá)到78.4%-83.6%的準(zhǔn)確率。

這些實(shí)驗(yàn)結(jié)果不僅證明了測(cè)試時(shí)擴(kuò)展策略的有效性，更重要的是揭示了AI發(fā)展的一個(gè)新方向。過(guò)去幾年，AI領(lǐng)域一直在追求更大的模型規(guī)模，認(rèn)為參數(shù)越多就越智能。但這項(xiàng)研究表明，通過(guò)更聰明的推理策略，小模型可以獲得與大模型相當(dāng)甚至更優(yōu)的性能，同時(shí)大幅減少資源消耗。

五、從實(shí)驗(yàn)室到現(xiàn)實(shí)：這項(xiàng)研究的深遠(yuǎn)影響

這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)范疇，它為整個(gè)AI產(chǎn)業(yè)的發(fā)展方向提供了全新的思路。就像發(fā)現(xiàn)了一條通往山頂?shù)男碌缆芬粯?，這項(xiàng)研究為AI能力的提升開(kāi)辟了一個(gè)之前被忽視的方向。

最直接的影響是對(duì)AI模型開(kāi)發(fā)策略的重新思考。過(guò)去幾年，AI公司競(jìng)相開(kāi)發(fā)更大規(guī)模的模型，認(rèn)為參數(shù)數(shù)量是決定智能水平的關(guān)鍵因素。這種思路導(dǎo)致了一場(chǎng)"軍備競(jìng)賽"，各公司投入數(shù)十億美元訓(xùn)練越來(lái)越龐大的模型。但這項(xiàng)研究表明，通過(guò)改進(jìn)推理策略，小模型也能達(dá)到大模型的性能，這可能會(huì)改變整個(gè)行業(yè)的投資方向和技術(shù)路線。

對(duì)于資源有限的研究機(jī)構(gòu)和初創(chuàng)公司來(lái)說(shuō)，這個(gè)發(fā)現(xiàn)特別有價(jià)值。他們現(xiàn)在不需要與科技巨頭在模型規(guī)模上進(jìn)行正面競(jìng)爭(zhēng)，而是可以專注于開(kāi)發(fā)更智能的推理算法。這種"以智取勝"的策略為更多參與者進(jìn)入AI競(jìng)賽創(chuàng)造了機(jī)會(huì)，有助于促進(jìn)整個(gè)領(lǐng)域的創(chuàng)新多樣性。

從環(huán)保角度來(lái)看，這項(xiàng)研究也具有重要意義。大型AI模型的訓(xùn)練和運(yùn)行需要消耗大量電能，其碳足跡已經(jīng)成為一個(gè)日益嚴(yán)重的環(huán)境問(wèn)題。研究顯示，訓(xùn)練一個(gè)大型語(yǔ)言模型的碳排放量相當(dāng)于幾十輛汽車(chē)一年的排放量。如果小模型能夠通過(guò)更智能的推理策略達(dá)到相同的效果，那么AI技術(shù)的普及就能夠以更環(huán)保的方式實(shí)現(xiàn)。

在實(shí)際應(yīng)用方面，這項(xiàng)研究為許多現(xiàn)實(shí)場(chǎng)景提供了新的解決方案。在移動(dòng)設(shè)備上運(yùn)行AI應(yīng)用時(shí)，計(jì)算資源和電池壽命都是重要限制因素。通過(guò)使用經(jīng)過(guò)優(yōu)化的小模型，智能手機(jī)、平板電腦甚至智能手表都可能獲得更強(qiáng)大的AI功能，而不需要頻繁連接云端服務(wù)器。

教育領(lǐng)域也可能從這項(xiàng)研究中受益。研究表明，不同的AI模型需要不同的推理策略，這與教育中的個(gè)性化學(xué)習(xí)理念不謀而合。未來(lái)的AI教學(xué)助手可能會(huì)根據(jù)學(xué)生的學(xué)習(xí)特點(diǎn)選擇不同的思考方式，就像人類老師會(huì)針對(duì)不同學(xué)生調(diào)整教學(xué)方法一樣。

在科學(xué)研究中，這項(xiàng)發(fā)現(xiàn)也具有重要價(jià)值。許多科學(xué)問(wèn)題需要復(fù)雜的推理和計(jì)算，但研究預(yù)算往往有限。如果小型AI模型能夠通過(guò)更好的推理策略解決復(fù)雜問(wèn)題，那么更多的研究團(tuán)隊(duì)就能夠負(fù)擔(dān)得起先進(jìn)的AI工具，從而加速科學(xué)發(fā)現(xiàn)的進(jìn)程。

不過(guò)，研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前方法的局限性。測(cè)試時(shí)擴(kuò)展策略雖然在數(shù)學(xué)推理任務(wù)上表現(xiàn)出色，但在其他類型的任務(wù)上是否同樣有效還需要進(jìn)一步驗(yàn)證。此外，如何自動(dòng)為不同的模型和任務(wù)選擇最優(yōu)策略，仍然是一個(gè)需要解決的技術(shù)挑戰(zhàn)。

另一個(gè)重要挑戰(zhàn)是評(píng)分系統(tǒng)的改進(jìn)。研究發(fā)現(xiàn)現(xiàn)有的過(guò)程獎(jiǎng)勵(lì)模型存在各種偏見(jiàn)，這些偏見(jiàn)會(huì)影響推理效果。如何訓(xùn)練更公正、更準(zhǔn)確的評(píng)分系統(tǒng)，是實(shí)現(xiàn)這項(xiàng)技術(shù)廣泛應(yīng)用的關(guān)鍵。

從長(zhǎng)遠(yuǎn)來(lái)看，這項(xiàng)研究可能會(huì)引發(fā)AI發(fā)展范式的根本性轉(zhuǎn)變。如果"小模型+智能推理"的組合能夠在更多任務(wù)上證明其有效性，那么AI的發(fā)展重點(diǎn)可能會(huì)從單純追求模型規(guī)模轉(zhuǎn)向優(yōu)化推理算法和策略。這種轉(zhuǎn)變不僅有助于降低AI技術(shù)的門(mén)檻，還可能催生出更多樣化、更具創(chuàng)新性的AI應(yīng)用。

這項(xiàng)研究還為我們理解智能本身提供了新的視角。它表明，智能不僅僅取決于知識(shí)儲(chǔ)量的多少，更取決于思考方式的優(yōu)劣。一個(gè)知識(shí)儲(chǔ)備相對(duì)有限但善于思考的系統(tǒng)，可能比知識(shí)豐富但思考粗糙的系統(tǒng)表現(xiàn)更好。這個(gè)insight不僅適用于AI系統(tǒng)，對(duì)人類學(xué)習(xí)和教育也有啟發(fā)意義。

說(shuō)到底，這項(xiàng)由上海AI實(shí)驗(yàn)室聯(lián)合清華大學(xué)等機(jī)構(gòu)完成的研究，不僅在技術(shù)上取得了突破，更在思維方式上帶來(lái)了啟發(fā)。它告訴我們，在AI的世界里，聰明比強(qiáng)大更重要，方法比規(guī)模更關(guān)鍵。當(dāng)我們看到一個(gè)小小的AI模型通過(guò)巧妙的思考策略戰(zhàn)勝龐大的對(duì)手時(shí)，不禁會(huì)想起那句古話："四兩撥千斤"。也許，真正的智能不在于擁有多少知識(shí)，而在于如何巧妙地運(yùn)用這些知識(shí)。

對(duì)于普通人來(lái)說(shuō)，這項(xiàng)研究最大的意義可能在于它所傳達(dá)的哲學(xué)思考：在這個(gè)追求規(guī)模和速度的時(shí)代，也許我們應(yīng)該更多地關(guān)注質(zhì)量和方法。無(wú)論是在學(xué)習(xí)、工作還是生活中，深度思考和精巧策略往往比蠻力和規(guī)模更能帶來(lái)突破性的結(jié)果。這個(gè)由AI研究得出的結(jié)論，對(duì)我們每個(gè)人的成長(zhǎng)和發(fā)展都有著深刻的啟示意義。

如果您對(duì)這項(xiàng)研究的技術(shù)細(xì)節(jié)或?qū)嶒?yàn)方法感興趣，建議訪問(wèn)原論文了解更多詳情。這項(xiàng)研究不僅展示了AI技術(shù)的新可能性，更為我們思考智能和學(xué)習(xí)提供了全新的視角。

Q&A

Q1：測(cè)試時(shí)計(jì)算擴(kuò)展技術(shù)是什么？它是如何讓小模型戰(zhàn)勝大模型的？

A：測(cè)試時(shí)計(jì)算擴(kuò)展技術(shù)就像給AI模型提供了一套"深度思考工具包"。當(dāng)遇到復(fù)雜問(wèn)題時(shí)，小模型不會(huì)急于給出答案，而是會(huì)生成多個(gè)可能的解答、仔細(xì)檢查每一步邏輯、甚至換個(gè)角度重新思考。通過(guò)多次嘗試和仔細(xì)驗(yàn)證，小模型能夠找到正確的解題路徑，最終超越那些快速作答的大模型。

Q2：為什么不同的AI模型需要不同的推理策略？

A：研究發(fā)現(xiàn)，沒(méi)有一種萬(wàn)能策略適用于所有情況。最優(yōu)策略的選擇取決于三個(gè)關(guān)鍵因素：模型大小、評(píng)分系統(tǒng)和問(wèn)題難度。小型模型更適合基于搜索的策略，而大型模型更適合快速?zèng)Q策；不同的評(píng)分系統(tǒng)有不同的偏好；簡(jiǎn)單問(wèn)題適合快速策略，困難問(wèn)題需要深度搜索。這就像每個(gè)學(xué)生都需要不同的學(xué)習(xí)方法一樣。

Q3：這項(xiàng)研究對(duì)普通人使用AI有什么實(shí)際意義？

A：這項(xiàng)研究表明，通過(guò)更智能的推理策略，小模型可以在手機(jī)、平板等設(shè)備上提供強(qiáng)大的AI功能，而不需要頻繁連接云端。同時(shí)，它降低了AI技術(shù)的成本和能耗，使更多人能夠負(fù)擔(dān)得起先進(jìn)的AI服務(wù)。更重要的是，它啟發(fā)我們?cè)趯W(xué)習(xí)和工作中，深度思考和巧妙策略往往比蠻力更有效。

人工智能測(cè)試時(shí)計(jì)算擴(kuò)展小模型逆襲

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置，為AI推理優(yōu)化開(kāi)辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長(zhǎng)度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn