av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 重新思考驗(yàn)證粒度:打造高效大型語言模型測(cè)試時(shí)擴(kuò)展的新方案

重新思考驗(yàn)證粒度:打造高效大型語言模型測(cè)試時(shí)擴(kuò)展的新方案

2025-05-27 09:39
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-27 09:39 ? 科技行者

在大型語言模型(LLM)快速發(fā)展的今天,如何提高模型的推理能力成為研究的熱點(diǎn)。來自英國帝國理工學(xué)院和日本東京科學(xué)研究所的研究團(tuán)隊(duì)在2025年5月16日發(fā)布的一篇題為《重新思考最佳驗(yàn)證粒度:面向計(jì)算高效的測(cè)試時(shí)擴(kuò)展》的論文中,提出了一種新穎的方法,旨在優(yōu)化大型語言模型的測(cè)試時(shí)擴(kuò)展性能。這項(xiàng)研究由Hao (Mark) Chen、Guanxi Lu、Yasuyuki Okoshi、Zhiwen Mo、Masato Motomura和Hongxiang Fan共同完成,論文已發(fā)表于arXiv(arXiv:2505.11730v1)。

想象一下,如果你請(qǐng)一個(gè)聰明的朋友解決一道復(fù)雜的數(shù)學(xué)題,你可能會(huì)在他完成每一步計(jì)算后檢查一下,或者等他完成整個(gè)題目后再看結(jié)果。哪種方式更好呢?這正是這篇論文探討的核心問題。

研究者們發(fā)現(xiàn),在大型語言模型的測(cè)試時(shí)擴(kuò)展(Test-Time Scaling,簡(jiǎn)稱TTS)過程中,"驗(yàn)證"這一環(huán)節(jié)既影響推理性能,又影響計(jì)算效率。傳統(tǒng)方法要么在每一步都進(jìn)行驗(yàn)證(像Beam Search那樣),要么只在最終結(jié)果出來后才驗(yàn)證(像Best-of-N采樣那樣)。但這種固定的驗(yàn)證策略真的是最優(yōu)的嗎?

研究團(tuán)隊(duì)通過引入"可變粒度搜索"(Variable Granularity Search,簡(jiǎn)稱VG-Search)算法,首次系統(tǒng)地探索了驗(yàn)證粒度(即多久進(jìn)行一次驗(yàn)證)對(duì)模型性能和計(jì)算效率的影響。就像烹飪時(shí)你可以選擇每加一種調(diào)料就嘗一下味道,或者等幾種調(diào)料都加完再嘗,VG-Search允許研究人員靈活調(diào)整驗(yàn)證的頻率。

研究結(jié)果令人驚喜:適當(dāng)調(diào)整驗(yàn)證粒度可以在不增加計(jì)算成本的情況下提高準(zhǔn)確率,甚至在某些情況下,還能在提高準(zhǔn)確率的同時(shí)大幅減少計(jì)算量。具體來說,他們提出的自適應(yīng)VG-Search策略比傳統(tǒng)的Beam Search高出3.1%的準(zhǔn)確率,比Best-of-N高出3.6%,同時(shí)減少了超過52%的計(jì)算量。

這項(xiàng)研究為如何更高效地利用大型語言模型提供了新思路,特別是在計(jì)算資源有限的情況下,如何通過優(yōu)化驗(yàn)證策略來最大化模型性能。接下來,讓我們深入了解這項(xiàng)研究的詳細(xì)內(nèi)容,看看研究團(tuán)隊(duì)是如何挑戰(zhàn)傳統(tǒng)驗(yàn)證范式,并提出全新解決方案的。

一、測(cè)試時(shí)擴(kuò)展與驗(yàn)證的重要性

在過去幾年中,大型語言模型(LLM)通過擴(kuò)大模型規(guī)模和訓(xùn)練數(shù)據(jù)量取得了顯著進(jìn)步。然而,進(jìn)一步的訓(xùn)練時(shí)擴(kuò)展面臨著巨大的計(jì)算成本和高質(zhì)量人類生成數(shù)據(jù)有限的挑戰(zhàn)。在這種情況下,測(cè)試時(shí)擴(kuò)展(TTS)提供了一種有前景的替代方案,它通過在推理階段增加計(jì)算來提升性能。

測(cè)試時(shí)擴(kuò)展技術(shù)主要分為兩類:內(nèi)部擴(kuò)展和基于采樣的擴(kuò)展。內(nèi)部擴(kuò)展專注于優(yōu)化單一生成軌跡,如讓模型思考更多步驟;而基于采樣的擴(kuò)展則通過探索多個(gè)候選生成結(jié)果來提高性能,就像是讓多個(gè)模型一起解決同一個(gè)問題然后選擇最好的答案。這兩種方法是互補(bǔ)的,可以結(jié)合使用以獲得更高的性能。

在這些測(cè)試時(shí)擴(kuò)展策略中,"驗(yàn)證"扮演著關(guān)鍵角色。驗(yàn)證通常通過學(xué)習(xí)型獎(jiǎng)勵(lì)模型或評(píng)分函數(shù)實(shí)現(xiàn),用于評(píng)估生成內(nèi)容的質(zhì)量。當(dāng)前最先進(jìn)的基于采樣的方法,如多樣化驗(yàn)證器樹搜索(DVTS)和驗(yàn)證器引導(dǎo)的Beam Search,都利用一個(gè)獨(dú)立的驗(yàn)證器LLM來指導(dǎo)生成器LLM的生成過程,從而提高采樣效率和準(zhǔn)確性。

在這些方法中,生成步驟通常被定義為由特殊標(biāo)記(如換行符)分隔的文本塊,這成為驗(yàn)證的原子單位。然而,這種驗(yàn)證粒度的選擇是啟發(fā)式的,并且保持靜態(tài),沒有保證是最優(yōu)的。研究團(tuán)隊(duì)的分析表明,驗(yàn)證器評(píng)分在多個(gè)生成步驟之間通常保持穩(wěn)定(例如,超過50%的2步評(píng)分差異小于1%的評(píng)分范圍),表明當(dāng)前驗(yàn)證粒度存在冗余。這種低效導(dǎo)致驗(yàn)證在整體推理延遲中占據(jù)越來越大的比例。

這些觀察激發(fā)研究團(tuán)隊(duì)探索兩個(gè)核心問題:傳統(tǒng)驗(yàn)證粒度是否對(duì)準(zhǔn)確率-計(jì)算擴(kuò)展是最優(yōu)的?如果不是,如何優(yōu)化它以實(shí)現(xiàn)更好的準(zhǔn)確率-計(jì)算權(quán)衡?

二、可變粒度搜索:統(tǒng)一驗(yàn)證框架

為了系統(tǒng)地研究驗(yàn)證粒度的影響,研究團(tuán)隊(duì)提出了"可變粒度搜索"(VG-Search)算法,這是一個(gè)統(tǒng)一的框架,通過可調(diào)節(jié)的粒度參數(shù)g將驗(yàn)證器引導(dǎo)的Beam Search和Best-of-N方法統(tǒng)一起來。

想象一下,如果你在解決一個(gè)復(fù)雜問題時(shí)有多種解決方案,你需要定期檢查哪條路徑最有希望。VG-Search就像是讓你靈活決定多久檢查一次進(jìn)展。你可以頻繁檢查(g=1,類似Beam Search),或者等到完全解決后再比較結(jié)果(g等于解決方案的總步驟數(shù),類似Best-of-N)。

VG-Search的關(guān)鍵參數(shù)包括: 1. 光束寬度(B1):驗(yàn)證和選擇后保留的候選序列數(shù)量 2. 分支因子(B2):在下一個(gè)驗(yàn)證階段之前,從每個(gè)保留的序列生成的替代延續(xù)數(shù)量 3. 驗(yàn)證粒度(g):每次驗(yàn)證評(píng)估的生成步驟數(shù)量,即驗(yàn)證器調(diào)用之間的間隔

VG-Search的工作流程如下: 1. 從初始提示開始,初始化B1×B2個(gè)候選 2. 使用驗(yàn)證器評(píng)估這B1×B2個(gè)候選,并保留得分最高的B1個(gè) 3. 對(duì)每個(gè)選定的候選,生成g-1個(gè)生成步驟 4. 對(duì)每個(gè)延長(zhǎng)的候選,生成B2個(gè)單步延續(xù) 5. 重復(fù)步驟2-4,直到滿足終止條件

這種設(shè)計(jì)的一個(gè)重要特點(diǎn)是早期剪枝:驗(yàn)證在"延伸"步驟之前進(jìn)行,因此只有B1個(gè)候選繼續(xù)進(jìn)入延伸階段,而不是全部B1×B2個(gè)候選。這顯著降低了生成器的計(jì)算負(fù)荷。更大的g值進(jìn)一步減少了驗(yàn)證器和生成器的計(jì)算量。

為了分析不同參數(shù)設(shè)置的計(jì)算成本,研究團(tuán)隊(duì)還定義了一個(gè)計(jì)算成本模型,考慮了生成器和驗(yàn)證器的參數(shù)數(shù)量、每步生成和每次驗(yàn)證調(diào)用的計(jì)算量等因素。這個(gè)模型提供了理解VG-Search計(jì)算效率的理論基礎(chǔ),并與實(shí)測(cè)的推理延遲有良好的對(duì)應(yīng)關(guān)系。

三、實(shí)驗(yàn)設(shè)置與結(jié)果分析

研究團(tuán)隊(duì)在數(shù)學(xué)推理基準(zhǔn)測(cè)試上進(jìn)行了廣泛實(shí)驗(yàn),包括MATH-500、AIME和MATH-250數(shù)據(jù)集。他們使用了不同類型的生成器模型,包括通用模型(如Llama-3.2-3B-Instruct)和具有內(nèi)部擴(kuò)展能力的模型(如Qwen2.5-Math-7B和Qwen2.5-Math-1.5B)。對(duì)于驗(yàn)證器,他們采用了辨別式過程獎(jiǎng)勵(lì)模型(PRM),包括Skywork-o1-1.5B和Skywork-o1-7B。

實(shí)驗(yàn)結(jié)果揭示了一些關(guān)鍵發(fā)現(xiàn),挑戰(zhàn)了傳統(tǒng)驗(yàn)證粒度的最優(yōu)性:

第一,強(qiáng)大的生成器傾向于稀疏驗(yàn)證,而弱的生成器需要頻繁檢查。使用強(qiáng)大的Qwen2.5-Math-7B生成器時(shí),在中等到高計(jì)算預(yù)算下,較稀疏的驗(yàn)證(g∈{2, 3, 4})比標(biāo)準(zhǔn)Beam Search(g=1)實(shí)現(xiàn)了更高的準(zhǔn)確率。特別是,g=3在MATH-500上達(dá)到了最高峰值準(zhǔn)確率,比g=1高約4%。這表明強(qiáng)大的生成器可以可靠地產(chǎn)生更長(zhǎng)的正確部分解決方案,使頻繁驗(yàn)證變得不那么關(guān)鍵,并允許將計(jì)算重新分配給更寬的光束(通過B1),以獲得更好的整體性能。

第二,最優(yōu)粒度隨計(jì)算預(yù)算變化。在大多數(shù)模型和數(shù)據(jù)集上,隨著總計(jì)算預(yù)算的增加,較稀疏的驗(yàn)證(g>1)往往變得更具競(jìng)爭(zhēng)力。在非常低的計(jì)算預(yù)算下,標(biāo)準(zhǔn)Beam Search(g=1)的積極剪枝通常提供更穩(wěn)健的性能基線。這與直覺相符:當(dāng)有更多的整體計(jì)算可用時(shí),在驗(yàn)證之間投資更長(zhǎng)的生成階段更加可行。

第三,最優(yōu)粒度可以顯著節(jié)省計(jì)算。使用較稀疏的驗(yàn)證(g>1)的一個(gè)關(guān)鍵優(yōu)勢(shì)是在保持甚至提高性能的同時(shí),可以大幅節(jié)省計(jì)算量。例如,在"強(qiáng)生成器,小驗(yàn)證器"設(shè)置下的MATH-500上,設(shè)置g=3可以以約2^13 FLOPS達(dá)到約88%的準(zhǔn)確率,而g=1需要約2^15 FLOPS才能達(dá)到略低的87.5%準(zhǔn)確率。這種效率提升來自于更少的驗(yàn)證器調(diào)用和總體減少的分支操作。

此外,研究還揭示了驗(yàn)證粒度與驗(yàn)證器參數(shù)和分支因子之間的權(quán)衡關(guān)系。在固定計(jì)算預(yù)算下,較強(qiáng)的驗(yàn)證器與較稀疏的驗(yàn)證(更大的g,更大的驗(yàn)證器模型)在高計(jì)算預(yù)算下表現(xiàn)更好,而簡(jiǎn)單地增加分支因子B2的收益有限。這表明,將節(jié)省的計(jì)算投資于驗(yàn)證器參數(shù)是比簡(jiǎn)單增加分支數(shù)量更有效的擴(kuò)展策略。

這些發(fā)現(xiàn)表明,當(dāng)前基于固定分隔符邊界(如換行符)的傳統(tǒng)驗(yàn)證粒度是次優(yōu)的。更大的g可以被解釋為定義更實(shí)質(zhì)性和語義上更連貫的"思考步驟",延遲驗(yàn)證和分支直到這些擴(kuò)展段結(jié)束可能避免通過評(píng)估不完整的推理片段注入噪聲,從而實(shí)現(xiàn)更有效的搜索。

四、自適應(yīng)驗(yàn)證粒度策略

基于上述發(fā)現(xiàn),研究團(tuán)隊(duì)提出了自適應(yīng)調(diào)整驗(yàn)證粒度的策略,以解決如何優(yōu)化驗(yàn)證粒度以實(shí)現(xiàn)更好的準(zhǔn)確率-計(jì)算邊界的問題。他們提出了兩種互補(bǔ)的策略:

1. 計(jì)算最小化與性能平衡策略(CM-g):該策略尋找可以在保持準(zhǔn)確率在可接受范圍內(nèi)的同時(shí)最大化g的值,從而減少計(jì)算量。具體而言,給定生成器、難度d和生成數(shù)量n,首先計(jì)算基線準(zhǔn)確率Acc(g=1, d, n),然后增加g,只要Acc(g, d, n) ≥ Acc(g=1, d, n) - ε(ε是容忍度),就選擇滿足準(zhǔn)確率約束的最大g值。

2. 準(zhǔn)確率最大化與預(yù)算約束策略(AM-g):該策略在固定計(jì)算預(yù)算下選擇能最大化準(zhǔn)確率的g值。形式上,g* = argmaxg∈{1,...,gmax} Acc(g, d, n)。

研究團(tuán)隊(duì)在MATH-500測(cè)試集上將這些自適應(yīng)策略與Beam Search、DVTS和Best-of-N基線進(jìn)行了比較。結(jié)果顯示,AM-g和CM-g都提高了性能和效率。AM-g始終實(shí)現(xiàn)更高的準(zhǔn)確率,比Beam Search高出3.1%,比Best-of-N高出3.6%;而CM-g提供了顯著的計(jì)算節(jié)省,在保持或提高準(zhǔn)確率的同時(shí)減少了超過50%的計(jì)算量。例如,在n=128時(shí),CM-g(驗(yàn)證)達(dá)到了89.9%的準(zhǔn)確率,僅使用11086 FLOPS——只有基線預(yù)算的46%。

雖然在測(cè)試集上調(diào)整的策略表現(xiàn)略好,但在驗(yàn)證集上調(diào)整的版本(CM-g(驗(yàn)證)和AM-g(驗(yàn)證))仍然優(yōu)于固定g方法,表明了強(qiáng)大的泛化能力和實(shí)用性。根據(jù)成本模型,生成器計(jì)算CG占主導(dǎo)地位,因此大多數(shù)計(jì)算節(jié)省來自在延伸步驟中剪枝候選路徑。

總的來說,根據(jù)任務(wù)難度和計(jì)算預(yù)算調(diào)整驗(yàn)證粒度g提供了一種簡(jiǎn)單而有效的方法,能夠更高效、更高性能地使用大型語言模型進(jìn)行推理。

五、研究的更廣泛意義

這項(xiàng)研究挑戰(zhàn)了我們對(duì)驗(yàn)證在大型語言模型推理中的理解,提出了一個(gè)新的視角:驗(yàn)證不應(yīng)該是靜態(tài)固定的,而應(yīng)該根據(jù)模型能力、任務(wù)特性和計(jì)算資源進(jìn)行動(dòng)態(tài)調(diào)整。

就像一個(gè)好老師知道何時(shí)應(yīng)該檢查學(xué)生的工作,何時(shí)應(yīng)該讓學(xué)生獨(dú)立思考一樣,最優(yōu)的驗(yàn)證策略需要在頻繁驗(yàn)證和較少干預(yù)之間找到平衡。對(duì)于高能力的模型,可以給予更多"自主權(quán)",減少驗(yàn)證頻率;而對(duì)于能力較弱的模型,則需要更頻繁的"指導(dǎo)"。

這項(xiàng)研究的意義不僅限于學(xué)術(shù)界。在實(shí)際應(yīng)用中,計(jì)算資源通常是有限的,特別是在邊緣設(shè)備或需要低延遲響應(yīng)的場(chǎng)景中。自適應(yīng)驗(yàn)證粒度策略為如何在有限資源下最大化模型性能提供了一種實(shí)用方法。例如,在移動(dòng)設(shè)備上運(yùn)行大型語言模型時(shí),可以根據(jù)設(shè)備算力和任務(wù)復(fù)雜度動(dòng)態(tài)調(diào)整驗(yàn)證頻率,在保證質(zhì)量的同時(shí)減少電池消耗和響應(yīng)延遲。

此外,這項(xiàng)研究還為未來的測(cè)試時(shí)擴(kuò)展技術(shù)指明了方向。它表明,我們應(yīng)該超越固定的驗(yàn)證范式,探索更靈活、更自適應(yīng)的方法。例如,未來的研究可能會(huì)探索在單個(gè)問題解決過程中動(dòng)態(tài)調(diào)整驗(yàn)證粒度,根據(jù)解決方案的不同階段或模型的不確定性級(jí)別調(diào)整驗(yàn)證頻率。

最后,這項(xiàng)研究強(qiáng)調(diào)了"思考步驟"定義的重要性。傳統(tǒng)方法中簡(jiǎn)單地使用換行符等分隔符作為思考步驟的邊界可能無法捕捉真正的推理結(jié)構(gòu)。通過重新思考什么構(gòu)成一個(gè)有意義的思考單元,我們可以設(shè)計(jì)出更符合人類推理過程的模型交互方式,進(jìn)一步提高大型語言模型的推理能力。

總的來說,這項(xiàng)研究不僅提供了一種立即可用的方法來提高大型語言模型的效率和性能,還為我們重新思考驗(yàn)證和推理在人工智能系統(tǒng)中的角色開辟了新的視角。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-