在人工智能領(lǐng)域中,大型語言模型(LLM)的性能一直是研究熱點。最近,來自中國科學(xué)技術(shù)大學(xué)和科大訊飛研究院的合作團隊,包括劉家偉、陳祺思、張健舒、劉全和連德富等研究者,在提升LLM推理搜索效率方面取得了重要突破。他們于2025年5月在arXiv上發(fā)表的論文《EquivPruner: Boosting Efficiency and Quality in LLM-Based Search via Action Pruning》提出了一種新穎的方法,通過識別和剪除語義等價的行動來大幅提高LLM搜索的效率和質(zhì)量。有興趣深入了解的讀者可以通過GitHub(https://github.com/Lolo1222/EquivPruner)訪問他們的代碼。
一、為什么我們需要更高效的LLM推理搜索?
想象一下,你在玩一個復(fù)雜的迷宮游戲。為了找到正確的出口,你可能會嘗試多條不同的路徑,但如果你反復(fù)探索實際上通向同一個地方的不同路徑,那就是在浪費時間和精力。大型語言模型(LLM)在解決復(fù)雜問題時也面臨類似的挑戰(zhàn)。
目前的LLM在處理復(fù)雜推理任務(wù)時通常依靠搜索算法,比如束搜索或蒙特卡洛樹搜索(MCTS)。這些方法會生成多條可能的推理路徑并探索它們,就像在迷宮中嘗試不同的路徑一樣。然而,這種方法存在一個重大問題:模型經(jīng)常浪費大量計算資源去探索表面上看起來不同,但實際上語義等價的路徑。
以數(shù)學(xué)推理為例,考慮如下場景:模型可能會生成三個不同的候選步驟: 1. "為了求解f(-2),我們將x = -2代入f(x)的表達式:f(-2) = (-2)?+2/(-2)+2 = 4-2+2 = 4" 2. "步驟1:為了求解f(-2),我們將x = -2代入f(x)的表達式:f(-2) = (-2)?+2/(-2)+2 = 4-2+2 = 4" 3. "我們可以通過將x = -2代入方程來求解f(-2):f(-2) = (-2)?+2/(-2)+2 = 4-2+2 = 4"
雖然這三種表述在文字上有所不同,但它們表達的是完全相同的數(shù)學(xué)操作和結(jié)論?,F(xiàn)有的搜索算法會將它們視為三條完全不同的路徑,分別投入資源進行探索,這導(dǎo)致了大量的重復(fù)工作和資源浪費。
研究團隊通過實驗發(fā)現(xiàn),現(xiàn)有的語義相似度檢測方法(如SBERT、MathBERT等)在識別數(shù)學(xué)語句等價性方面表現(xiàn)不佳。即使是領(lǐng)域特定的模型,也往往只能捕捉到表面的相似性,而無法理解深層的功能等價性。這就像是能夠識別兩條路徑看起來相似,但無法判斷它們是否真的通向同一個終點。
二、EquivPruner:一把智能的剪刀
為了解決這個問題,研究團隊提出了EquivPruner方法,它就像一把智能的剪刀,能夠識別出語義等價的推理路徑并進行剪枝,只保留其中一條代表性路徑進行后續(xù)探索。這大大減少了計算資源的浪費,同時還能提高推理的準確性。
### 數(shù)學(xué)等價性的界定
首先,研究團隊明確了數(shù)學(xué)語句等價性的精確定義。兩個數(shù)學(xué)語句被認為是語義等價的,當且僅當它們滿足以下全部標準: - 概念一致性:語句必須表達相同的數(shù)學(xué)概念、定義或命題,沒有任何歧義。 - 結(jié)構(gòu)等價性:它們的邏輯結(jié)構(gòu),包括假設(shè)、推導(dǎo)和結(jié)論,必須完全一致。 - 符號精確性:所有變量、符號和數(shù)學(xué)表達式必須一致使用,在不同語句中保持相同的含義。 - 方法一致性:語句背后的推理方法和思路必須相同。即使最終結(jié)果相同,如果通過不同方法得出,也不被視為完全等價。
這就像判斷兩條迷宮路徑是否真正相同:不僅要看它們是否到達同一個地點(結(jié)果),還要看它們是否經(jīng)過相同的轉(zhuǎn)彎和路口(推導(dǎo)過程)。
### MathEquiv:首個數(shù)學(xué)語句等價性數(shù)據(jù)集
由于缺乏專門用于數(shù)學(xué)語句等價性評估的數(shù)據(jù)集,研究團隊創(chuàng)建了MathEquiv,這是首個專門為數(shù)學(xué)語句等價性設(shè)計的數(shù)據(jù)集。他們采用步驟級別的束搜索算法收集候選行動,并將這些候選項組織成步驟級別的語句對。
為了評估等價性,團隊采用了五級分類系統(tǒng): - 級別4(完全等價):語句在所有方面都可互換,表現(xiàn)出完全相同的含義和形式。 - 級別3(可能等價):可能存在微小的語法差異,但核心數(shù)學(xué)內(nèi)容和邏輯是一致的。 - 級別2(無法判斷):沒有足夠信息做出明確判斷。 - 級別1(可能不等價):雖然可能有部分一致,但在邏輯、定義或數(shù)學(xué)結(jié)構(gòu)上存在關(guān)鍵差異。 - 級別0(完全不等價):語句在數(shù)學(xué)含義、推導(dǎo)或結(jié)果上有根本性差異。
MathEquiv數(shù)據(jù)集通過一個迭代優(yōu)化的過程進行標注:首先使用GPT-4o進行初步標注,然后由人類專家審核。對于存在差異的情況,人類判斷的標簽及其理由會被整合到GPT-4o的提示中作為少樣本示例。這個過程不斷重復(fù),直到模型輸出與人類共識一致。這種方法確保了數(shù)據(jù)集的高質(zhì)量標注和準確的語義等價性評估。
### 輕量級剪枝器:快速識別等價路徑
有了MathEquiv數(shù)據(jù)集后,研究團隊訓(xùn)練了一個輕量級的等價性檢測模型,用于在LLM的搜索過程中進行動態(tài)剪枝。這個輕量級模型是基于Longformer-base微調(diào)的,選擇它是因為其效率適合實時剪枝應(yīng)用。
剪枝過程是這樣工作的:當LLM在推理過程中生成多個候選步驟時,剪枝器會識別這些兄弟節(jié)點中語義等價的候選項集合。對于每組等價步驟,它只保留一個代表性節(jié)點進行后續(xù)探索,有效地剪除冗余分支并大大減少搜索空間。
在訓(xùn)練剪枝器模型時,研究團隊面臨一個挑戰(zhàn):MathEquiv數(shù)據(jù)集中的步驟級別語句對通常包含多個句子,而被標記為宏觀層面不等價的步驟對中可能仍然包含語義等價的子句對。這種特性可能引入歧義并阻礙模型學(xué)習細粒度的區(qū)別。
為了解決這個問題,團隊采用了期望最大化(EM)算法來訓(xùn)練輕量級剪枝器。該算法通過交替進行期望步驟(E-step)和最大化步驟(M-step)來處理數(shù)據(jù)中潛在的等價關(guān)系: - E-步驟:模型預(yù)測多句樣本中每個子句對的等價概率,超過閾值的高置信度等價對會從樣本中移除,以優(yōu)化下一步的數(shù)據(jù)集。 - M-步驟:基于E-步驟中得到的期望,更新模型參數(shù)以最大化觀察數(shù)據(jù)的似然。
這種訓(xùn)練方法使模型能夠更好地關(guān)注學(xué)習微妙或具有挑戰(zhàn)性的區(qū)別,這對于有效剪枝至關(guān)重要。
三、EquivPruner的實驗效果:驚人的效率提升
研究團隊在多個模型和任務(wù)上進行了廣泛的實驗,以驗證EquivPruner的有效性。實驗主要使用了三個LLM模型:Qwen2.5-Math-7B-Instruct、Mistral-7B-SFT和Qwen2.5-Math-1.5B-Instruct,以及兩個廣受認可的數(shù)學(xué)推理基準:GSM8K和MATH。
### 顯著的效率提升
實驗結(jié)果令人印象深刻。以Qwen2.5-Math-7B-Instruct在GSM8K上的表現(xiàn)為例,集成了EquivPruner的蒙特卡洛樹搜索(MCTS)相比原始MCTS減少了48.1%的token消耗(從34,826降至18,071)。更令人驚喜的是,這種顯著的效率提升不僅沒有降低準確率,反而還將準確率從96.44%提高到了96.59%。
在MATH數(shù)據(jù)集上,EquivPruner同樣表現(xiàn)出色,將token消耗減少了30.51%(從106,773降至74,194),同時將準確率從83.40%提高到了84.00%。
其他模型的情況也類似。對于Mistral-7B-SFT,EquivPruner在GSM8K上將token消耗減少了37.99%,同時將準確率從83.78%提高到了85.06%;在MATH上,token減少了22.31%,準確率從36.60%提高到了37.40%。對于Qwen2.5-Math-1.5B-Instruct,在GSM8K上token減少了39.62%,準確率略微下降了0.3%(從91.05%降至90.75%),這是一個考慮到近40%的token減少后可以接受的權(quán)衡;在MATH上,token減少了21.71%,準確率保持不變。
### 在步驟級束搜索中的應(yīng)用
研究團隊還在步驟級束搜索(SBS)上評估了EquivPruner的有效性。與MCTS不同,SBS不構(gòu)建廣泛的搜索樹,而是在擴展過程中動態(tài)選擇top-k個子節(jié)點。在這種情況下,應(yīng)用EquivPruner的目的不是主要減少總生成token數(shù),而是通過消除冗余節(jié)點來提高搜索質(zhì)量。
實驗證明,即使在SBS這種已經(jīng)限制了搜索廣度的算法中,EquivPruner仍然能帶來好處。在MATH數(shù)據(jù)集上,EquivPruner將準確率從82.00%提高到了82.20%,在GSM8K上從96.06%提高到了96.13%。與此同時,token消耗基本保持不變(比例分別為98.18%和99.04%)。這表明EquivPruner通過確保束中的限制槽位被語義不同的推理步驟占據(jù),促進了更多樣化和潛在更有成效的解決方案空間探索。
### 不同組件的貢獻
為了調(diào)查EquivPruner不同組件的個別貢獻,研究團隊進行了消融研究,比較了四種設(shè)置: 1. 無剪枝(原始MCTS):作為基線。 2. 使用原始Longformer剪枝:使用未經(jīng)任務(wù)特定微調(diào)的預(yù)訓(xùn)練Longformer-base進行剪枝。 3. 使用微調(diào)Longformer剪枝(無EM):標準監(jiān)督微調(diào)但不使用EM算法。 4. EquivPruner(使用EM微調(diào)):完整方法。
結(jié)果表明,使用原始Longformer(設(shè)置2)相比無剪枝(設(shè)置1)減少了token(從106,773降至89,998),但代價是準確率下降(從83.4%降至82.4%),說明通用模型不足以勝任這項任務(wù)。不使用EM的標準微調(diào)(設(shè)置3)將準確率提高到83.8%(超過無剪枝),同時將token進一步減少到85,451,凸顯了任務(wù)特定訓(xùn)練的必要性。最關(guān)鍵的是,帶有EM微調(diào)的完整EquivPruner方法(設(shè)置4)既達到了最高的準確率(84.0%),又實現(xiàn)了最顯著的token減少(從106,773降至74,194)。這突顯了微調(diào)過程和具體的EM算法對于最大化EquivPruner在提高準確率和token效率方面的效果都是至關(guān)重要的。
四、EquivPruner的泛化能力:跨模型與跨領(lǐng)域適應(yīng)性
一個特別值得注意的發(fā)現(xiàn)是,EquivPruner展現(xiàn)出了良好的泛化能力。雖然它是在Qwen2.5-Math-7B-Instruct生成的數(shù)據(jù)上訓(xùn)練的,但它在不同模型(如Mistral-7B-SFT和Qwen2.5-Math-1.5B-Instruct)和不同數(shù)據(jù)集(如GSM8K,它是一個分布外數(shù)據(jù)集)上仍然表現(xiàn)出色。這表明EquivPruner學(xué)到的等價性檢測能力是通用的,可以跨不同的模型和任務(wù)進行遷移。
值得一提的是,研究團隊目前主要專注于數(shù)學(xué)推理領(lǐng)域,部分原因是開源過程獎勵模型(PRM)主要針對數(shù)學(xué)推理優(yōu)化。然而,EquivPruner的框架設(shè)計為通用性考慮,可以很容易地擴展到其他領(lǐng)域,如代碼生成和常識性推理。只要有適當?shù)牡葍r性檢測訓(xùn)練數(shù)據(jù)和相應(yīng)的過程獎勵模型,EquivPruner就可以應(yīng)用于各種不同的任務(wù)。
五、總結(jié)與未來展望
總的來說,EquivPruner方法通過識別和剪除語義等價的行動,顯著提高了LLM推理搜索的效率和質(zhì)量。實驗表明,它能夠大幅減少token消耗(在某些情況下接近50%),同時通常能維持或甚至提高推理準確率。該方法的有效性在多個模型和數(shù)據(jù)集上得到了驗證,展現(xiàn)出良好的泛化能力。
研究團隊還創(chuàng)建了MathEquiv,這是首個專門為數(shù)學(xué)語句等價性設(shè)計的數(shù)據(jù)集,為未來的研究提供了寶貴資源。
當然,這項研究也存在一些局限性。首先,由于計算資源限制,EquivPruner沒有在顯著大于7B參數(shù)規(guī)模的語言模型上進行評估。其次,研究主要聚焦于EquivPruner在推理時的應(yīng)用,其與迭代LLM訓(xùn)練或優(yōu)化策略的潛在集成仍有待探索。最后,雖然設(shè)計考慮了通用性,但目前的實證驗證主要集中在數(shù)學(xué)推理領(lǐng)域,將評估擴展到科學(xué)任務(wù)或常識推理等其他領(lǐng)域是未來研究的有希望方向。
將EquivPruner應(yīng)用于實際情境,可以大大提高LLM在各種復(fù)雜任務(wù)中的效率和表現(xiàn)。例如,在教育輔助系統(tǒng)中,它可以幫助LLM更快地生成高質(zhì)量的解答;在自動編程中,它可以避免探索功能上等價的代碼路徑;在科學(xué)研究輔助中,它可以更高效地探索可能的假設(shè)和推理鏈。
隨著LLM在各個領(lǐng)域的應(yīng)用不斷擴展,像EquivPruner這樣能夠顯著提高效率和質(zhì)量的方法將變得越來越重要。我們期待看到未來研究如何進一步改進這一方法,以及它如何被應(yīng)用到更廣泛的任務(wù)和更大規(guī)模的模型中。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團隊承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗證有效性。
清華大學(xué)研究團隊首次提出情感認知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團隊通過創(chuàng)新的多智能體強化學(xué)習方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習過程培養(yǎng)真正智能AI的新路徑。