這項由中國香港中文大學(xué)(深圳)的駱桐旭、王本友等研究者聯(lián)合DualityRL公司、北京科技大學(xué)和華為公司共同完成的突破性研究,于2025年5月發(fā)表在arXiv預(yù)印本平臺上。感興趣的讀者可以通過論文編號arXiv:2505.07787v1訪問完整研究內(nèi)容,項目代碼和模型已在https://learning-from-peers.github.io/開源發(fā)布。
在人工智能發(fā)展的浪潮中,大型推理模型就像是超級聰明的"獨(dú)行俠",它們擅長獨(dú)自思考復(fù)雜問題,甚至能在犯錯時自我糾正。然而,研究團(tuán)隊發(fā)現(xiàn)了一個令人意外的現(xiàn)象:這些看似無所不能的AI"大腦",竟然會被一個糟糕的開頭徹底"帶跑偏",就像一個人走錯了第一步路,后面再怎么努力也很難回到正確軌道上。
研究團(tuán)隊將這種現(xiàn)象稱為"前綴主導(dǎo)陷阱",這就好比一個學(xué)霸在考試時,如果前幾道題的思路出現(xiàn)偏差,即使后面意識到問題,也很難重新調(diào)整狀態(tài)獲得高分。更令人驚訝的是,僅僅占整個回答15%長度的錯誤開頭,就能讓模型的表現(xiàn)下降近20%。這個發(fā)現(xiàn)徹底顛覆了人們對AI自我糾錯能力的認(rèn)知。
面對這個挑戰(zhàn),研究團(tuán)隊受到心理學(xué)研究的啟發(fā)。在現(xiàn)實生活中,當(dāng)學(xué)生遇到難題時,同伴之間的討論和互相啟發(fā)往往能產(chǎn)生意想不到的效果。一個人卡在某個思路死胡同里時,同桌的一句話可能就能點(diǎn)醒他?;谶@個觀察,研究團(tuán)隊提出了一個革命性的想法:為什么不讓AI模型也學(xué)會"團(tuán)隊合作"呢?
這就是"Learning from Peers"(LeaP)方法的誕生。這種方法讓多個AI推理路徑在思考過程中能夠互相交流,分享各自的見解和發(fā)現(xiàn),就像一群學(xué)生在小組討論中碰撞出智慧的火花。
一、前綴主導(dǎo)陷阱:AI推理的致命弱點(diǎn)
要理解這項研究的重要性,我們需要先認(rèn)識什么是"前綴主導(dǎo)陷阱"。研究團(tuán)隊設(shè)計了一個巧妙的實驗來驗證這個現(xiàn)象。他們讓AI模型從預(yù)設(shè)的開頭開始回答數(shù)學(xué)題,這些開頭有些來自正確的解題思路,有些則來自錯誤的推理過程。
實驗結(jié)果令人震驚。當(dāng)模型從錯誤的開頭開始思考時,即使這個開頭只占整個回答的15%,模型的準(zhǔn)確率也會大幅下降近20%。這就像一個高水平的圍棋選手,如果開局走錯了幾步,即使中途意識到問題,也很難扭轉(zhuǎn)整個棋局。
研究團(tuán)隊在多個頂級AI模型上重復(fù)了這個實驗,包括DeepSeek-R1-Distill-Qwen系列和QwQ-32B,結(jié)果都證實了這個現(xiàn)象的普遍性。這意味著,我們之前高估了AI模型的自我糾錯能力。它們就像是有著固定思維模式的專家,一旦踏上某條思路,就很難主動跳出來重新審視問題。
這個發(fā)現(xiàn)對AI應(yīng)用有著深遠(yuǎn)的影響。在實際使用中,用戶的問題表述方式、背景信息的準(zhǔn)確性,甚至是對話的開頭部分,都可能顯著影響AI的回答質(zhì)量。這就像是與專家對話時,如果一開始就給出了誤導(dǎo)性的信息,專家可能會沿著錯誤的方向越走越遠(yuǎn)。
二、同伴學(xué)習(xí)的啟發(fā):從心理學(xué)到AI
研究團(tuán)隊的靈感來源于教育心理學(xué)的一個重要發(fā)現(xiàn):同伴教學(xué)能夠有效幫助學(xué)生糾正錯誤認(rèn)知,提高學(xué)習(xí)效果,而且這種方法對已經(jīng)掌握正確知識的學(xué)生幾乎沒有負(fù)面影響。
在課堂上經(jīng)常能看到這樣的場景:一個學(xué)生在解題時遇到困難,旁邊的同學(xué)提供了不同的思路或者指出了錯誤,從而幫助他找到正確答案。這種同伴間的知識分享不僅能幫助有困難的學(xué)生,還能加深提供幫助的學(xué)生對知識的理解。
更有趣的是,即使提供幫助的學(xué)生給出的建議不完全正確,這種交流過程本身也能促進(jìn)雙方的思考,最終達(dá)到更好的學(xué)習(xí)效果。這就像是頭腦風(fēng)暴會議中,即使不是每個想法都是好主意,但想法之間的碰撞往往能產(chǎn)生創(chuàng)新的解決方案。
基于這個觀察,研究團(tuán)隊提出了一個大膽的假設(shè):如果能讓AI模型在推理過程中進(jìn)行類似的"同伴交流",是否也能提高它們的推理質(zhì)量和糾錯能力?
傳統(tǒng)的AI推理就像是讓多個學(xué)生獨(dú)立考試,然后選擇最好的答案。而LeaP方法則更像是讓這些學(xué)生能夠在考試過程中進(jìn)行有限的交流和討論,互相啟發(fā),共同提高答案的質(zhì)量。
三、LeaP方法:讓AI學(xué)會團(tuán)隊協(xié)作
LeaP方法的核心思想是在AI推理的過程中插入"交流時刻",讓不同的推理路徑能夠分享彼此的見解。這個過程可以比作一場特殊的團(tuán)隊討論會,每隔一段時間,團(tuán)隊成員就會停下來總結(jié)自己的進(jìn)展,然后聽取其他成員的想法。
具體來說,LeaP方法包含兩個關(guān)鍵環(huán)節(jié):總結(jié)階段和路由階段。
在總結(jié)階段,每個推理路徑都會像寫讀書筆記一樣,將自己當(dāng)前的思路、關(guān)鍵發(fā)現(xiàn)和中間結(jié)果濃縮成一個簡短的摘要。這個摘要被限制在256個字符以內(nèi),確保信息傳遞的效率。為了增加表達(dá)的多樣性,系統(tǒng)會隨機(jī)選擇不同的總結(jié)模板和觸發(fā)詞,就像是要求學(xué)生用不同的方式來表達(dá)同一個想法。
路由階段則決定了這些摘要如何在不同路徑之間分發(fā)。研究團(tuán)隊設(shè)計了三種不同的路由策略。分散路由優(yōu)先選擇與當(dāng)前路徑思路差異最大的摘要,這就像是主動尋找不同觀點(diǎn)來拓寬思路。聚集路由則選擇最相似的摘要,好比尋找志同道合的伙伴來加強(qiáng)共識?;旌下酚蓜t兼顧兩者,既要聽取不同聲音,也要獲得相似觀點(diǎn)的支持。
為了衡量摘要之間的相似性,研究團(tuán)隊使用了一種叫做標(biāo)準(zhǔn)化編輯距離的方法。這種方法能夠計算兩段文字之間的差異程度,就像是比較兩篇作文有多少相同和不同的地方。
實驗結(jié)果顯示,分散路由和混合路由的效果最好,這說明多樣化的觀點(diǎn)交流確實能夠提高推理質(zhì)量。這就像是在團(tuán)隊討論中,不同背景和思路的成員往往能提供更有價值的貢獻(xiàn)。
四、驗證前綴主導(dǎo)陷阱的破解效果
為了驗證LeaP方法是否真的能夠解決前綴主導(dǎo)陷阱問題,研究團(tuán)隊在相同的實驗設(shè)置下測試了使用LeaP的模型表現(xiàn)。
結(jié)果令人振奮。在使用LeaP方法后,原本因錯誤開頭導(dǎo)致的20%性能下降被大幅縮小。以DeepSeek-Distill-Qwen-14B模型為例,性能差距從19.88%縮小到7.81%,幾乎減少了一半。
這個改善可以用一個生動的比喻來理解:原本一個人走錯路后很難自己發(fā)現(xiàn)并糾正,但如果有同伴在旁邊提醒"這條路好像不對",他就更容易重新審視自己的選擇并找到正確方向。
更有意思的是,研究團(tuán)隊還測試了從正確開頭開始的情況。結(jié)果顯示,LeaP方法不僅能幫助糾正錯誤,還能讓原本就正確的推理變得更加穩(wěn)定和準(zhǔn)確。這說明同伴交流不會干擾已經(jīng)正確的思路,反而能夠增強(qiáng)信心和準(zhǔn)確性。
這種雙向的改善效果證明了LeaP方法的強(qiáng)大自適應(yīng)能力。它就像是一個智能的討論主持人,既能在有人走錯方向時提供糾正,又能在大家都在正確軌道上時提供確認(rèn)和支持。
五、全面性能評估:四大基準(zhǔn)測試的突破
為了全面評估LeaP方法的效果,研究團(tuán)隊在四個具有挑戰(zhàn)性的基準(zhǔn)測試上進(jìn)行了詳細(xì)實驗:AIME 2024、AIME 2025、AIMO 2025和GPQA Diamond。這些測試就像是AI推理能力的"高考",涵蓋了數(shù)學(xué)競賽級別的問題和博士水平的科學(xué)知識。
在數(shù)學(xué)推理方面,LeaP方法展現(xiàn)出了顯著的優(yōu)勢。以QwQ-32B模型為例,使用LeaP后在各個數(shù)學(xué)基準(zhǔn)上的平均提升達(dá)到了近5個百分點(diǎn)。更令人驚喜的是,這個32B參數(shù)的模型在使用LeaP后,竟然在三個數(shù)學(xué)基準(zhǔn)上超越了擁有671B參數(shù)的DeepSeek-R1-671B模型,平均領(lǐng)先3.3個百分點(diǎn)。
這就像是一個高中生通過與同學(xué)的有效討論,在數(shù)學(xué)競賽中擊敗了大學(xué)研究生。模型規(guī)模并不是決定性因素,重要的是如何有效利用集體智慧。
在科學(xué)知識問答方面,LeaP方法的效果同樣令人印象深刻。GPQA Diamond測試要求博士級別的物理、化學(xué)和生物學(xué)知識,這對AI模型來說是極大的挑戰(zhàn)。使用LeaP的模型在這個測試上也獲得了穩(wěn)定的性能提升,證明了同伴學(xué)習(xí)不僅適用于數(shù)學(xué)推理,也能夠提升科學(xué)知識的應(yīng)用能力。
研究團(tuán)隊還發(fā)現(xiàn)了一個有趣的現(xiàn)象:使用LeaP方法的模型在生成回答時使用的總token數(shù)量并沒有顯著增加,有時甚至更少。這說明模型通過同伴交流更快地找到了正確方向,減少了無效的"繞圈"思考。
更進(jìn)一步的分析顯示,使用LeaP的模型出現(xiàn)"啊哈時刻"(突然意識到錯誤并重新開始思考的情況)的頻率降低了16.4%。這意味著模型通過同伴的及時提醒,避免了許多本來需要自己發(fā)現(xiàn)和糾正的錯誤,思考過程變得更加高效和直接。
六、LeaP-T系列:專門訓(xùn)練的協(xié)作專家
在實驗過程中,研究團(tuán)隊發(fā)現(xiàn)較小的模型有時難以有效地總結(jié)自己的推理過程和理解同伴的建議。這就像是年齡較小的學(xué)生在小組討論中可能表達(dá)不清楚或理解有困難。
為了解決這個問題,研究團(tuán)隊開發(fā)了LeaP-T系列模型,這些模型經(jīng)過專門的訓(xùn)練來適應(yīng)同伴學(xué)習(xí)的模式。他們使用約1000個AIME數(shù)學(xué)問題作為訓(xùn)練數(shù)據(jù),讓模型學(xué)會如何進(jìn)行有效的總結(jié)和反思。
訓(xùn)練過程就像是給學(xué)生開設(shè)"如何進(jìn)行小組討論"的課程,教會他們?nèi)绾吻逦乇磉_(dá)自己的想法,如何理解和吸收他人的建議,以及如何在討論中保持開放的心態(tài)。
LeaP-T系列包括1.5B、7B和14B三個不同規(guī)模的模型。實驗結(jié)果顯示,這些經(jīng)過專門訓(xùn)練的模型在同伴學(xué)習(xí)方面表現(xiàn)更加出色。特別是LeaP-T-7B模型,在AIME 2024測試中達(dá)到了64.38的Pass@1分?jǐn)?shù),與參數(shù)規(guī)模翻倍的DeepSeek-R1-Distill-Qwen-14B模型(64.47分)幾乎持平。
這個結(jié)果特別有意義,因為它證明了通過適當(dāng)?shù)挠?xùn)練方法,較小的模型也能夠在特定任務(wù)上達(dá)到更大模型的性能水平。這就像是一個經(jīng)過良好團(tuán)隊協(xié)作訓(xùn)練的小團(tuán)隊,可能比一個缺乏協(xié)調(diào)的大團(tuán)隊更加高效。
七、深度分析:LeaP方法的內(nèi)在機(jī)制
為了深入理解LeaP方法為什么有效,研究團(tuán)隊進(jìn)行了多個維度的詳細(xì)分析。
首先是溝通頻率的影響。研究發(fā)現(xiàn),過于頻繁的交流會增加token消耗,但效果提升有限;而交流太少則無法充分發(fā)揮同伴學(xué)習(xí)的優(yōu)勢。最佳的交流間隔是每4K個token進(jìn)行一次,這就像是在馬拉松比賽中,參賽者需要在合適的時間點(diǎn)進(jìn)行補(bǔ)給和信息交換,既不能太頻繁影響節(jié)奏,也不能太稀少錯過關(guān)鍵機(jī)會。
其次是交流內(nèi)容的數(shù)量。實驗顯示,接收來自4個同伴的建議時效果最佳。太少的建議缺乏多樣性,太多的建議則可能造成信息過載,反而影響判斷。這個發(fā)現(xiàn)與人類認(rèn)知研究的結(jié)果一致:人們在做決策時,考慮適量的選項比考慮過多選項更容易做出好的決定。
研究團(tuán)隊還分析了不同階段交流的效果。他們發(fā)現(xiàn),在推理的早期和中期進(jìn)行交流效果最好,而在后期進(jìn)行交流的效果相對有限。這就像是在解決問題的過程中,早期的方向指導(dǎo)和中期的思路調(diào)整最為關(guān)鍵,而在接近答案時改變策略的風(fēng)險較大。
特別有趣的是,研究團(tuán)隊將交流類型分為三種:一致型(大家想法相同)、無影響型(聽了建議但沒改變想法)和影響型(因為建議而改變了想法)。分析顯示,在推理的早期,影響型交流的比例較高,而隨著推理的深入,無影響型交流逐漸增多。這說明AI模型在推理過程中會逐漸形成較為固定的思路,早期的同伴建議更容易產(chǎn)生積極影響。
八、錯誤容忍性和難度適應(yīng)性測試
LeaP方法的一個令人擔(dān)心的問題是:如果大部分同伴都給出錯誤建議怎么辦?為了測試這種情況,研究團(tuán)隊設(shè)計了一個"錯誤污染"實驗。
他們讓模型從不同比例的錯誤開頭開始推理,然后觀察LeaP方法的表現(xiàn)。結(jié)果令人意外:即使在完全沒有正確開頭的情況下,使用LeaP的模型仍然能夠顯著超越基線模型。當(dāng)好的開頭比例達(dá)到43%時,LeaP的效果就能超過基線模型在全部開頭都正確時的表現(xiàn)。
這個結(jié)果說明,LeaP方法具有強(qiáng)大的"去偽存真"能力。就像是在一個充滿噪音的環(huán)境中,訓(xùn)練有素的偵探仍然能夠從各種線索中篩選出有價值的信息。AI模型通過同伴交流,能夠在多個不完美的建議中識別和綜合有用的信息。
在難度適應(yīng)性方面,研究團(tuán)隊將測試問題按照基線模型的正確率分為五個難度等級:非常簡單(32個正確答案)、簡單(25-31個正確)、中等(9-24個正確)、困難(1-8個正確)和非常困難(0個正確答案)。
令人驚喜的是,LeaP方法在所有難度等級上都顯示出改善效果,甚至在基線模型完全無法解決的"非常困難"問題上也能取得突破。這就像是一個學(xué)習(xí)小組不僅能幫助成員解決平時的作業(yè),還能在面對前所未見的難題時激發(fā)集體智慧,找到突破口。
九、人工驗證:真實案例的深度解析
為了更直觀地理解LeaP方法的效果,研究團(tuán)隊進(jìn)行了詳細(xì)的人工案例分析。他們選擇了AIME 2024的第11道題,比較了QwQ-32B在使用和不使用LeaP時的表現(xiàn)。
在32次獨(dú)立推理中,基線模型只有8次(25%)得到正確答案,而使用LeaP的模型有20次(62.5%)正確。更重要的是,研究團(tuán)隊發(fā)現(xiàn)有13個案例(40.62%)屬于"錯誤變正確"類型,即推理路徑在同伴建議后從錯誤轉(zhuǎn)向正確。
最關(guān)鍵的是,沒有一個案例屬于"正確變錯誤"類型,這說明同伴交流不會干擾已經(jīng)正確的推理過程。這就像是一個好的討論環(huán)境,既能幫助迷失方向的人找到正確道路,又不會誤導(dǎo)已經(jīng)走在正確道路上的人。
通過具體案例的分析,研究團(tuán)隊展示了LeaP方法的工作機(jī)制:當(dāng)一個推理路徑陷入錯誤時,來自同伴的正確思路提示能夠及時糾正方向;當(dāng)推理路徑本身正確時,同伴的確認(rèn)和補(bǔ)充能夠增強(qiáng)信心和完善細(xì)節(jié)。
十、效率分析:更少資源實現(xiàn)更好效果
在計算效率方面,LeaP方法展現(xiàn)出了令人驚喜的特性。盡管需要在多個推理路徑之間進(jìn)行信息交換,但總的token消耗并沒有顯著增加,有時甚至更少。
這種效率提升來自幾個方面。首先,通過同伴的及時提醒,模型能夠更快地發(fā)現(xiàn)和糾正錯誤,避免了在錯誤道路上的長期徘徊。其次,當(dāng)模型獲得同伴的確認(rèn)后,會更有信心地朝著正確方向前進(jìn),減少了反復(fù)猶豫和重復(fù)思考。最后,不同路徑之間的信息共享減少了重復(fù)性的探索工作。
這就像是一個高效的團(tuán)隊項目:雖然成員之間需要花時間進(jìn)行溝通協(xié)調(diào),但通過有效的信息共享和任務(wù)分工,整體的工作效率反而得到了提升。
研究還顯示,使用LeaP的模型在測試時間擴(kuò)展(test-time scaling)方面表現(xiàn)更好。隨著推理時間和計算資源的增加,LeaP方法能夠更有效地利用這些額外資源,獲得更大的性能提升。
十一、與現(xiàn)有方法的比較
為了充分展示LeaP方法的優(yōu)勢,研究團(tuán)隊將其與現(xiàn)有的多種方法進(jìn)行了比較。
與傳統(tǒng)的多數(shù)投票方法相比,LeaP不僅僅是在最后階段選擇最佳答案,而是在整個推理過程中進(jìn)行實時交流和協(xié)作。這就像是將"考試后對答案"升級為"考試中的實時討論"。
與Mixture-of-Agents(MoA)方法相比,LeaP在推理過程中保持了更完整的上下文信息,而不是僅僅傳遞前一輪的輸出。這種設(shè)計使得信息傳遞更加豐富和準(zhǔn)確,協(xié)作效果也更加顯著。
在與同等規(guī)模模型的比較中,LeaP方法顯示出了顯著優(yōu)勢。特別是在數(shù)學(xué)推理任務(wù)上,使用LeaP的32B模型能夠超越未使用LeaP的671B模型,這種跨數(shù)量級的性能提升充分證明了方法的有效性。
十二、局限性和失敗案例分析
誠實地說,LeaP方法并非完美無缺。研究團(tuán)隊坦率地分析了方法的局限性和一些失敗案例。
在較小的模型上,有時會出現(xiàn)總結(jié)不夠準(zhǔn)確或無法有效理解同伴建議的情況。這就像是年齡較小的學(xué)生在小組討論中可能表達(dá)不清或理解困難。這也是研究團(tuán)隊開發(fā)LeaP-T系列模型的原因。
另一個有趣的現(xiàn)象是,一些通過強(qiáng)化學(xué)習(xí)訓(xùn)練的模型(如QwQ-32B)有時會表現(xiàn)出較強(qiáng)的"自我堅持"傾向,即使接收到同伴建議也傾向于繼續(xù)自己的推理路徑。這可能與強(qiáng)化學(xué)習(xí)訓(xùn)練過程中形成的高置信度有關(guān)。
此外,在某些情況下,如果大多數(shù)同伴都給出錯誤建議,少數(shù)正確的聲音可能會被"淹沒"。不過實驗顯示,這種情況下LeaP仍然比完全獨(dú)立推理效果更好。
十三、未來展望和應(yīng)用前景
LeaP方法的成功開啟了AI協(xié)作推理的新篇章。研究團(tuán)隊提出了兩個令人興奮的未來發(fā)展方向。
第一個方向是將同伴學(xué)習(xí)擴(kuò)展到強(qiáng)化學(xué)習(xí)領(lǐng)域。通過在訓(xùn)練過程中引入同伴協(xié)作機(jī)制,有可能開發(fā)出更強(qiáng)大和更協(xié)作的AI系統(tǒng)。這就像是讓AI從一開始就學(xué)會團(tuán)隊合作,而不是后來才學(xué)習(xí)協(xié)作技能。
第二個方向是發(fā)展具有不同專長的AI協(xié)作系統(tǒng)。設(shè)想一個場景:面對復(fù)雜問題時,有的AI專門負(fù)責(zé)網(wǎng)絡(luò)搜索,有的專門進(jìn)行數(shù)學(xué)計算,有的擅長邏輯推理,它們通過LeaP機(jī)制進(jìn)行協(xié)調(diào)配合。這種專業(yè)化分工的協(xié)作模式可能會帶來更大的性能突破。
從實際應(yīng)用的角度來看,LeaP方法為AI系統(tǒng)的部署提供了新的思路。在對準(zhǔn)確性要求較高的場景中,如醫(yī)療診斷、法律分析或科學(xué)研究,使用LeaP方法的AI系統(tǒng)可能會提供更可靠和準(zhǔn)確的結(jié)果。
此外,LeaP方法的成功也為人機(jī)協(xié)作提供了新的啟示。在未來的AI輔助決策系統(tǒng)中,人類專家和AI系統(tǒng)可能會采用類似的協(xié)作模式,通過實時的信息交換和觀點(diǎn)碰撞來提高決策質(zhì)量。
說到底,這項研究最大的意義在于證明了"集體智慧"在AI領(lǐng)域同樣適用。正如人類社會中的協(xié)作能夠產(chǎn)生超越個體能力的成果,AI系統(tǒng)通過有效的協(xié)作機(jī)制也能夠?qū)崿F(xiàn)1+1>2的效果。LeaP方法不僅是一種技術(shù)創(chuàng)新,更是對AI發(fā)展方向的重要探索:未來的AI系統(tǒng)可能不再是孤立的超級大腦,而是能夠協(xié)作、交流、互相學(xué)習(xí)的智能集群。
這種轉(zhuǎn)變可能會徹底改變我們對AI能力邊界的認(rèn)知。當(dāng)AI系統(tǒng)學(xué)會了真正的團(tuán)隊合作,它們解決復(fù)雜問題的能力將會獲得質(zhì)的飛躍。這不僅僅是技術(shù)進(jìn)步,更是邁向更加智能、更加協(xié)調(diào)的人工智能未來的重要一步。對于普通人來說,這意味著我們將擁有更可靠、更智能的AI助手,它們不再是獨(dú)斷專行的"獨(dú)行俠",而是善于傾聽、樂于協(xié)作的"團(tuán)隊成員"。
Q&A
Q1:什么是"前綴主導(dǎo)陷阱"?它對AI有什么影響? A:前綴主導(dǎo)陷阱是指AI模型會被錯誤的開頭嚴(yán)重誤導(dǎo),難以自我糾正的現(xiàn)象。即使錯誤開頭只占整個回答的15%,也會讓AI的準(zhǔn)確率下降近20%。這就像人走錯第一步路后很難調(diào)頭一樣,AI一旦踏上錯誤思路就容易越走越遠(yuǎn)。
Q2:LeaP方法會不會讓AI變得更慢或更耗費(fèi)資源? A:令人驚喜的是,LeaP方法不僅沒有顯著增加計算消耗,有時反而更高效。因為通過同伴提醒,AI能更快找到正確方向,避免在錯誤道路上浪費(fèi)時間,就像有了GPS導(dǎo)航的司機(jī)比盲目開車的司機(jī)更快到達(dá)目的地。
Q3:普通用戶能用上LeaP技術(shù)嗎?有什么實際好處? A:研究團(tuán)隊已經(jīng)開源了相關(guān)代碼和模型,未來這項技術(shù)很可能會集成到各種AI應(yīng)用中。對普通用戶來說,最直接的好處是AI回答會更準(zhǔn)確可靠,特別是在處理復(fù)雜問題時,就像有了一個會開會討論的智能助手團(tuán)隊。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。