av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 UC伯克利大學(xué)突破性研究:讓AI自己決定何時"并行思考",推理效率飆升23%

UC伯克利大學(xué)突破性研究:讓AI自己決定何時"并行思考",推理效率飆升23%

2025-07-15 09:59
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-15 09:59 ? 科技行者

這項由加州大學(xué)伯克利分校的潘佳藝、李修宇、連龍等研究團(tuán)隊領(lǐng)導(dǎo)的創(chuàng)新研究發(fā)表于2025年4月,論文題為《Learning Adaptive Parallel Reasoning with Language Models》。有興趣深入了解的讀者可以通過GitHub倉庫github.com/Parallel-Reasoning/APR獲取完整代碼和數(shù)據(jù)。

說到大語言模型的推理能力,你可能會覺得這個話題有些抽象。但不妨這樣想象:當(dāng)你面對一道復(fù)雜的數(shù)學(xué)題時,你的大腦是如何工作的?有時候你會一步步按順序思考,就像沿著一條路慢慢走;但有時候你會同時考慮幾種不同的解題思路,就像同時派出幾個偵探去調(diào)查不同的線索。現(xiàn)在的AI大多只會"按順序思考",而伯克利大學(xué)的研究團(tuán)隊成功教會了AI如何像人類一樣"同時思考多個問題"。

目前的AI推理系統(tǒng)面臨一個有趣的困境。傳統(tǒng)的思維鏈推理就像一個勤奮的學(xué)生,必須把每一個推理步驟都詳細(xì)寫下來,從第一步寫到最后一步。這種方法確實有效,但就像寫作文時字?jǐn)?shù)越來越多,很快就會超出頁面限制,而且寫得越長,讀者(或者說AI)就越難找到重點信息。另一方面,現(xiàn)有的并行推理方法就像讓多個學(xué)生同時做同一道題,然后比較誰的答案最好。雖然這樣可以提高正確率,但問題是這些學(xué)生之間完全不交流,經(jīng)常在重復(fù)同樣的工作,浪費了大量時間和精力。

研究團(tuán)隊提出的自適應(yīng)并行推理方法就像培養(yǎng)了一個非常聰明的"項目經(jīng)理"。這個AI項目經(jīng)理不僅自己會思考問題,還知道什么時候應(yīng)該把任務(wù)分配給團(tuán)隊成員并行處理,什么時候應(yīng)該自己獨立思考。更重要的是,這個決策過程完全由AI自己學(xué)會,不需要人類事先設(shè)定固定的規(guī)則。

讓我們通過一個具體的例子來理解這個突破。研究團(tuán)隊使用了一個叫做"倒計時"的數(shù)學(xué)推理任務(wù)進(jìn)行測試。這個任務(wù)要求AI用給定的幾個數(shù)字,通過加減乘除運算,得到一個目標(biāo)數(shù)字。比如給你數(shù)字22、26、31、53,要求得到27。傳統(tǒng)的串行推理方法就像一個人坐在那里,一步步嘗試所有可能的組合:先試試53減22等于31,然后看看能不能用26和這兩個31湊出27,如果不行就回頭嘗試其他組合。這種方法的問題是,當(dāng)推理鏈變得很長時,AI就像一個桌子太小的學(xué)生,紙張寫滿了就沒地方繼續(xù)寫了。

而新的自適應(yīng)并行推理方法就像一個智能的團(tuán)隊協(xié)作。當(dāng)AI發(fā)現(xiàn)一個有前途的思路時,它會"派遣"幾個子任務(wù)同時進(jìn)行。比如在上面的例子中,主線程(可以想象成團(tuán)隊負(fù)責(zé)人)發(fā)現(xiàn)可以用53減去其他數(shù)字,于是它同時派出兩個"工作線程":一個專門嘗試53減22的路線,另一個專門嘗試53減31的路線。這兩個工作線程可以同時進(jìn)行計算,不會互相干擾。當(dāng)其中一個工作線程找到了解決方案(比如26加上53減31再除以22等于27),它就把結(jié)果報告給主線程,整個團(tuán)隊的任務(wù)就完成了。

這種方法的巧妙之處在于,AI學(xué)會了自己判斷什么時候需要"開會討論"(串行思考),什么時候可以"分頭行動"(并行思考)。就像一個經(jīng)驗豐富的項目經(jīng)理,它知道有些復(fù)雜問題需要團(tuán)隊成員分工合作,而有些簡單問題自己獨立處理就夠了。

為了讓AI學(xué)會這種智能的任務(wù)分配,研究團(tuán)隊采用了兩個階段的訓(xùn)練方法。第一個階段就像教小孩子模仿大人的行為。研究團(tuán)隊先用計算機(jī)程序生成了大量的"標(biāo)準(zhǔn)答案",展示在各種情況下應(yīng)該如何進(jìn)行并行推理。這些標(biāo)準(zhǔn)答案就像是優(yōu)秀項目經(jīng)理的工作記錄,AI通過模仿這些記錄來學(xué)習(xí)基本的并行推理技能。

第二個階段更像是讓AI在實戰(zhàn)中積累經(jīng)驗。研究團(tuán)隊使用了強(qiáng)化學(xué)習(xí)的方法,讓AI在真實的問題上反復(fù)練習(xí)。每當(dāng)AI成功解決一個問題,就給它一個"獎勵";如果失敗了,就讓它反思哪里做得不好。經(jīng)過大量的練習(xí),AI逐漸學(xué)會了在合適的時機(jī)啟動并行推理,在合適的時候整合各個子任務(wù)的結(jié)果。這個過程就像培養(yǎng)一個項目經(jīng)理的直覺:什么時候應(yīng)該開會,什么時候應(yīng)該分工,完全通過經(jīng)驗積累來掌握。

實驗結(jié)果令人印象深刻。在相同的計算資源限制下,新方法的成功率比傳統(tǒng)方法提高了23.4%(從60.0%提升到83.4%)。這個提升幅度相當(dāng)可觀,就好比一個學(xué)生的考試成績從60分提高到83分。更重要的是,當(dāng)增加計算資源時,新方法的性能提升更加明顯,從66.6%躍升到80.1%,而傳統(tǒng)方法的提升幅度要小得多。

從延遲角度來看,新方法的優(yōu)勢更加突出。在大約5000毫秒的相同等待時間內(nèi),傳統(tǒng)串行方法只能達(dá)到57.3%的成功率,而新的并行方法達(dá)到了75.2%的成功率,提升了近18個百分點。這就像兩個廚師在相同時間內(nèi)做菜,使用新方法的廚師能夠做出更多美味的菜肴。

研究團(tuán)隊還發(fā)現(xiàn)了一個有趣的現(xiàn)象:經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練后,AI更傾向于"寬度優(yōu)先"而非"深度優(yōu)先"的搜索策略。簡單來說,AI學(xué)會了同時嘗試更多不同的思路,而不是在一個思路上鉆得很深。這就像解迷宮時,與其沿著一條路走到底,不如同時探索幾條不同的路徑,這樣更容易找到出口。

具體數(shù)據(jù)顯示,經(jīng)過強(qiáng)化學(xué)習(xí)后,AI平均每次會啟動8.2個子線程,比訓(xùn)練前的6.1個增加了34.4%。同時,每個推理序列的平均長度也從1471個詞增加到1796個詞,增幅為22.1%。這些數(shù)字表明,AI確實學(xué)會了通過更廣泛的并行探索來提高推理成功率。

技術(shù)實現(xiàn)方面,研究團(tuán)隊基于SGLang框架構(gòu)建了這套系統(tǒng)。SGLang是一個高性能的語言模型服務(wù)框架,支持連續(xù)批處理和基數(shù)注意力機(jī)制,這使得并行推理的實際部署成為可能。在硬件配置上,團(tuán)隊使用了8GPU的NVIDIA RTX A6000服務(wù)器,其中一個GPU處理主推理線程,其余GPU負(fù)責(zé)并行執(zhí)行子線程。

實驗設(shè)計非常嚴(yán)謹(jǐn)。研究團(tuán)隊使用了一個包含228M非嵌入?yún)?shù)的Llama2架構(gòu)模型,支持4096個詞的上下文窗口。所有模型都通過50萬個訓(xùn)練樣本進(jìn)行監(jiān)督學(xué)習(xí)初始化。為了公平比較不同方法的性能,團(tuán)隊采用了預(yù)算約束的方法,通過限制上下文窗口大小來控制計算資源的使用。

對比實驗包括了多個基線方法。傳統(tǒng)的串行方法(SoS+)就像讓一個學(xué)生獨自完成所有題目,而自洽性方法(cons@n)則像讓多個學(xué)生獨立做題然后投票選擇最佳答案。還有一個pass@n指標(biāo),表示多次嘗試中至少有一次成功的概率,這代表了簡單并行方法能達(dá)到的理論上限。

結(jié)果顯示,在低計算預(yù)算下(少于4000個詞),新方法由于需要額外的協(xié)調(diào)開銷,性能略低于傳統(tǒng)方法。但隨著計算預(yù)算的增加,并行方法的優(yōu)勢迅速顯現(xiàn)。當(dāng)總詞數(shù)達(dá)到20000個時,新方法的成功率達(dá)到80.1%,顯著超過傳統(tǒng)方法的66.6%,甚至超過了多次獨立嘗試的理論上限(68.4%)。

上下文窗口限制實驗更加清楚地展示了新方法的優(yōu)勢。在固定的上下文長度限制下,傳統(tǒng)方法很快就會因為推理鏈過長而無法繼續(xù),而新方法通過將計算分散到多個并行線程,可以在相同的上下文限制下進(jìn)行更復(fù)雜的推理。當(dāng)上下文窗口為4096個詞時,配置10個子線程的新方法比傳統(tǒng)方法的成功率高出約20個百分點。

延遲測試在實際的8GPU服務(wù)器上進(jìn)行,模擬了真實的應(yīng)用場景。結(jié)果表明,在相同的等待時間下,新方法能夠達(dá)到更高的成功率。這主要是因為并行處理減少了總的等待時間,即使子線程的數(shù)量增加,但由于它們可以同時執(zhí)行,總的處理時間反而下降了。

強(qiáng)化學(xué)習(xí)的效果分析揭示了一個重要發(fā)現(xiàn):性能提升主要來自于測試時計算資源的更有效利用,而不是決策質(zhì)量的提升。當(dāng)研究團(tuán)隊強(qiáng)制AI使用最大數(shù)量的子線程時,強(qiáng)化學(xué)習(xí)前后的性能差異很?。?3.2%對83.3%),這說明強(qiáng)化學(xué)習(xí)的主要作用是教會AI何時應(yīng)該使用更多的計算資源,而不是如何在固定資源下做出更好的決策。

溫度參數(shù)(控制AI輸出隨機(jī)性的參數(shù))的實驗顯示,新方法在不同設(shè)置下都保持了一致的優(yōu)勢。無論是確定性輸出(溫度為0)還是更隨機(jī)的輸出(溫度為1),新方法都能穩(wěn)定地超越傳統(tǒng)方法,這證明了其良好的魯棒性。

研究團(tuán)隊還進(jìn)行了詳細(xì)的消融實驗來分析各個組成部分的貢獻(xiàn)。他們發(fā)現(xiàn),僅使用監(jiān)督學(xué)習(xí)就能獲得顯著的性能提升,而強(qiáng)化學(xué)習(xí)進(jìn)一步放大了這種優(yōu)勢。同時,他們也測試了改進(jìn)監(jiān)督學(xué)習(xí)數(shù)據(jù)質(zhì)量的效果,發(fā)現(xiàn)傳統(tǒng)串行方法受到上下文窗口大小的根本限制,即使提高訓(xùn)練數(shù)據(jù)質(zhì)量也無法完全解決這個問題。

從計算效率角度來看,新方法在順序詞數(shù)(需要串行處理的最長序列)方面表現(xiàn)出色。雖然總詞數(shù)可能會增加,但關(guān)鍵路徑上的詞數(shù)保持相對較低,這意味著實際的延遲時間并沒有成比例增加。這就像雖然動用了更多的工人,但由于可以并行工作,項目的總完成時間反而縮短了。

技術(shù)創(chuàng)新的核心在于spawn()和join()操作的設(shè)計。spawn()操作允許AI在推理過程中的任何時刻創(chuàng)建多個子線程,每個子線程都有自己的上下文和任務(wù)。join()操作則負(fù)責(zé)收集子線程的結(jié)果并整合到主線程中。這種設(shè)計借鑒了操作系統(tǒng)中多線程編程的概念,但應(yīng)用到了AI推理領(lǐng)域。

子線程的設(shè)計特別巧妙。每個子線程只接收父線程傳遞給它的有限上下文,這避免了上下文窗口的快速消耗。同時,子線程完成任務(wù)后只返回關(guān)鍵信息(比如找到的解決方案),而不是完整的推理過程,這進(jìn)一步節(jié)省了上下文空間。這就像項目經(jīng)理只需要知道下屬的工作結(jié)果,而不需要了解具體的工作過程。

訓(xùn)練策略的設(shè)計也很有創(chuàng)新性。監(jiān)督學(xué)習(xí)階段使用符號求解器生成的混合搜索路徑,這些路徑既包含深度優(yōu)先搜索又包含廣度優(yōu)先搜索的特征,為AI提供了豐富的學(xué)習(xí)樣本。強(qiáng)化學(xué)習(xí)階段則使用GRPO算法(一種策略優(yōu)化算法)來端到端地優(yōu)化整個推理過程,讓AI學(xué)會平衡探索的廣度和深度。

實際部署時,系統(tǒng)充分利用了現(xiàn)代GPU服務(wù)器的并行計算能力。主線程運行在一個GPU上,多個子線程可以同時在其他GPU上執(zhí)行,這樣就能真正實現(xiàn)并行推理。SGLang框架的批處理功能還能進(jìn)一步提高效率,多個推理請求可以在同一批次中處理。

研究的局限性也需要考慮。目前的實驗主要集中在數(shù)學(xué)推理任務(wù)上,而且使用的是相對較小的語言模型。雖然結(jié)果很有希望,但要將這種方法擴(kuò)展到更大的預(yù)訓(xùn)練模型和更廣泛的任務(wù)類型,還需要進(jìn)一步的研究工作。此外,當(dāng)前的方法需要從頭開始訓(xùn)練,對于已經(jīng)部署的大型語言模型來說,適應(yīng)成本可能比較高。

不過,這項研究為AI推理能力的提升開辟了一個全新的方向。傳統(tǒng)的方法要么專注于讓AI"想得更深"(更長的推理鏈),要么讓AI"想得更多"(更多的獨立嘗試),而這項研究首次讓AI學(xué)會了"想得更智能"——知道何時應(yīng)該深入思考,何時應(yīng)該并行探索。

從更廣闊的視角來看,這種自適應(yīng)并行推理能力可能對未來的AI系統(tǒng)產(chǎn)生深遠(yuǎn)影響。當(dāng)AI能夠智能地分配自己的計算資源時,它們就能在相同的硬件條件下處理更復(fù)雜的問題,或者在相同的復(fù)雜度下更快地給出答案。這對于需要實時響應(yīng)的AI應(yīng)用來說尤其重要,比如智能客服、實時翻譯或者自動駕駛系統(tǒng)。

研究團(tuán)隊在論文中也提出了未來的發(fā)展方向。首先是將這種方法擴(kuò)展到預(yù)訓(xùn)練的大型語言模型上,這需要解決如何在不破壞原有能力的情況下添加并行推理能力的問題。其次是減少對監(jiān)督學(xué)習(xí)的依賴,探索是否可以直接通過強(qiáng)化學(xué)習(xí)來訓(xùn)練并行推理能力。最后是設(shè)計更復(fù)雜的線程間通信協(xié)議,比如允許子線程之間直接交換信息,而不僅僅是通過父線程中轉(zhuǎn)。

這項研究的意義不僅在于技術(shù)層面的突破,更在于它展示了一種新的思考方式:讓AI系統(tǒng)自己學(xué)會如何優(yōu)化自己的推理過程。這種"元認(rèn)知"能力——知道如何思考的知識——可能是實現(xiàn)更智能AI系統(tǒng)的關(guān)鍵所在。

總的來說,UC伯克利團(tuán)隊的這項研究為AI推理能力的發(fā)展提供了一個重要的新思路。通過讓AI學(xué)會自適應(yīng)地分配計算資源,他們不僅提高了推理的效率和準(zhǔn)確性,更重要的是開啟了一個讓AI更智能地使用自己能力的新時代。雖然目前還只是在特定任務(wù)上的初步成果,但這種方法的潛力是巨大的,值得我們持續(xù)關(guān)注其后續(xù)發(fā)展。有興趣的讀者可以通過GitHub倉庫github.com/Parallel-Reasoning/APR深入了解這項技術(shù)的具體實現(xiàn)細(xì)節(jié)。

Q&A

Q1:自適應(yīng)并行推理和傳統(tǒng)的AI思考方式有什么區(qū)別? A:傳統(tǒng)AI就像一個人坐在那里一步步思考問題,而新方法讓AI學(xué)會了像項目經(jīng)理一樣,知道什么時候自己獨立思考,什么時候把任務(wù)分給團(tuán)隊成員并行處理。關(guān)鍵是AI可以自己決定何時采用哪種方式,不需要人類預(yù)先設(shè)定規(guī)則。

Q2:這種方法會不會消耗更多計算資源? A:雖然總的計算量可能會增加,但實際運行時間反而會減少,因為多個子任務(wù)可以同時進(jìn)行。就像雖然雇傭了更多工人,但由于可以并行工作,項目完成得更快。研究顯示在相同等待時間下,新方法的成功率比傳統(tǒng)方法高出近18個百分點。

Q3:這項技術(shù)現(xiàn)在可以應(yīng)用到ChatGPT這樣的產(chǎn)品中嗎? A:目前還不能直接應(yīng)用。研究使用的是相對較小的模型,而且需要從頭開始訓(xùn)練。要應(yīng)用到像ChatGPT這樣的大型預(yù)訓(xùn)練模型上,還需要解決如何在不破壞原有能力的情況下添加并行推理能力的技術(shù)挑戰(zhàn)。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-