av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 UFT:統(tǒng)一監(jiān)督式和強化式微調(diào),打破大語言模型學(xué)習(xí)與思考的隔閡

UFT:統(tǒng)一監(jiān)督式和強化式微調(diào),打破大語言模型學(xué)習(xí)與思考的隔閡

2025-05-30 11:15
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-30 11:15 ? 科技行者

大語言模型(LLMs)在完成訓(xùn)練后,經(jīng)常需要進一步的"后訓(xùn)練"階段來增強其推理能力。麻省理工學(xué)院電氣工程與計算機科學(xué)系(EECS)LIDS實驗室的研究團隊Mingyang Liu、Gabriele Farina和Asuman Ozdaglar在2025年5月22日發(fā)表于arXiv(arXiv:2505.16984v1)的論文中,提出了一種創(chuàng)新性的后訓(xùn)練方法——統(tǒng)一微調(diào)(Unified Fine-Tuning,UFT)。這項研究旨在解決當(dāng)前大語言模型微調(diào)中的一個根本性問題:如何在"記憶"和"思考"之間取得平衡。

正如論文開篇引用的孔子名言所說:"學(xué)而不思則罔,思而不學(xué)則殆"(Learning without thinking leads to confusion; thinking without learning is perilous)。這句古老的智慧恰好點明了當(dāng)前大語言模型后訓(xùn)練的核心挑戰(zhàn)。目前,大語言模型的后訓(xùn)練主要分為兩大類:監(jiān)督式微調(diào)(Supervised Fine-Tuning,SFT)和強化式微調(diào)(Reinforcement Fine-Tuning,RFT)。簡單來說,SFT就像是讓模型"死記硬背"標準答案,而RFT則是讓模型"自己思考"并從嘗試中學(xué)習(xí)。

在人類學(xué)習(xí)過程中,我們通常會結(jié)合這兩種方式:在做題時自己思考(類似RFT),遇到困難時參考解答(類似SFT)。然而,在當(dāng)前的大語言模型訓(xùn)練中,這兩種學(xué)習(xí)方式卻被人為地分離開來。傳統(tǒng)做法要么全程使用SFT,要么全程使用RFT,或者先用SFT再用RFT(稱為SFT-RFT),就像是強制學(xué)生要么只做題不看答案,要么只看答案不做題,這顯然不是最佳的學(xué)習(xí)方式。

研究團隊提出的UFT方法巧妙地將這兩種學(xué)習(xí)模式融合起來,讓模型既能通過自己探索答案獲得思考能力,又能從標準答案中獲取知識。這就像給學(xué)生一道數(shù)學(xué)題,先讓他自己嘗試解決,但同時提供部分解題步驟作為提示,隨著學(xué)習(xí)的深入,逐漸減少提示的數(shù)量,最終讓學(xué)生能夠完全獨立思考。

研究表明,無論模型大小如何,UFT都能取得比SFT和RFT更好的表現(xiàn)。對于較小的模型(如0.5B參數(shù)),UFT能幫助模型更好地"記憶"解題步驟;對于較大的模型(如3B參數(shù)),UFT則能保持RFT的泛化能力,避免SFT容易導(dǎo)致的過擬合問題。更令人興奮的是,研究團隊通過理論證明,UFT能夠?qū)FT在長序列推理任務(wù)上的指數(shù)級采樣復(fù)雜度降低到多項式級別,這意味著訓(xùn)練效率的極大提升。

讓我們一起深入了解這項創(chuàng)新研究,看看它如何改變大語言模型的訓(xùn)練方式,以及為什么這種"學(xué)習(xí)"與"思考"的統(tǒng)一方法對于未來AI的發(fā)展具有重要意義。

一、問題背景:大語言模型微調(diào)中的兩難困境

目前,大語言模型的微調(diào)主要有兩種方法:監(jiān)督式微調(diào)(SFT)和強化式微調(diào)(RFT)。這兩種方法各有優(yōu)缺點,就像學(xué)習(xí)中的"記憶"和"思考"兩種能力。

SFT就像是傳統(tǒng)的教科書學(xué)習(xí)法。想象一下,老師給你一道數(shù)學(xué)題和它的完整解答,然后讓你反復(fù)記憶這個解答過程。SFT的做法是讓模型通過最大化已知解答的對數(shù)似然(log-likelihood)來"記住"標準答案。這種方法簡單高效,特別適合參數(shù)量較小的模型。但問題是,如果模型只會"背誦"而不會"思考",遇到稍微變形的新問題就可能束手無策。

RFT則像是鼓勵自主探索的學(xué)習(xí)方法。想象老師只告訴你一道題的最終答案是對是錯,但不告訴你解題步驟,你需要通過不斷嘗試來找到正確的解法。RFT讓模型自己探索解決方案,然后根據(jù)最終結(jié)果的正確與否來調(diào)整自己的策略。這種方法能夠培養(yǎng)模型的"思考能力",對于較大的模型來說,通常能獲得更好的泛化效果。但RFT的問題是,如果模型基礎(chǔ)知識不夠扎實(比如參數(shù)量太小),可能會因為探索空間太大而難以找到正確答案。

研究者們發(fā)現(xiàn),當(dāng)模型較小時(如Qwen2.5-0.5B),SFT往往表現(xiàn)更好,因為這些模型通過預(yù)訓(xùn)練獲得的知識有限,難以通過自主探索找到正確答案。而當(dāng)模型較大時(如Qwen2.5-3B),RFT則通常更勝一籌,因為這些模型已經(jīng)具備了足夠的基礎(chǔ)知識,能夠更好地進行自主推理。

這就形成了一個兩難困境:對于不同規(guī)模的模型,我們需要使用不同的微調(diào)策略。而業(yè)界常見的解決方案是先使用SFT再使用RFT(即SFT-RFT),就像先讓學(xué)生背誦公式,再讓他們自己解題。但這種方法仍然是將"記憶"和"思考"人為分開,而不是像人類學(xué)習(xí)那樣自然地融合兩者。

這正是UFT要解決的核心問題:如何設(shè)計一種微調(diào)方法,能夠融合SFT的知識獲取能力和RFT的推理泛化能力,讓模型既能"學(xué)"又能"思"?

二、UFT方法:統(tǒng)一"記憶"與"思考"的創(chuàng)新框架

UFT(統(tǒng)一微調(diào))的核心思想是將監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)融合在一個統(tǒng)一的框架中,就像將"看答案"和"自己做題"這兩種學(xué)習(xí)方式有機結(jié)合。這種方法主要包含兩個關(guān)鍵創(chuàng)新:一是基于提示的探索機制,二是混合目標函數(shù)。

### 基于提示的探索機制

在傳統(tǒng)的RFT中,模型需要從頭開始生成整個解決方案,這就像讓學(xué)生完全靠自己解決一道復(fù)雜的數(shù)學(xué)題。對于基礎(chǔ)知識不足的小模型來說,這個任務(wù)太過艱巨,導(dǎo)致很難找到正確答案。

而UFT引入了"提示"(hint)的概念,它是完整解答的一部分。想象一下,老師不是直接給你整個解答,而是根據(jù)你的學(xué)習(xí)進度,提供部分解題步驟作為提示,讓你在此基礎(chǔ)上繼續(xù)思考。這種方式既給了你一定的指導(dǎo),又保留了思考的空間。

具體來說,UFT在訓(xùn)練過程中,會將問題和部分解答(提示)連接起來,讓模型從這個部分解答的位置開始,繼續(xù)生成剩余的解題步驟。這樣,模型就能更容易地探索到正確的解決方案,大大提高了強化學(xué)習(xí)的效率。

為了讓模型逐漸學(xué)會獨立思考,UFT采用了一種平滑的提示長度調(diào)度策略。在訓(xùn)練初期,提供較長的提示,讓模型容易成功;隨著訓(xùn)練的進行,提示長度逐漸減少,直到最后模型完全不依賴提示,能夠獨立生成完整解答。這就像學(xué)習(xí)騎自行車時,開始時有輔助輪,隨著技能的提升,逐漸減少輔助,最終獨立騎行。

研究團隊采用了余弦退火(cosine annealing)策略來調(diào)度提示長度,比起階段性調(diào)整提示長度(如Xi等人的R?方法)或固定提示長度分布(如均勻分布),這種平滑過渡的方式避免了訓(xùn)練過程中的劇烈分布變化,使得模型學(xué)習(xí)更加穩(wěn)定。

### 混合目標函數(shù)

UFT的第二個創(chuàng)新是混合目標函數(shù),它將SFT的監(jiān)督學(xué)習(xí)信號和RFT的強化學(xué)習(xí)信號融合在一起。

傳統(tǒng)的RFT只關(guān)注最終答案是否正確,而忽略了解題過程的正確性。這就像老師只告訴你"答案錯了",但不指出哪一步出了問題。這種反饋信息太少,學(xué)習(xí)效率低下。

而UFT的混合目標函數(shù)包含三部分: 1. 最大化模型在探索過程中獲得的獎勵(RFT的目標) 2. 最小化模型策略與參考策略的KL散度(保持探索的穩(wěn)定性) 3. 最大化提示部分的對數(shù)似然(SFT的目標)

第三部分是UFT的關(guān)鍵創(chuàng)新,它讓模型不僅關(guān)注最終答案的正確性,還要學(xué)習(xí)解題的正確步驟。這就像老師不僅告訴你答案對錯,還指導(dǎo)你解題的方法。

通過這種混合目標函數(shù),UFT使得模型能夠同時從監(jiān)督信號和強化信號中學(xué)習(xí),既獲取知識,又培養(yǎng)推理能力。當(dāng)提示長度為零時,UFT等同于標準的RFT;當(dāng)提示長度等于解答全長時,UFT等同于標準的SFT。這種平滑過渡的設(shè)計,使得UFT能夠兼顧兩種方法的優(yōu)點。

### UFT的技術(shù)細節(jié)

從技術(shù)角度看,UFT的目標函數(shù)可以表示為:

J_UFT = E[J_value - β∑(KL(π(·|s_h)∥π_ref(·|s_h))) + β∑(log π(a*_h|s*_h))]

其中,第一項J_value代表強化學(xué)習(xí)的價值函數(shù),第二項是策略與參考策略的KL散度(常見于RLHF),第三項是提示部分的對數(shù)似然(SFT的目標)。

通過這個統(tǒng)一的目標函數(shù),UFT在訓(xùn)練過程中自然地將"記憶"(監(jiān)督學(xué)習(xí))和"思考"(強化學(xué)習(xí))融合在一起,讓模型能夠在探索的同時學(xué)習(xí)已知的知識,提高學(xué)習(xí)效率。

三、理論突破:從指數(shù)級到多項式級的效率提升

UFT的一個重要理論貢獻是證明了它能夠?qū)鹘y(tǒng)RFT在長序列推理任務(wù)上的指數(shù)級采樣復(fù)雜度降低到多項式級別,這意味著訓(xùn)練效率的巨大提升。

想象一下,你在玩一個迷宮游戲,每個十字路口有多個方向可以選擇。如果你完全隨機地探索,那么找到出口的難度將隨著迷宮的復(fù)雜度指數(shù)級增加。這就是RFT面臨的問題:解題步驟越長,探索空間就呈指數(shù)級增長,找到正確解法的難度也隨之飆升。

研究團隊通過理論分析證明,對于任何分支因子為B、高度為H的搜索樹(可以理解為一個解題過程),標準RFT需要至少B^H/4次探索才能達到50%的成功率。這意味著,解題步驟每增加一步,所需的探索次數(shù)就會乘以分支因子B。

然而,當(dāng)引入UFT方法后,研究團隊證明所需的探索次數(shù)可以降低到O(B·H^5·(log B)^2/Δ^2),其中Δ是子最優(yōu)解與最優(yōu)解之間的獎勵差距。這是一個多項式級別的復(fù)雜度,意味著解題步驟增加時,所需的探索次數(shù)不再呈指數(shù)級增長,而是以一個更加可控的速度增長。

這一理論突破解釋了為什么UFT在長序列推理任務(wù)上能夠取得如此顯著的性能提升。通過提供部分解答作為提示,UFT大大縮小了模型需要探索的空間,使得即使是小模型也能有效地學(xué)習(xí)復(fù)雜的推理任務(wù)。

四、實驗結(jié)果:UFT在各種模型和任務(wù)上的優(yōu)勢

研究團隊在多種模型和任務(wù)上進行了廣泛的實驗,以驗證UFT的有效性。他們使用了不同規(guī)模的模型,包括Qwen2.5-0.5B/1.5B/3B和Llama3.2-1B/3B,在三種典型的推理任務(wù)上進行測試:

1. Countdown(倒計時游戲):使用給定的數(shù)字和基本算術(shù)運算(加、減、乘、除)得到目標數(shù)字。 2. MATH(3,4,5):難度等級為3-5的數(shù)學(xué)問題集。 3. Logic(Knights and Knaves邏輯謎題):需要復(fù)雜的邏輯推理能力的謎題。

實驗結(jié)果令人印象深刻:UFT在不同規(guī)模的模型和不同類型的任務(wù)上,都表現(xiàn)出了顯著的優(yōu)勢。

對于小模型(如Qwen2.5-0.5B),傳統(tǒng)的RFT幾乎無法有效學(xué)習(xí),因為模型難以通過隨機探索找到正確答案。而UFT通過提供部分解答作為提示,大大提高了探索的成功率,使得即使是小模型也能有效地學(xué)習(xí)復(fù)雜的推理任務(wù)。實驗顯示,在Logic任務(wù)上,RFT幾乎無法探索到正確答案,而UFT能夠在每一步都成功探索,從而實現(xiàn)有效學(xué)習(xí)。

對于大模型(如Qwen2.5-3B),SFT容易導(dǎo)致過擬合,而RFT則能獲得更好的泛化效果。UFT繼承了RFT的優(yōu)勢,同時通過混合目標函數(shù)進一步提升了性能。

研究者還對Llama3.2系列模型進行了測試,發(fā)現(xiàn)UFT能夠顯著提升這些模型的表現(xiàn),特別是在Countdown任務(wù)上,甚至讓Llama3.2-1B的表現(xiàn)超過了經(jīng)過RFT訓(xùn)練的Llama3.2-3B。這說明UFT不僅能提高模型的推理能力,還能幫助模型獲取新知識,突破模型預(yù)訓(xùn)練時獲得的知識上限。

與其他方法的比較也很有說服力。UFT不僅優(yōu)于傳統(tǒng)的SFT和RFT,還超過了SFT-RFT組合方法和R?(反向課程強化學(xué)習(xí))方法。這表明,UFT的統(tǒng)一框架確實能夠更有效地融合監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)的優(yōu)勢。

五、UFT的實現(xiàn)細節(jié):讓"學(xué)習(xí)"與"思考"自然融合

UFT的實現(xiàn)涉及幾個關(guān)鍵技術(shù)細節(jié),這些細節(jié)共同保證了方法的有效性。

首先是提示長度的調(diào)度策略。UFT采用余弦退火(cosine annealing)策略,使提示長度從訓(xùn)練初期的較高值平滑地降低到訓(xùn)練后期的零。具體來說,在每一步訓(xùn)練中,提示長度的期望值p按以下公式計算:

p(t) = plow + (phigh - plow)/2 · (1 + cos((t+1)/Thint · π))

其中,plow和phigh分別是提示長度的最低和最高比例,Thint是設(shè)定的有提示訓(xùn)練步數(shù)。這種平滑過渡的方式避免了訓(xùn)練過程中的劇烈分布變化,使得模型學(xué)習(xí)更加穩(wěn)定。

實際的提示長度是從二項分布中采樣得到的,即l ~ Binomial(L, p),其中L是解答的總長度。這確保了提示長度的期望值與設(shè)定的比例p一致,同時引入了一定的隨機性,有助于模型的泛化能力。

其次是混合目標函數(shù)的實現(xiàn)。UFT的目標函數(shù)包含三部分:最大化獎勵、保持策略穩(wěn)定性和最大化提示部分的對數(shù)似然。在實現(xiàn)上,研究者使用了GRPO(一種策略梯度算法)作為基礎(chǔ)強化學(xué)習(xí)算法,并在其目標函數(shù)中添加了提示部分的對數(shù)似然項。

最后是訓(xùn)練過程的設(shè)計。UFT的訓(xùn)練分為兩個主要階段:有提示階段和無提示階段。在有提示階段(t < Thint),模型會獲得長度逐漸減少的提示;在無提示階段(t ≥ Thint),模型完全依靠自己的能力生成解答。這種設(shè)計使得模型能夠平滑地從依賴提示過渡到完全獨立推理。

通過這些技術(shù)細節(jié)的精心設(shè)計,UFT實現(xiàn)了"學(xué)習(xí)"與"思考"的自然融合,使得模型既能從監(jiān)督信號中獲取知識,又能通過強化學(xué)習(xí)培養(yǎng)推理能力。

六、UFT對不同大小模型的影響:適應(yīng)性強的統(tǒng)一框架

一個特別有趣的發(fā)現(xiàn)是,UFT對不同大小的模型都能起到積極作用,但作用機制有所不同。

對于小模型(如Qwen2.5-0.5B),UFT主要是通過提高"記憶"能力來提升性能。這些模型通過預(yù)訓(xùn)練獲得的知識有限,難以通過純粹的探索找到正確解法。UFT通過提供部分解答作為提示,大大提高了探索的成功率,同時通過混合目標函數(shù)中的監(jiān)督學(xué)習(xí)項,幫助模型更有效地"記住"正確的解題步驟。

實驗數(shù)據(jù)顯示,在Countdown任務(wù)上,Qwen2.5-0.5B經(jīng)過UFT訓(xùn)練后的準確率達到了13.18%,遠高于RFT的3.78%和SFT的4.92%。這說明對于小模型來說,UFT主要是通過提高"記憶"能力來彌補其"思考"能力的不足。

對于大模型(如Qwen2.5-3B),UFT則主要是通過保持"思考"能力來避免過擬合。這些模型通過預(yù)訓(xùn)練已經(jīng)獲得了相當(dāng)豐富的知識,具備一定的推理能力。SFT容易導(dǎo)致這些模型過度擬合訓(xùn)練數(shù)據(jù),失去泛化能力。而UFT通過強化學(xué)習(xí)組件保持了模型的探索能力,避免了過擬合問題。

實驗數(shù)據(jù)顯示,在MATH(3,4,5)任務(wù)上,Qwen2.5-3B經(jīng)過UFT訓(xùn)練后的準確率達到了47.04%,高于RFT的45.74%和SFT的24.32%。這說明對于大模型來說,UFT主要是通過保持"思考"能力來提升其性能。

最令人驚喜的是,UFT對Llama3.2系列模型也表現(xiàn)出強大的提升效果。特別是在Countdown任務(wù)上,經(jīng)過UFT訓(xùn)練的Llama3.2-1B在250步訓(xùn)練后的表現(xiàn)甚至超過了經(jīng)過RFT訓(xùn)練的Llama3.2-3B。這表明UFT不僅能提高模型的推理能力,還能幫助模型獲取新知識,突破模型預(yù)訓(xùn)練時獲得的知識上限。

這些結(jié)果表明,UFT作為一個統(tǒng)一的微調(diào)框架,能夠根據(jù)模型的不同特性,自動平衡"記憶"和"思考"的比例,為不同大小的模型提供最適合的學(xué)習(xí)方式。這種適應(yīng)性強的特性,使得UFT在各種場景下都能發(fā)揮優(yōu)勢。

七、總結(jié)與展望:統(tǒng)一"學(xué)習(xí)"與"思考"的未來方向

UFT的提出,標志著大語言模型微調(diào)技術(shù)的一個重要進步。通過統(tǒng)一監(jiān)督學(xué)習(xí)和強化學(xué)習(xí),UFT創(chuàng)造性地解決了"記憶"與"思考"之間的平衡問題,使得模型能夠更有效地學(xué)習(xí)復(fù)雜的推理任務(wù)。

回顧UFT的主要貢獻:

首先,UFT提出了一種統(tǒng)一的微調(diào)框架,將監(jiān)督信號和獎勵信號融合在一起。這種框架不僅保留了SFT的知識獲取能力和RFT的推理泛化能力,還通過兩者的互補作用,創(chuàng)造了1+1>2的效果。

其次,UFT在理論上證明了,通過引入提示機制,可以將傳統(tǒng)RFT在長序列推理任務(wù)上的指數(shù)級采樣復(fù)雜度降低到多項式級別。這一突破性的理論結(jié)果,解釋了為什么UFT能夠在實踐中取得如此顯著的性能提升。

第三,UFT在各種模型和任務(wù)上的廣泛實驗,驗證了其方法的有效性和穩(wěn)健性。無論是小模型還是大模型,無論是簡單任務(wù)還是復(fù)雜任務(wù),UFT都表現(xiàn)出了顯著的優(yōu)勢。

從更廣泛的角度來看,UFT的成功提示我們,大語言模型的訓(xùn)練不應(yīng)該將"學(xué)習(xí)"和"思考"人為分開,而應(yīng)該像人類學(xué)習(xí)那樣,自然地融合這兩種能力。這種思路不僅適用于微調(diào)階段,也可能對預(yù)訓(xùn)練和其他訓(xùn)練范式有所啟發(fā)。

當(dāng)然,UFT也有一些局限性。首先,它需要高質(zhì)量的人類標注解答作為監(jiān)督信號,這在某些領(lǐng)域可能難以獲取。其次,當(dāng)前的實驗主要集中在數(shù)學(xué)和邏輯推理任務(wù)上,UFT在其他類型任務(wù)上的效果還需要進一步驗證。

未來的研究方向可能包括:將UFT與其他先進的SFT和RFT技術(shù)結(jié)合,如使用大模型生成的長鏈式思考(long chain-of-thoughts)作為監(jiān)督信號,或者采用更先進的強化學(xué)習(xí)算法如REINFORCE++和DAPO;探索UFT在更廣泛的任務(wù)類型上的應(yīng)用;研究如何減少對人類標注數(shù)據(jù)的依賴,可能通過半監(jiān)督或自監(jiān)督的方式獲取監(jiān)督信號。

總的來說,UFT開創(chuàng)了一種新的思路,將大語言模型的"學(xué)習(xí)"與"思考"能力有機地融合在一起,為未來的模型訓(xùn)練提供了一個更加自然、更加高效的范式。正如孔子所言:"學(xué)而不思則罔,思而不學(xué)則殆",只有將學(xué)習(xí)和思考有機結(jié)合,才能培養(yǎng)出真正智能的系統(tǒng)。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-