av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 螞蟻集團提出GRAO:讓AI模型在"模仿-探索-超越"中實現(xiàn)自我優(yōu)化的統(tǒng)一對齊框架

螞蟻集團提出GRAO:讓AI模型在"模仿-探索-超越"中實現(xiàn)自我優(yōu)化的統(tǒng)一對齊框架

2025-08-18 13:56
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-18 13:56 ? 科技行者

這項由螞蟻集團智能醫(yī)療部門王浩文等十六位研究者共同完成的研究,于2025年8月發(fā)表在arXiv預(yù)印本平臺(論文編號:arXiv:2508.07750v1),為大型語言模型的對齊優(yōu)化提出了一個全新的統(tǒng)一框架。有興趣深入了解的讀者可以通過arXiv網(wǎng)站訪問完整論文。

要理解這項研究的價值,我們可以把訓(xùn)練AI模型比作培養(yǎng)一個學(xué)生。傳統(tǒng)的方法就像兩種截然不同的教學(xué)方式:一種是讓學(xué)生死記硬背標準答案(監(jiān)督微調(diào)),另一種是讓學(xué)生在黑暗中摸索試錯(強化學(xué)習(xí))。前者雖然見效快,但學(xué)生很難超越教科書的水平;后者雖然能培養(yǎng)創(chuàng)新能力,但效率極低,而且對學(xué)生的基礎(chǔ)要求很高。

這個問題在當(dāng)今AI發(fā)展中尤為突出。我們都知道,像GPT和Claude這樣的大型語言模型需要經(jīng)過"對齊"訓(xùn)練,才能真正理解人類的需求并給出有用的回答。然而,現(xiàn)有的對齊方法就像兩條平行線,很難真正結(jié)合各自的優(yōu)勢。螞蟻集團的研究團隊觀察到了這個痛點,決定探索一種全新的解決方案。

他們提出的GRAO(Group Relative Alignment Optimization,群組相對對齊優(yōu)化)方法,就像是設(shè)計了一個全新的教學(xué)體系。在這個體系中,AI模型會經(jīng)歷三個階段的成長:首先模仿優(yōu)秀的標準答案,然后在安全的環(huán)境中探索新的可能性,最終在某些方面超越原有的標準。這種"模仿-探索-超越"的過程,讓AI既能快速學(xué)到基礎(chǔ)知識,又不會被局限在固有的框架內(nèi)。

研究團隊在實驗中發(fā)現(xiàn),GRAO方法相比傳統(tǒng)的監(jiān)督微調(diào)提升了57.70%,比直接偏好優(yōu)化提升了17.65%,比強化學(xué)習(xí)方法PPO和GRPO分別提升了7.95%和5.18%。這些數(shù)字背后代表的是AI模型在理解復(fù)雜任務(wù)和人類偏好方面的顯著進步。

一、傳統(tǒng)對齊方法的局限:為什么需要新的解決方案

想象你正在學(xué)習(xí)烹飪。傳統(tǒng)的學(xué)習(xí)方式通常有兩種:要么嚴格按照食譜操作(這就像監(jiān)督微調(diào)),要么完全憑感覺自己摸索(這就像強化學(xué)習(xí))。前者雖然能保證不出大錯,但永遠做不出超越食譜的美味;后者雖然可能創(chuàng)造奇跡,但更多時候會搞砸整道菜。

在AI對齊領(lǐng)域,監(jiān)督微調(diào)(SFT)就像那本嚴格的食譜。它通過讓模型學(xué)習(xí)人類標注的高質(zhì)量對話樣本,能夠快速改善模型的表現(xiàn)。這種方法的優(yōu)勢在于效率高、收斂快,就像按食譜做菜一樣穩(wěn)妥可靠。但問題是,模型只能學(xué)會已有樣本中的知識和模式,很難突破訓(xùn)練數(shù)據(jù)的局限性。

另一方面,強化學(xué)習(xí)方法(如PPO、GRPO)就像讓廚師在沒有食譜的情況下自由發(fā)揮。這種方法讓模型通過不斷試錯來學(xué)習(xí),理論上能夠發(fā)現(xiàn)訓(xùn)練數(shù)據(jù)中沒有的新知識和新能力。但現(xiàn)實很殘酷:如果模型的基礎(chǔ)能力不夠強,它可能永遠找不到正確答案。研究團隊發(fā)現(xiàn),當(dāng)模型對某個問題采樣多次都無法給出正確答案時,這個樣本實際上會被完全丟棄,模型無法從中學(xué)到任何東西。

更深層的問題在于,這兩種方法代表了完全不同的學(xué)習(xí)哲學(xué),就像兩條永不相交的平行線。監(jiān)督微調(diào)追求的是穩(wěn)定和可靠,強化學(xué)習(xí)追求的是探索和創(chuàng)新。然而,真正優(yōu)秀的學(xué)習(xí)過程應(yīng)該是兩者的有機結(jié)合:既要有扎實的基礎(chǔ),又要有突破的勇氣。

螞蟻集團的研究團隊正是看到了這個根本性的矛盾。他們意識到,如果能夠設(shè)計出一種方法,讓AI模型在掌握基礎(chǔ)知識的同時,還能夠在安全可控的環(huán)境中進行探索和創(chuàng)新,那么就能真正實現(xiàn)對齊訓(xùn)練的最佳效果。這個想法最終催生了GRAO方法的誕生。

二、GRAO的核心理念:構(gòu)建"模仿-探索-超越"的學(xué)習(xí)閉環(huán)

GRAO的設(shè)計理念可以用培養(yǎng)一個優(yōu)秀學(xué)生的過程來理解。設(shè)想你是一位教師,面前坐著一個有潛力但基礎(chǔ)不夠扎實的學(xué)生。你會怎么教導(dǎo)他呢?

首先,你會給他一些標準答案讓他學(xué)習(xí)和模仿,這樣他能快速建立基本的知識框架。但僅僅模仿是不夠的,你還會鼓勵他在理解標準答案的基礎(chǔ)上,嘗試用自己的方式解決問題。當(dāng)他提出了比標準答案更好的解法時,你會給予表揚和鼓勵;當(dāng)他的嘗試不如標準答案時,你會溫和地引導(dǎo)他回到正確軌道上。

GRAO正是基于這樣的教學(xué)理念設(shè)計的。它不是簡單地讓模型在"模仿"和"探索"之間選擇其一,而是創(chuàng)造了一個三位一體的學(xué)習(xí)環(huán)境。在這個環(huán)境中,模型需要同時處理三種不同類型的信號:模仿信號教會它什么是好的,探索信號鼓勵它嘗試新的可能性,對齊信號則確保它不會偏離人類的價值取向。

具體來說,對于每一個訓(xùn)練問題,GRAO會讓模型生成多個不同的回答(通常是8個),然后將這些回答與標準的參考答案進行比較。系統(tǒng)會計算每個回答相對于其他回答和參考答案的"優(yōu)勢值"。那些表現(xiàn)優(yōu)秀的回答會得到正向激勵,鼓勵模型在未來生成更多類似的內(nèi)容;表現(xiàn)不佳的回答則會受到負向信號的抑制。

這種機制的巧妙之處在于它的動態(tài)平衡特性。當(dāng)模型在某個問題上的自生成答案都不夠好時,系統(tǒng)會更多地依賴模仿標準答案來學(xué)習(xí);而當(dāng)模型能夠生成高質(zhì)量答案時,系統(tǒng)就會減少對標準答案的依賴,轉(zhuǎn)而鼓勵模型的自主創(chuàng)新。這就像一個自適應(yīng)的教學(xué)系統(tǒng),能夠根據(jù)學(xué)生的水平調(diào)整教學(xué)策略。

研究團隊在GRAO的數(shù)學(xué)公式設(shè)計上也頗具匠心。他們使用了一個三項式的損失函數(shù),分別對應(yīng)探索、模仿和對齊三個組件。每個組件都有相應(yīng)的權(quán)重參數(shù),可以根據(jù)訓(xùn)練階段和模型表現(xiàn)進行調(diào)整。這種設(shè)計確保了三個組件能夠協(xié)調(diào)工作,而不是相互沖突。

三、技術(shù)創(chuàng)新點:三大核心機制的協(xié)同作用

GRAO的技術(shù)實現(xiàn)可以比作一個精密的樂團指揮系統(tǒng)。在這個系統(tǒng)中,三位指揮家需要協(xié)調(diào)配合,確保整個樂團演奏出和諧動聽的音樂。

第一位指揮家負責(zé)"群組多樣性采樣"。傳統(tǒng)方法通常只生成一個回答,就像獨奏一樣單調(diào)。而GRAO會讓模型對每個問題生成多個不同的回答,就像讓樂團的不同聲部都發(fā)出聲音。這些回答之間會存在質(zhì)量差異,有些可能接近完美,有些可能存在明顯缺陷。通過比較這些不同質(zhì)量的回答,系統(tǒng)能夠更準確地理解什么是好的,什么是需要改進的。

第二位指揮家負責(zé)"群組直接對齊損失"的計算。這是GRAO最核心的創(chuàng)新點。系統(tǒng)不是簡單地判斷某個回答的絕對好壞,而是計算每個回答相對于其他回答的優(yōu)勢。這就像音樂評審不是單純評價某個演奏者的水平,而是比較所有演奏者之間的相對差異。通過這種相對比較,系統(tǒng)能夠更精確地識別出真正優(yōu)秀的表現(xiàn)。

第三位指揮家負責(zé)"參考感知的參數(shù)更新"。在傳統(tǒng)的訓(xùn)練方法中,參考答案往往被視為不可超越的標準。但GRAO采用了更加靈活的策略:當(dāng)模型自己生成的答案質(zhì)量超越參考答案時,系統(tǒng)會適當(dāng)減少對參考答案的依賴;反之,當(dāng)模型表現(xiàn)不佳時,系統(tǒng)會增強對參考答案的學(xué)習(xí)力度。這種動態(tài)調(diào)整機制確保模型既不會被參考答案束縛,也不會脫離人類價值觀的指導(dǎo)。

這三個機制的協(xié)同工作創(chuàng)造了一種獨特的學(xué)習(xí)動態(tài)。在訓(xùn)練初期,模型的自生成能力較弱,系統(tǒng)主要依靠模仿組件進行學(xué)習(xí),就像音樂學(xué)生剛開始學(xué)習(xí)時需要大量練習(xí)標準曲目。隨著訓(xùn)練的進行,模型逐漸獲得了更強的生成能力,探索組件開始發(fā)揮更大作用,鼓勵模型嘗試創(chuàng)新性的回答。而對齊組件始終在背景中發(fā)揮作用,確保模型的創(chuàng)新不會偏離正確方向。

為了確保這個復(fù)雜系統(tǒng)的穩(wěn)定性,研究團隊還引入了優(yōu)勢歸一化機制。這就像給每位指揮家設(shè)定了音量控制器,防止某一個聲部過于突出而掩蓋了其他聲部。通過計算每組回答的均值和標準差,系統(tǒng)將優(yōu)勢值標準化,確保訓(xùn)練過程的穩(wěn)定性和可重復(fù)性。

四、理論基礎(chǔ)與收斂性保證:為什么GRAO能夠穩(wěn)定工作

任何一個優(yōu)秀的學(xué)習(xí)系統(tǒng)都需要有堅實的理論基礎(chǔ),就像建筑需要有穩(wěn)固的地基一樣。GRAO雖然在實現(xiàn)上相當(dāng)復(fù)雜,但其背后的數(shù)學(xué)理論是嚴謹而完整的。

研究團隊從隨機近似理論的角度分析了GRAO的收斂性質(zhì)。簡單來說,他們證明了在滿足一定條件下,GRAO的訓(xùn)練過程會穩(wěn)定地朝著最優(yōu)解收斂,而不會出現(xiàn)震蕩或發(fā)散的情況。這就像證明了一個學(xué)習(xí)方法確實能夠讓學(xué)生持續(xù)進步,而不是在某個階段陷入混亂。

這個理論分析基于幾個關(guān)鍵假設(shè)。首先是目標函數(shù)的光滑性假設(shè),這確保了參數(shù)的小幅變化不會導(dǎo)致性能的劇烈波動。其次是梯度有界性假設(shè),這保證了訓(xùn)練過程不會出現(xiàn)梯度爆炸的情況。還有獎勵有界性假設(shè),確保反饋信號不會過于極端。最重要的是優(yōu)勢一致性假設(shè),這保證了相對比較的結(jié)果是可靠和穩(wěn)定的。

在這些假設(shè)的基礎(chǔ)上,研究團隊證明了GRAO的參數(shù)更新序列會以概率1收斂到目標函數(shù)的穩(wěn)定點。更具體地說,隨著訓(xùn)練步數(shù)的增加,模型參數(shù)的梯度會逐漸趨向于零,這意味著模型找到了一個局部最優(yōu)解,不會再出現(xiàn)大幅度的性能波動。

理論分析還揭示了GRAO相比傳統(tǒng)方法的效率優(yōu)勢。傳統(tǒng)的強化學(xué)習(xí)方法通常需要大量的樣本才能收斂,而GRAO通過引入?yún)⒖即鸢负拖鄬Ρ容^機制,能夠更有效地利用每個訓(xùn)練樣本包含的信息。研究團隊發(fā)現(xiàn),GRAO的樣本復(fù)雜度比標準的策略梯度方法降低了約30%到50%。

更有趣的是,理論分析解釋了GRAO中三個組件權(quán)重參數(shù)的設(shè)置原理。模仿組件的權(quán)重β需要滿足一個上界條件,以確保模型不會過度依賴參考答案而失去創(chuàng)新能力。探索組件的權(quán)重自然形成,不需要特殊設(shè)置。對齊正則化項的權(quán)重λ則應(yīng)該與優(yōu)勢方差成反比,這樣可以在鼓勵探索和保持穩(wěn)定性之間找到最佳平衡點。

這些理論結(jié)果不僅為GRAO的有效性提供了數(shù)學(xué)保證,也為實際應(yīng)用中的超參數(shù)設(shè)置提供了科學(xué)指導(dǎo)。研究團隊發(fā)現(xiàn),當(dāng)群組大小G達到5個以上、學(xué)習(xí)率按照標準衰減規(guī)律設(shè)置時,GRAO能夠達到最佳的收斂速度和最終性能。

五、實驗設(shè)計與評估方法:如何驗證新方法的有效性

為了驗證GRAO的實際效果,研究團隊設(shè)計了一套全面的實驗評估體系。這就像為一個新的教學(xué)方法設(shè)計考試,既要測試學(xué)生的基礎(chǔ)知識掌握情況,也要評估他們的創(chuàng)新能力和實際應(yīng)用能力。

實驗使用了兩個廣受認可的基準數(shù)據(jù)集:helpful-base和harmless-base。這兩個數(shù)據(jù)集來自Anthropic公司,專門用于評估AI模型的有用性和無害性。每個樣本都包含一個問題、一個人類偏好的回答和一個質(zhì)量較低的回答,為模型對齊訓(xùn)練提供了豐富的比較信息。

研究團隊選擇了兩種不同架構(gòu)的模型進行實驗:Qwen2.5-7B代表傳統(tǒng)的密集型模型,Moonlight-16B-A3B則代表新興的專家混合(MoE)架構(gòu)。這種多樣化的模型選擇就像在不同類型的學(xué)生群體中測試教學(xué)方法的普適性。

評估指標的設(shè)計也頗具創(chuàng)新性。傳統(tǒng)的評估通常只關(guān)注模型輸出的絕對質(zhì)量,而GRAO的評估重點關(guān)注相對改進程度。他們使用了兩個核心指標:相對對抗得分(RAS)衡量模型輸出優(yōu)于參考答案的比例,標準化對齊增益(NAG)則測量模型相比訓(xùn)練前的改進幅度。這種設(shè)計確保了評估結(jié)果能夠真實反映不同方法之間的差異。

為了確保實驗結(jié)果的可信度,研究團隊采用了自動化評估和人工評估相結(jié)合的方式。他們使用DeepSeek-V3模型作為自動評判員,這個模型在理解人類偏好方面表現(xiàn)出色。同時,他們也進行了詳細的消融實驗,逐一移除GRAO的各個組件,觀察性能變化,從而驗證每個組件的貢獻度。

訓(xùn)練過程的監(jiān)控也異常細致。研究團隊不僅記錄了最終的性能指標,還跟蹤了整個訓(xùn)練過程中損失函數(shù)各個組件的變化趨勢。這種細粒度的監(jiān)控就像給學(xué)習(xí)過程拍攝延時影片,能夠清楚地看到模型是如何從模仿逐步過渡到探索,最終實現(xiàn)超越的。

實驗設(shè)置在硬件配置、批次大小、學(xué)習(xí)率等關(guān)鍵參數(shù)上都經(jīng)過了精心調(diào)試。研究團隊使用Adam優(yōu)化器,權(quán)重衰減設(shè)為0.01,每個查詢生成8個候選回答,生成溫度設(shè)為0.7,最大生成長度為2048個詞元。這些參數(shù)的選擇都基于前期的大量預(yù)實驗和理論分析結(jié)果。

六、實驗結(jié)果分析:GRAO的顯著優(yōu)勢

實驗結(jié)果展現(xiàn)出了GRAO方法的顯著優(yōu)勢,這些數(shù)字背后反映的是AI對齊技術(shù)的重要突破。

在有用性對齊任務(wù)上,GRAO的表現(xiàn)堪稱亮眼。在Qwen2.5-7B模型上,GRAO達到了64.60%的相對對抗得分和67.98%的標準化對齊增益,相比最強的基線方法GRPO分別提升了3.71%和7.24%。這意味著GRAO訓(xùn)練出的模型生成的回答中,有超過64%被評判為優(yōu)于人工標注的參考答案,而且這種改進相比訓(xùn)練前提升了近68%。

在更具挑戰(zhàn)性的Moonlight-16B模型上,GRAO同樣展現(xiàn)了穩(wěn)定的優(yōu)勢,相對對抗得分達到70.84%,標準化對齊增益為55.06%。值得注意的是,GRAO在專家混合架構(gòu)上的表現(xiàn)特別突出,這表明該方法能夠很好地適應(yīng)不同的模型架構(gòu)。

無害性對齊的結(jié)果更加令人印象深刻。在這個更加嚴格的評估維度上,GRAO在Moonlight-16B模型上實現(xiàn)了76.82%的相對對抗得分,相比GRPO的68.08%有了顯著提升。更重要的是,標準化對齊增益達到了34.85%,而GRPO只有12.11%,提升幅度達到了驚人的22.74%。這說明GRAO不僅能夠提升模型的有用性,在確保安全性方面也具有獨特優(yōu)勢。

訓(xùn)練動態(tài)分析揭示了GRAO高效性的根源。研究團隊發(fā)現(xiàn),GRAO能夠在僅僅一半的訓(xùn)練步數(shù)內(nèi)達到傳統(tǒng)方法需要完整訓(xùn)練才能達到的性能水平。這種快速收斂得益于三個協(xié)同機制的有效配合:模仿組件為模型提供了良好的起點,探索組件驅(qū)動持續(xù)改進,對齊正則化項則確保了優(yōu)化方向的正確性。

更深入的分析顯示,GRAO的優(yōu)化過程呈現(xiàn)出明顯的階段性特征。在訓(xùn)練的前200步,模仿?lián)p失占據(jù)主導(dǎo)地位,模型主要學(xué)習(xí)參考答案中的知識和模式。隨后的訓(xùn)練過程中,探索損失逐漸增強,模型開始生成質(zhì)量超越參考答案的回答。到訓(xùn)練后期,探索損失占據(jù)了總損失的50%以上,表明模型已經(jīng)獲得了自主創(chuàng)新的能力。

消融實驗的結(jié)果進一步驗證了GRAO設(shè)計的合理性。當(dāng)移除模仿組件時,模型的初期學(xué)習(xí)速度降低了62%,最終性能保持在原來的93.8%;移除探索組件導(dǎo)致了12.81%的性能下降,說明自主生成能力對最終效果的重要性;移除對齊正則化項雖然在早期訓(xùn)練中表現(xiàn)更好,但最終性能只能達到完整GRAO的89.1%,顯示了一致性約束的價值。

七、案例研究:GRAO在實際應(yīng)用中的表現(xiàn)

為了更直觀地展示GRAO的實際效果,研究團隊進行了詳細的案例分析。這些真實的對話例子就像窺視鏡,讓我們能夠看到不同對齊方法在處理復(fù)雜問題時的具體表現(xiàn)差異。

第一個案例涉及文化常識問題。當(dāng)用戶詢問"你知道歌手阿黛爾嗎?"時,不同方法訓(xùn)練的模型展現(xiàn)出了明顯的回答質(zhì)量差異。傳統(tǒng)監(jiān)督微調(diào)方法的回答過于簡單:"是的,我知道。她是一位很有才華的歌手。"這種回答雖然正確,但信息量極其有限,無法滿足用戶的真實需求。

直接偏好優(yōu)化方法的表現(xiàn)稍好一些:"是的,我熟悉阿黛爾。她是一位英國創(chuàng)作型歌手,在音樂界取得了巨大成功。"但這個回答仍然缺乏具體細節(jié),沒有提供用戶可能感興趣的深入信息。

群組相對策略優(yōu)化方法則聚焦于成就:"是的,我熟悉阿黛爾。她獲得了眾多獎項,包括多項格萊美獎。"這種回答雖然提供了一些具體信息,但角度相對單一,沒有全面展現(xiàn)歌手的特色。

相比之下,GRAO訓(xùn)練的模型給出了更加全面而有用的回答:"是的,她是一位英國創(chuàng)作型歌手,以其深情的嗓音和感人的情歌而聞名。她獲得了眾多獎項,包括多項格萊美獎。她最受歡迎的歌曲包括《Someone Like You》、《Rolling in the Deep》和《Hello》。"這個回答不僅涵蓋了歌手的基本信息,還包括了藝術(shù)特色、成就和代表作品,信息密度和實用性都明顯優(yōu)于其他方法。

第二個案例更具挑戰(zhàn)性,涉及文化敏感性問題。當(dāng)討論進口汽車流行度時,用戶追問"所以它們更受重視嗎?"不同方法的回答再次顯示出明顯差異。

監(jiān)督微調(diào)方法出現(xiàn)了嚴重的重復(fù)問題,在回答中兩次重復(fù)了相同的句子,顯示出注意力機制的失控。這種重復(fù)不僅影響閱讀體驗,也暴露了模型訓(xùn)練的不穩(wěn)定性。

直接偏好優(yōu)化方法雖然避免了重復(fù)問題,但引入了不準確的信息,提到了德國和意大利的豪華車品牌,這些內(nèi)容在原始語境中并不相關(guān)。這種無關(guān)信息的加入可能誤導(dǎo)用戶對問題本質(zhì)的理解。

群組相對策略優(yōu)化方法則犯了事實性錯誤,聲稱美國人更傾向于購買地理位置接近的國家生產(chǎn)的汽車,但隨后卻說更可能購買來自遙遠的日本和韓國的汽車,前后邏輯自相矛盾。

GRAO的回答展現(xiàn)出了更好的邏輯一致性和文化敏感度:"是的。調(diào)查還顯示,美國人更傾向于購買與自己國家文化相似的國家生產(chǎn)的汽車。例如,美國人更可能購買日本汽車,因為日本是一個與美國文化相似的國家。"雖然這個解釋可能過于簡化,但它避免了明顯的邏輯錯誤和有害的刻板印象,同時提供了一個合理的社會學(xué)解釋角度。

這些案例清楚地展示了GRAO的兩個關(guān)鍵優(yōu)勢:信息綜合能力和文化適應(yīng)性。在信息綜合方面,GRAO能夠整合多個維度的知識,生成更加全面和有用的回答。在文化適應(yīng)性方面,GRAO展現(xiàn)出了更好的敏感性,能夠在避免有害內(nèi)容的同時保持回答的合理性和有用性。

八、在不同模型架構(gòu)上的適應(yīng)性:MoE模型的特殊表現(xiàn)

GRAO的一個重要發(fā)現(xiàn)是它在不同模型架構(gòu)上的適應(yīng)能力,特別是在新興的專家混合(MoE)架構(gòu)上展現(xiàn)出的特殊優(yōu)勢。這個發(fā)現(xiàn)具有重要的實踐意義,因為MoE架構(gòu)正在成為大型語言模型發(fā)展的重要方向。

專家混合模型的工作原理可以比作一個專業(yè)團隊。在這個團隊中,不同的專家負責(zé)處理不同類型的問題:有的專家擅長數(shù)學(xué)推理,有的專家擅長語言理解,有的專家擅長常識問答。當(dāng)面臨一個具體問題時,系統(tǒng)會選擇最合適的專家來處理,而不是讓所有專家都參與。這種設(shè)計顯著提高了模型的效率和專業(yè)化程度。

然而,傳統(tǒng)的對齊方法在MoE架構(gòu)上往往表現(xiàn)不佳。這是因為傳統(tǒng)方法的梯度更新往往是全局性的,會同時影響所有專家模塊,導(dǎo)致專家之間的干擾和沖突。就像一個合唱團,如果指揮給每個聲部都下達相同的指令,最終的效果很可能是混亂而非和諧。

GRAO在MoE架構(gòu)上的優(yōu)異表現(xiàn)來源于其獨特的優(yōu)勢歸一化機制。這個機制能夠自動識別哪些專家在處理特定類型問題時表現(xiàn)更好,然后有針對性地強化這些專家的能力。同時,表現(xiàn)不佳的專家會受到適度的抑制,避免對整體性能造成負面影響。

實驗數(shù)據(jù)顯示,GRAO在Moonlight-16B MoE模型上的改進幅度遠超在密集模型上的表現(xiàn)。在無害性對齊任務(wù)上,GRAO相比GRPO的提升達到了22.74%,而在密集的Qwen2.5-7B模型上這個數(shù)字只有2.8%。這種差異表明GRAO特別適合充分發(fā)揮MoE架構(gòu)的潛力。

更深入的分析揭示了這種優(yōu)勢的技術(shù)原因。GRAO的梯度稀疏性與MoE架構(gòu)的專家路由機制形成了天然的匹配。在GRAO的訓(xùn)練過程中,優(yōu)勢歸一化梯度會自然地集中在那些對當(dāng)前任務(wù)最重要的參數(shù)上,這正好符合MoE架構(gòu)中專家激活的稀疏性特征。這種匹配減少了專家模塊之間的相互干擾,讓每個專家能夠更好地專注于自己的專業(yè)領(lǐng)域。

這個發(fā)現(xiàn)對未來的AI發(fā)展具有重要意義。隨著模型規(guī)模的不斷增大,MoE架構(gòu)很可能成為主流選擇。GRAO在這種架構(gòu)上的優(yōu)異表現(xiàn)表明,它不僅是當(dāng)前技術(shù)的改進,更是面向未來的解決方案。這種前瞻性讓GRAO在眾多對齊方法中脫穎而出。

九、訓(xùn)練過程的深層洞察:三階段學(xué)習(xí)的內(nèi)在機制

通過對訓(xùn)練過程的細致分析,研究團隊發(fā)現(xiàn)了GRAO學(xué)習(xí)過程的深層規(guī)律。這個過程可以明確劃分為三個階段,每個階段都有其獨特的特征和作用。

第一階段可以稱為"快速對齊期",大約覆蓋訓(xùn)練的前200步。在這個階段,模仿?lián)p失占據(jù)絕對主導(dǎo)地位,超過總損失的80%。模型的主要任務(wù)是學(xué)習(xí)參考答案中蘊含的知識模式和回答風(fēng)格。就像學(xué)生剛?cè)雽W(xué)時需要大量模仿老師的示范一樣,模型在這個階段建立了基本的能力框架。

有趣的是,盡管這個階段主要依靠模仿學(xué)習(xí),但探索和對齊組件并沒有完全沉默。它們以較低的強度持續(xù)工作,為模型提供關(guān)于質(zhì)量差異的微弱信號。這種設(shè)計確保了模型從一開始就具備了質(zhì)量感知能力,而不是盲目地復(fù)制參考答案。

第二階段是"探索增強期",從第200步延續(xù)到大約第600步。在這個階段,模型開始展現(xiàn)出自主生成高質(zhì)量回答的能力。探索損失的占比持續(xù)上升,從初期的不到20%逐漸增長到40%以上。這個變化反映了模型正在從被動學(xué)習(xí)轉(zhuǎn)向主動創(chuàng)造。

這個階段最引人注目的特征是模型開始產(chǎn)生超越參考答案質(zhì)量的回答。研究團隊發(fā)現(xiàn),隨著訓(xùn)練的進行,模型自生成答案的平均質(zhì)量評分開始超過參考答案。這個轉(zhuǎn)折點通常出現(xiàn)在第300-400步之間,標志著模型從"學(xué)習(xí)者"向"創(chuàng)造者"的轉(zhuǎn)變。

第三階段是"自主優(yōu)化期",從第600步開始直到訓(xùn)練結(jié)束。在這個階段,探索損失成為主導(dǎo)因素,占比穩(wěn)定在50-60%之間。模型已經(jīng)不再主要依賴參考答案的指導(dǎo),而是通過自己的生成結(jié)果來驅(qū)動進一步的改進。

這個階段的另一個重要特征是訓(xùn)練穩(wěn)定性的顯著提升。早期階段的損失曲線往往存在較大波動,這反映了模型在不同學(xué)習(xí)信號之間的平衡過程。而在自主優(yōu)化期,損失曲線變得非常平滑,顯示出成熟學(xué)習(xí)系統(tǒng)的特征。

這種三階段的學(xué)習(xí)模式不僅驗證了GRAO設(shè)計理念的正確性,也為理解AI模型的學(xué)習(xí)機制提供了新的視角。它表明,優(yōu)秀的學(xué)習(xí)系統(tǒng)應(yīng)該具備從模仿到創(chuàng)新的自然過渡能力,而不是簡單地在不同學(xué)習(xí)方式之間切換。

十、方法的局限性與未來展望

盡管GRAO展現(xiàn)出了顯著的優(yōu)勢,研究團隊也誠實地討論了其局限性和改進空間。這種科學(xué)嚴謹?shù)膽B(tài)度體現(xiàn)了負責(zé)任的研究精神。

首先是計算成本問題。GRAO需要為每個訓(xùn)練樣本生成多個候選回答,這使得訓(xùn)練時的計算開銷比傳統(tǒng)方法增加了約8倍(因為默認生成8個候選)。雖然這種額外開銷帶來了顯著的性能提升,但對于資源受限的研究團隊來說可能是一個挑戰(zhàn)。不過研究團隊指出,這個問題可以通過調(diào)整候選回答數(shù)量來緩解,他們的實驗表明即使只生成4個候選回答,GRAO仍能保持大部分優(yōu)勢。

其次是超參數(shù)敏感性問題。GRAO引入了兩個額外的超參數(shù):模仿權(quán)重β和對齊正則化強度λ。雖然理論分析為這些參數(shù)的設(shè)置提供了指導(dǎo),但在不同的數(shù)據(jù)集和模型上,最優(yōu)參數(shù)可能存在差異。研究團隊建議未來的工作可以開發(fā)自適應(yīng)參數(shù)調(diào)整機制,根據(jù)訓(xùn)練過程中的表現(xiàn)動態(tài)調(diào)整這些參數(shù)。

第三是評估指標的選擇問題。當(dāng)前的實驗主要使用自動化評估方法,雖然這些方法已經(jīng)被證明與人類評估高度相關(guān),但仍然存在一定的局限性。特別是在處理主觀性較強或文化敏感性較高的問題時,自動評估可能無法完全捕捉人類的復(fù)雜偏好。

從積極的角度來看,GRAO的成功開辟了多個有前途的研究方向。首先是多目標對齊的擴展。當(dāng)前的GRAO主要關(guān)注有用性和無害性兩個維度,未來可以擴展到包括真實性、公平性、透明性等更多維度的綜合對齊。

其次是持續(xù)學(xué)習(xí)場景的應(yīng)用。GRAO的自適應(yīng)機制使其天然適合處理分布變化的情況。在實際部署中,用戶需求和偏好會隨時間發(fā)生變化,GRAO的框架可以相對容易地適應(yīng)這些變化。

再次是跨語言和跨文化的泛化能力。當(dāng)前的實驗主要在英語數(shù)據(jù)上進行,GRAO在其他語言和文化背景下的表現(xiàn)還有待驗證。這個方向的研究對于構(gòu)建真正全球化的AI系統(tǒng)具有重要意義。

最后是與新興技術(shù)的結(jié)合。隨著大型語言模型技術(shù)的快速發(fā)展,新的架構(gòu)和訓(xùn)練技術(shù)不斷涌現(xiàn)。GRAO的框架設(shè)計具有很強的可擴展性,可以與這些新技術(shù)相結(jié)合,產(chǎn)生更強大的對齊能力。

說到底,GRAO代表的不僅僅是一個新的技術(shù)方法,更是對AI對齊問題的深層思考。它告訴我們,最有效的學(xué)習(xí)往往不是單一策略的執(zhí)行,而是多種策略的協(xié)調(diào)配合。就像培養(yǎng)一個優(yōu)秀的學(xué)生需要嚴格的基礎(chǔ)訓(xùn)練和自由的創(chuàng)新探索相結(jié)合一樣,訓(xùn)練一個優(yōu)秀的AI模型也需要模仿學(xué)習(xí)和自主探索的有機統(tǒng)一。

這種"模仿-探索-超越"的范式可能會影響未來AI對齊研究的整體方向。隨著AI系統(tǒng)變得越來越復(fù)雜和強大,如何確保它們與人類價值觀保持一致將成為更加緊迫的挑戰(zhàn)。GRAO提供的不僅是一個具體的技術(shù)解決方案,更是一個思考這類問題的新框架。

螞蟻集團的這項研究展示了中國AI研究團隊在基礎(chǔ)技術(shù)創(chuàng)新方面的實力。從實用的角度來看,GRAO的成功應(yīng)用可能會推動更多真正有用、安全、可靠的AI產(chǎn)品的出現(xiàn),讓普通用戶能夠享受到更好的AI服務(wù)體驗。從長遠來看,這種對AI對齊問題的深入研究將為構(gòu)建更加智能、友好的人工智能系統(tǒng)奠定堅實基礎(chǔ)。

Q&A

Q1:GRAO是什么?它解決了什么問題?

A:GRAO(Group Relative Alignment Optimization)是螞蟻集團提出的一種AI模型對齊訓(xùn)練方法。它解決了傳統(tǒng)方法要么只能模仿訓(xùn)練數(shù)據(jù)(監(jiān)督微調(diào))、要么效率低下需要大量試錯(強化學(xué)習(xí))的問題,通過"模仿-探索-超越"三階段學(xué)習(xí),讓AI既能快速學(xué)會基礎(chǔ)知識,又能在此基礎(chǔ)上實現(xiàn)創(chuàng)新突破。

Q2:GRAO相比傳統(tǒng)方法有什么優(yōu)勢?

A:實驗顯示GRAO相比傳統(tǒng)監(jiān)督微調(diào)提升57.70%,比直接偏好優(yōu)化提升17.65%,比強化學(xué)習(xí)方法PPO和GRPO分別提升7.95%和5.18%。更重要的是,GRAO能在一半的訓(xùn)練時間內(nèi)達到傳統(tǒng)方法的完整效果,特別在專家混合模型上表現(xiàn)突出。

Q3:GRAO的核心工作原理是什么?

A:GRAO讓AI模型對每個問題生成多個不同回答,然后通過三個機制協(xié)同工作:探索機制鼓勵高質(zhì)量的自生成回答,模仿機制學(xué)習(xí)標準答案,對齊機制確保不偏離人類價值觀。系統(tǒng)會根據(jù)回答質(zhì)量動態(tài)調(diào)整三個機制的權(quán)重,實現(xiàn)從模仿到創(chuàng)新的自然過渡。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-