av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 上海交通大學(xué)團(tuán)隊(duì)發(fā)明AI"分配公平"新算法:讓機(jī)器推理像人類思考一樣多樣化

上海交通大學(xué)團(tuán)隊(duì)發(fā)明AI"分配公平"新算法:讓機(jī)器推理像人類思考一樣多樣化

2025-10-11 09:50
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-11 09:50 ? 科技行者

這項(xiàng)由上海交通大學(xué)朱學(xué)凱領(lǐng)銜的研究于2025年9月發(fā)表在arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2509.15207v2),研究團(tuán)隊(duì)集結(jié)了來自上海交通大學(xué)、清華大學(xué)、微軟研究院、斯坦福大學(xué)等多個(gè)頂尖機(jī)構(gòu)的學(xué)者。該研究提出了名為FlowRL的全新訓(xùn)練方法,徹底改變了大語言模型在數(shù)學(xué)和編程推理方面的學(xué)習(xí)方式。

要理解這項(xiàng)研究的重要性,我們可以把當(dāng)前的AI訓(xùn)練想象成一個(gè)偏心的老師。傳統(tǒng)的訓(xùn)練方法就像這樣一位老師,總是只表揚(yáng)班里考試分?jǐn)?shù)最高的那個(gè)學(xué)生,結(jié)果所有學(xué)生都開始模仿這個(gè)"學(xué)霸"的解題方法??雌饋頉]什么問題,但實(shí)際上這樣培養(yǎng)出來的學(xué)生思維方式單一,遇到新題型就容易卡殼。而FlowRL就像一位更智慧的老師,不僅關(guān)注高分學(xué)生,還會(huì)發(fā)現(xiàn)并鼓勵(lì)各種不同但同樣有效的解題思路,讓整個(gè)班級(jí)的思維更加多元化。

這種"分配公平"的訓(xùn)練方式帶來了顯著效果。在數(shù)學(xué)推理任務(wù)中,F(xiàn)lowRL相比現(xiàn)有最好的方法平均提升了10%的準(zhǔn)確率。在編程任務(wù)中,使用FlowRL訓(xùn)練的模型在CodeForces競(jìng)賽平臺(tái)上的評(píng)分達(dá)到1549分,排在前83.3%的位置。更重要的是,研究團(tuán)隊(duì)發(fā)現(xiàn),這種新方法訓(xùn)練出的AI模型生成的解題方案多樣性比傳統(tǒng)方法高出近一倍。

**一、傳統(tǒng)AI訓(xùn)練的"偏科"問題**

目前主流的AI訓(xùn)練方法都有一個(gè)共同特點(diǎn):獎(jiǎng)勵(lì)最大化。用最簡(jiǎn)單的話來說,就是AI在學(xué)習(xí)過程中總是試圖找到能獲得最高分?jǐn)?shù)的那種解題方法,然后拼命練習(xí)這種方法,直到爐火純青。這就像一個(gè)學(xué)生發(fā)現(xiàn)老師特別喜歡某種解題格式,于是所有題目都用這種格式來答,結(jié)果確實(shí)經(jīng)常得高分。

這種訓(xùn)練策略在短期內(nèi)看起來很有效,AI確實(shí)能在特定類型的問題上表現(xiàn)出色。但問題是,當(dāng)遇到稍微不同的題目時(shí),AI就顯得手足無措了。研究團(tuán)隊(duì)通過一個(gè)具體的數(shù)學(xué)題目展示了這個(gè)問題。在解決一道關(guān)于立體幾何的競(jìng)賽題時(shí),傳統(tǒng)方法訓(xùn)練的AI會(huì)反復(fù)使用算術(shù)-幾何均值不等式這一種技術(shù),即使這種方法不適合,它也會(huì)執(zhí)行三次同樣的操作,最后還會(huì)陷入邏輯循環(huán),得出矛盾的結(jié)論。

更糟糕的是,這種訓(xùn)練方式容易導(dǎo)致"模式坍塌"現(xiàn)象。用烹飪來比喻,就像一個(gè)廚師發(fā)現(xiàn)紅燒肉特別受歡迎,于是菜單上全是紅燒肉的各種變種,完全忽視了其他同樣美味的菜式。AI也是如此,它會(huì)過度專注于某幾種"高分"的解題策略,而忽略了其他同樣有效但可能不那么"顯眼"的方法。

這種問題在長篇推理任務(wù)中尤其明顯。當(dāng)AI需要進(jìn)行復(fù)雜的數(shù)學(xué)證明或編寫長段代碼時(shí),單一的思維模式往往無法應(yīng)對(duì)各種意外情況。就像攀登一座復(fù)雜的山峰,如果只會(huì)一種攀爬技巧,遇到不同地形時(shí)就會(huì)進(jìn)退兩難。

**二、FlowRL:讓AI學(xué)會(huì)"兼容并包"**

FlowRL的核心思想可以用一個(gè)水流分配系統(tǒng)來理解。傳統(tǒng)方法就像把所有水流都導(dǎo)向一個(gè)出口,而FlowRL則像一個(gè)智能的分水閘系統(tǒng),能夠根據(jù)不同路徑的價(jià)值合理分配水流。

在技術(shù)層面,F(xiàn)lowRL做了一個(gè)根本性的改變:從"獎(jiǎng)勵(lì)最大化"轉(zhuǎn)向"分布匹配"。用更通俗的話說,傳統(tǒng)方法是讓AI拼命追求單一的"完美答案",而FlowRL是讓AI學(xué)會(huì)欣賞和掌握多種"好答案"的分布規(guī)律。

這個(gè)轉(zhuǎn)變的關(guān)鍵在于引入了一個(gè)叫做"配分函數(shù)"的數(shù)學(xué)工具。如果把解題過程比作烹飪,那么配分函數(shù)就像一個(gè)智能的口味調(diào)節(jié)器,它能夠評(píng)估各種不同菜品的受歡迎程度,然后指導(dǎo)廚師不要只做一種菜,而是根據(jù)每種菜的受歡迎程度來安排菜單比例。

FlowRL還借鑒了生成流網(wǎng)絡(luò)(GFlowNets)的思想。這種網(wǎng)絡(luò)就像城市的交通管理系統(tǒng),不是簡(jiǎn)單地讓所有車輛都走最短路徑(那樣會(huì)造成擁堵),而是通過智能調(diào)度,讓車流在各條道路上保持平衡,既提高了整體效率,又避免了某些路線的過度擁擠。

在實(shí)際訓(xùn)練過程中,F(xiàn)lowRL通過最小化一種叫做"反向KL散度"的數(shù)學(xué)量來實(shí)現(xiàn)這種平衡。不用被這個(gè)專業(yè)術(shù)語嚇到,它的作用就像一個(gè)公平的裁判,確保AI不會(huì)偏向某種特定的解題方法,而是按照每種方法的實(shí)際效果來分配學(xué)習(xí)精力。

**三、技術(shù)挑戰(zhàn)與巧妙解決方案**

在開發(fā)FlowRL的過程中,研究團(tuán)隊(duì)遇到了兩個(gè)主要挑戰(zhàn),就像建造一座橋梁時(shí)遇到的工程難題。

第一個(gè)挑戰(zhàn)是"梯度爆炸"問題。當(dāng)AI處理很長的推理鏈條時(shí)(比如包含8000個(gè)詞的復(fù)雜數(shù)學(xué)證明),傳統(tǒng)的訓(xùn)練方法會(huì)導(dǎo)致學(xué)習(xí)信號(hào)變得極不穩(wěn)定,就像一個(gè)放大器的音量突然失控,產(chǎn)生刺耳的噪音。這是因?yàn)殚L序列會(huì)讓梯度(可以理解為學(xué)習(xí)的方向指示)累積得過大,導(dǎo)致訓(xùn)練過程劇烈震蕩。

研究團(tuán)隊(duì)通過"長度歸一化"技術(shù)解決了這個(gè)問題。簡(jiǎn)單來說,就是按照推理鏈條的長度來調(diào)節(jié)學(xué)習(xí)信號(hào)的強(qiáng)度,就像根據(jù)菜品的分量來調(diào)節(jié)調(diào)料的用量一樣。這樣,無論是短小精悍的證明還是長篇大論的推導(dǎo),都能得到適當(dāng)強(qiáng)度的學(xué)習(xí)信號(hào)。

第二個(gè)挑戰(zhàn)是"采樣不匹配"問題。在實(shí)際訓(xùn)練中,為了提高效率,AI通常會(huì)重復(fù)使用之前生成的一些解題樣本,但這些樣本可能已經(jīng)不太適合當(dāng)前的學(xué)習(xí)狀態(tài)了,就像用過時(shí)的地圖導(dǎo)航一樣。

為了解決這個(gè)問題,研究團(tuán)隊(duì)引入了"重要性采樣"技術(shù),這就像給每個(gè)舊樣本配上一個(gè)"時(shí)效性權(quán)重"。如果一個(gè)樣本雖然是用舊版本AI生成的,但仍然與當(dāng)前版本的思路相近,那么它就保持較高的權(quán)重;如果差距較大,權(quán)重就會(huì)降低。這樣既能重復(fù)利用有價(jià)值的歷史數(shù)據(jù),又能避免被過時(shí)信息誤導(dǎo)。

這些技術(shù)改進(jìn)使得FlowRL能夠穩(wěn)定地處理長達(dá)8000詞的復(fù)雜推理任務(wù),這在以前是很難想象的。就像給一輛普通汽車裝上了更好的減震系統(tǒng)和導(dǎo)航設(shè)備,讓它能夠在崎嶇的山路上平穩(wěn)行駛。

**四、實(shí)驗(yàn)驗(yàn)證:數(shù)據(jù)說話**

研究團(tuán)隊(duì)在數(shù)學(xué)和編程兩個(gè)領(lǐng)域進(jìn)行了全面的實(shí)驗(yàn)驗(yàn)證,就像新藥上市前必須經(jīng)過嚴(yán)格的臨床試驗(yàn)一樣。

在數(shù)學(xué)推理方面,他們選擇了六個(gè)具有挑戰(zhàn)性的測(cè)試集,包括美國數(shù)學(xué)邀請(qǐng)賽(AIME)、美國數(shù)學(xué)競(jìng)賽(AMC)等高難度競(jìng)賽題目。這些題目對(duì)人類數(shù)學(xué)家來說都不輕松,更別說AI了。實(shí)驗(yàn)結(jié)果顯示,F(xiàn)lowRL在32B參數(shù)的模型上平均準(zhǔn)確率達(dá)到48.4%,比目前最好的GRPO方法高出10%,比PPO方法高出5.1%。

更令人印象深刻的是在特定難題上的表現(xiàn)。在MATH-500這個(gè)測(cè)試集上,F(xiàn)lowRL的準(zhǔn)確率達(dá)到80.75%,而傳統(tǒng)最好方法只有61.60%。這相當(dāng)于在100道題目中多做對(duì)19道,這在競(jìng)賽數(shù)學(xué)中是一個(gè)巨大的進(jìn)步。

在編程任務(wù)上,F(xiàn)lowRL同樣表現(xiàn)出色。在LiveCodeBench這個(gè)實(shí)時(shí)編程挑戰(zhàn)平臺(tái)上,F(xiàn)lowRL達(dá)到37.43%的通過率,在CodeForces競(jìng)賽平臺(tái)上獲得1549分的評(píng)分,位列前83.3%。要知道,CodeForces是全球程序員的競(jìng)技場(chǎng),能達(dá)到這個(gè)水平說明AI已經(jīng)具備了相當(dāng)不錯(cuò)的編程能力。

為了驗(yàn)證FlowRL確實(shí)提高了解題思路的多樣性,研究團(tuán)隊(duì)還進(jìn)行了專門的多樣性分析。他們讓GPT-4o來評(píng)估不同方法生成的解題方案的多樣性,結(jié)果顯示FlowRL的多樣性得分達(dá)到2.28,而傳統(tǒng)最好方法只有1.31,幾乎翻了一倍。這就像一個(gè)班級(jí)從只會(huì)一種解題方法變成掌握了多種不同的解題策略。

**五、深入案例:看看AI是怎么"開竅"的**

為了更直觀地展示FlowRL的效果,研究團(tuán)隊(duì)提供了一個(gè)具體的數(shù)學(xué)題解答對(duì)比。這道題目來自美國數(shù)學(xué)邀請(qǐng)賽,題目要求找到能包含所有特定立體盒子的最小球體半徑。

傳統(tǒng)的GRPO方法在解這道題時(shí)表現(xiàn)得像一個(gè)思維僵化的學(xué)生。它一遍遍地嘗試使用算術(shù)-幾何均值不等式,即使這種方法明顯不適用,還是堅(jiān)持用了三次。更糟糕的是,它還陷入了邏輯循環(huán),在相同的推理步驟間反復(fù)跳轉(zhuǎn),最終得出了自相矛盾的結(jié)論,比如同時(shí)認(rèn)為三個(gè)不同的變量相等。

相比之下,F(xiàn)lowRL訓(xùn)練的AI展現(xiàn)出了更加靈活和多樣的思維方式。它首先嘗試了對(duì)稱性假設(shè),設(shè)定兩個(gè)變量相等,然后將原本復(fù)雜的三變量問題轉(zhuǎn)化為一個(gè)更容易處理的立方方程。接著,它系統(tǒng)地尋找有理根,通過多項(xiàng)式分解找到了正確的解。整個(gè)過程邏輯清晰,步驟合理,最終得到了正確答案。

這個(gè)對(duì)比就像兩個(gè)學(xué)生面對(duì)同一道難題時(shí)的不同表現(xiàn)。一個(gè)學(xué)生死記硬背,遇到新情況就慌了手腳,只會(huì)重復(fù)已知的方法;另一個(gè)學(xué)生則能靈活變通,根據(jù)題目特點(diǎn)選擇最合適的解法,展現(xiàn)出真正的數(shù)學(xué)素養(yǎng)。

研究團(tuán)隊(duì)還發(fā)現(xiàn),F(xiàn)lowRL生成的解答不僅正確率更高,而且解題路徑更加多樣化。在同一道題目上,它可能會(huì)提供幾種完全不同但都正確的解法,就像一個(gè)經(jīng)驗(yàn)豐富的數(shù)學(xué)老師能夠從多個(gè)角度解釋同一個(gè)概念。

**六、方法對(duì)比:為什么FlowRL更勝一籌**

為了全面評(píng)估FlowRL的效果,研究團(tuán)隊(duì)將其與目前最主流的三種AI訓(xùn)練方法進(jìn)行了對(duì)比:REINFORCE++、PPO和GRPO。

REINFORCE++是最基礎(chǔ)的策略梯度方法,就像用最原始的方式訓(xùn)練運(yùn)動(dòng)員,簡(jiǎn)單直接但效果有限。PPO是目前使用最廣泛的方法之一,它通過引入價(jià)值函數(shù)來穩(wěn)定訓(xùn)練過程,就像給運(yùn)動(dòng)員配備了專業(yè)教練,能夠更穩(wěn)定地提高成績。GRPO是最新的簡(jiǎn)化版本,通過組內(nèi)比較來訓(xùn)練,省去了復(fù)雜的價(jià)值函數(shù)估計(jì),就像通過小組競(jìng)賽來激發(fā)學(xué)習(xí)動(dòng)力。

在不同的溫度參數(shù)設(shè)置下(溫度參數(shù)控制AI生成答案的隨機(jī)性),F(xiàn)lowRL都保持了顯著的優(yōu)勢(shì)。當(dāng)溫度設(shè)為0.6時(shí)(相對(duì)保守的生成策略),F(xiàn)lowRL在7B模型上達(dá)到35.39%的平均準(zhǔn)確率,明顯超過其他方法。當(dāng)溫度提高到1.0時(shí)(更加多樣化的生成策略),F(xiàn)lowRL的優(yōu)勢(shì)更加明顯,達(dá)到34.62%的準(zhǔn)確率。

這種一致性優(yōu)勢(shì)說明FlowRL不是在特定條件下的偶然表現(xiàn),而是一種根本性的改進(jìn)。就像一個(gè)優(yōu)秀的運(yùn)動(dòng)員不僅在自己擅長的項(xiàng)目上表現(xiàn)出色,在其他相關(guān)項(xiàng)目上也能保持高水平。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融研究,驗(yàn)證了每個(gè)技術(shù)組件的必要性。當(dāng)去掉重要性采樣技術(shù)時(shí),F(xiàn)lowRL的平均準(zhǔn)確率從35.63%下降到26.71%,說明這個(gè)組件對(duì)于處理訓(xùn)練數(shù)據(jù)的時(shí)效性至關(guān)重要。當(dāng)調(diào)整配分函數(shù)的參數(shù)時(shí),最優(yōu)設(shè)置β=15能夠在獎(jiǎng)勵(lì)信號(hào)和探索多樣性之間找到最佳平衡點(diǎn)。

**七、理論基礎(chǔ):為什么這樣做有效**

FlowRL的成功不是偶然的,它有深厚的理論基礎(chǔ)支撐。研究團(tuán)隊(duì)證明了一個(gè)重要的數(shù)學(xué)等價(jià)性:最小化策略分布與獎(jiǎng)勵(lì)分布之間的KL散度,在梯度層面等價(jià)于優(yōu)化軌跡平衡損失函數(shù)。

用更通俗的語言解釋,這意味著讓AI學(xué)會(huì)匹配不同解題方法的"受歡迎程度分布",實(shí)際上等同于讓AI同時(shí)追求高獎(jiǎng)勵(lì)和高多樣性。這就像一個(gè)優(yōu)秀的投資組合既要追求收益,又要分散風(fēng)險(xiǎn),兩個(gè)目標(biāo)看似矛盾,但通過合適的策略可以同時(shí)實(shí)現(xiàn)。

從信息論的角度來看,F(xiàn)lowRL實(shí)際上是在最大化一個(gè)包含獎(jiǎng)勵(lì)項(xiàng)和熵項(xiàng)的目標(biāo)函數(shù)。獎(jiǎng)勵(lì)項(xiàng)確保AI能夠找出好的解答,而熵項(xiàng)則鼓勵(lì)A(yù)I探索各種不同的解題路徑。這種組合就像培養(yǎng)一個(gè)既有專業(yè)能力又有創(chuàng)新思維的人才。

更重要的是,F(xiàn)lowRL與生成流網(wǎng)絡(luò)(GFlowNets)的理論基礎(chǔ)相通。GFlowNets最初是為了在化學(xué)分子設(shè)計(jì)等領(lǐng)域中尋找多樣化的高質(zhì)量方案而開發(fā)的,它的核心思想是通過流平衡來確保采樣的多樣性。FlowRL將這種思想成功地移植到了大語言模型的訓(xùn)練中,這是一個(gè)重要的理論創(chuàng)新。

這種理論基礎(chǔ)的堅(jiān)實(shí)性意味著FlowRL不僅在當(dāng)前的實(shí)驗(yàn)中表現(xiàn)出色,而且具有良好的可擴(kuò)展性和適應(yīng)性。就像一個(gè)基于堅(jiān)實(shí)物理原理設(shè)計(jì)的工程結(jié)構(gòu),不僅在測(cè)試環(huán)境中穩(wěn)定,在實(shí)際應(yīng)用中也能保持可靠的性能。

FlowRL的成功為整個(gè)AI訓(xùn)練領(lǐng)域提供了新的思路。它表明,在追求性能提升的同時(shí),不應(yīng)該忽視多樣性和泛化能力的重要性。這種"既要又要"的平衡思維,可能會(huì)啟發(fā)更多創(chuàng)新的訓(xùn)練方法。

說到底,這項(xiàng)研究的意義遠(yuǎn)不止于提高幾個(gè)百分點(diǎn)的準(zhǔn)確率。它代表了AI訓(xùn)練理念的一次重要轉(zhuǎn)變,從單純的"追求最優(yōu)"轉(zhuǎn)向"追求均衡"。這種轉(zhuǎn)變可能會(huì)影響未來AI系統(tǒng)的設(shè)計(jì)思路,讓人工智能變得更加智慧和全面。對(duì)于普通人來說,這意味著我們將看到更加可靠、更加富有創(chuàng)造性的AI助手,它們不僅能解決問題,還能提供多種不同的解決方案,就像一個(gè)真正博學(xué)且富有想象力的人類專家。

當(dāng)然,這項(xiàng)研究也為我們思考人工智能的發(fā)展提供了新的視角。在追求AI性能的路上,多樣性和創(chuàng)新性同樣重要。畢竟,真正的智能不僅僅是找到正確答案,更是在面對(duì)未知挑戰(zhàn)時(shí)能夠靈活應(yīng)對(duì)、創(chuàng)新思考的能力。FlowRL在這個(gè)方向上邁出了重要的一步,為我們展示了一個(gè)更加智慧、更加多元的AI未來。

Q&A

Q1:FlowRL訓(xùn)練方法與傳統(tǒng)AI訓(xùn)練方法有什么區(qū)別?

A:傳統(tǒng)AI訓(xùn)練就像偏心的老師,只表揚(yáng)最高分的學(xué)生,導(dǎo)致所有AI都模仿同一種解題方法。FlowRL則像智慧的老師,會(huì)發(fā)現(xiàn)并鼓勵(lì)各種不同但有效的解題思路,讓AI的思維更多元化。這種"分配公平"的方式讓AI在數(shù)學(xué)推理上提升了10%的準(zhǔn)確率。

Q2:FlowRL是如何解決長篇推理中的技術(shù)難題的?

A:FlowRL面臨兩大挑戰(zhàn):一是處理8000詞長推理時(shí)的梯度爆炸問題,通過長度歸一化技術(shù)解決,就像根據(jù)菜品分量調(diào)節(jié)調(diào)料用量;二是采樣不匹配問題,通過重要性采樣技術(shù)解決,給每個(gè)舊樣本配上時(shí)效性權(quán)重,既能重用有價(jià)值數(shù)據(jù)又避免過時(shí)信息誤導(dǎo)。

Q3:FlowRL在實(shí)際應(yīng)用中的效果如何?

A:實(shí)驗(yàn)顯示FlowRL在數(shù)學(xué)競(jìng)賽題上準(zhǔn)確率達(dá)48.4%,在編程平臺(tái)CodeForces上評(píng)分1549分排前83.3%。更重要的是,它生成解題方案的多樣性比傳統(tǒng)方法高近一倍,就像一個(gè)班級(jí)從只會(huì)一種解法變成掌握多種策略,面對(duì)新題型時(shí)更加靈活。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-