這項(xiàng)由普度大學(xué)的蘭光辰教授與加州大學(xué)圣地亞哥分校、羅切斯特大學(xué)、佐治亞理工學(xué)院、騰訊AI實(shí)驗(yàn)室、延世大學(xué)等機(jī)構(gòu)研究人員共同完成的研究,發(fā)表于2025年7月的arXiv預(yù)印本平臺(tái)。感興趣的讀者可以通過(guò)arXiv:2507.21183訪問(wèn)完整論文。這項(xiàng)研究解決了一個(gè)讓所有AI開(kāi)發(fā)者頭疼的問(wèn)題:如何讓人工智能更好地理解和遵循人類的偏好。
當(dāng)你和ChatGPT或者其他AI助手對(duì)話時(shí),有沒(méi)有發(fā)現(xiàn)它們有時(shí)候會(huì)給出讓人滿意的回答,有時(shí)候卻讓人摸不著頭腦?這背后其實(shí)涉及一個(gè)復(fù)雜的技術(shù)問(wèn)題:如何訓(xùn)練AI系統(tǒng)理解什么樣的回答更符合人類的期望。研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的訓(xùn)練方法存在一個(gè)根本性缺陷,就像一個(gè)過(guò)分嚴(yán)格的老師,只會(huì)簡(jiǎn)單粗暴地區(qū)分"好學(xué)生"和"壞學(xué)生",卻忽略了兩者之間的微妙差別。
目前主流的AI訓(xùn)練方法被稱為直接偏好優(yōu)化(DPO),它的工作原理就像一個(gè)非常簡(jiǎn)化的評(píng)判系統(tǒng)。面對(duì)兩個(gè)回答,它只關(guān)心哪個(gè)更好,然后拼命提升好回答的概率,同時(shí)大幅降低差回答的概率。但問(wèn)題在于,很多時(shí)候兩個(gè)回答其實(shí)都不錯(cuò),只是稍有差別而已。這種粗暴的訓(xùn)練方式會(huì)導(dǎo)致AI系統(tǒng)變得過(guò)分"小心翼翼",對(duì)所有回答都缺乏信心,就像一個(gè)被過(guò)度批評(píng)的孩子,做什么都畏畏縮縮。
研究團(tuán)隊(duì)把這種現(xiàn)象稱為"擠壓效應(yīng)",就像擠牙膏一樣,把本來(lái)應(yīng)該保留的好內(nèi)容也一并擠掉了。更糟糕的是,當(dāng)遇到那些質(zhì)量相近的回答對(duì)比時(shí),傳統(tǒng)方法仍然會(huì)強(qiáng)行拉開(kāi)它們之間的差距,這就像強(qiáng)迫裁判在兩個(gè)實(shí)力相當(dāng)?shù)倪x手之間選出一個(gè)絕對(duì)的勝負(fù),結(jié)果往往適得其反。
**一、問(wèn)題的核心:傳統(tǒng)方法的局限性**
傳統(tǒng)的AI偏好訓(xùn)練就像一個(gè)極端的二元思維模式。每當(dāng)系統(tǒng)看到一對(duì)回答時(shí),無(wú)論它們的質(zhì)量差距是巨大還是微小,都會(huì)采用同樣激進(jìn)的處理方式:大幅提升"獲勝"回答的概率,同時(shí)大幅降低"失敗"回答的概率。這種做法在面對(duì)明顯的好壞對(duì)比時(shí)或許有效,但在處理那些質(zhì)量相近的情況時(shí)就會(huì)出現(xiàn)問(wèn)題。
研究團(tuán)隊(duì)通過(guò)一個(gè)具體例子來(lái)說(shuō)明這個(gè)問(wèn)題。假設(shè)有一道數(shù)學(xué)題:一臺(tái)打印機(jī)每分鐘打印17頁(yè),打印200頁(yè)需要多少分鐘?現(xiàn)在有兩個(gè)回答,第一個(gè)回答詳細(xì)解釋了計(jì)算過(guò)程,得出答案是12分鐘;第二個(gè)回答用了稍微不同的表達(dá)方式,但同樣得出了正確答案12分鐘。從質(zhì)量上看,這兩個(gè)回答都是正確的,只是表達(dá)風(fēng)格略有不同。
但在傳統(tǒng)的訓(xùn)練系統(tǒng)中,即使這種微小的偏好差異也會(huì)被放大處理。系統(tǒng)會(huì)大幅降低兩個(gè)回答的概率值,第一個(gè)回答從-14.3降到-121.5,第二個(gè)回答從-43.4降到-443.2。雖然兩者之間的差距確實(shí)拉大了,但這完全違背了訓(xùn)練的根本目標(biāo):我們希望提升高質(zhì)量回答的概率,而不是降低所有回答的概率。
這就像一個(gè)餐廳評(píng)判系統(tǒng),面對(duì)兩道都很美味的菜品時(shí),不是想辦法提升它們的整體評(píng)分,而是把兩道菜的分?jǐn)?shù)都往下拉,只要保證其中一道比另一道高就行。這種做法顯然是不合理的,因?yàn)樗鼡p害了整個(gè)評(píng)價(jià)系統(tǒng)的準(zhǔn)確性和可靠性。
**二、創(chuàng)新解決方案:引入先驗(yàn)知識(shí)的智慧**
面對(duì)這個(gè)挑戰(zhàn),研究團(tuán)隊(duì)提出了一個(gè)巧妙的解決方案,他們稱之為最大后驗(yàn)偏好優(yōu)化(MaPPO)。這個(gè)方法的核心思想是在訓(xùn)練過(guò)程中引入先驗(yàn)知識(shí),就像給AI系統(tǒng)配備了一個(gè)有經(jīng)驗(yàn)的導(dǎo)師,能夠根據(jù)具體情況調(diào)整訓(xùn)練的力度和方向。
MaPPO的工作原理可以用烹飪來(lái)比喻。傳統(tǒng)方法就像一個(gè)固定火力的爐子,無(wú)論煮什么都用同樣的大火。而MaPPO則像一個(gè)智能爐具,能夠根據(jù)食材的特性自動(dòng)調(diào)節(jié)火候。當(dāng)需要處理差異明顯的食材對(duì)比時(shí),它會(huì)用較大的火力;當(dāng)處理相似食材時(shí),它會(huì)調(diào)小火力,避免過(guò)度烹飪。
具體來(lái)說(shuō),MaPPO通過(guò)計(jì)算兩個(gè)回答之間的質(zhì)量差距,來(lái)動(dòng)態(tài)調(diào)整訓(xùn)練的強(qiáng)度。如果兩個(gè)回答的質(zhì)量相近,系統(tǒng)就會(huì)減輕對(duì)較差回答的懲罰力度;如果質(zhì)量差距明顯,系統(tǒng)則會(huì)維持較強(qiáng)的區(qū)分度。這種做法既保持了必要的區(qū)分能力,又避免了過(guò)度懲罰的問(wèn)題。
更重要的是,MaPPO的實(shí)現(xiàn)非常優(yōu)雅。它不需要引入任何新的超參數(shù),這意味著研究者和開(kāi)發(fā)者可以輕松地將這種方法集成到現(xiàn)有系統(tǒng)中,而不需要進(jìn)行復(fù)雜的參數(shù)調(diào)優(yōu)。這就像給現(xiàn)有的軟件打了一個(gè)補(bǔ)丁,立即就能獲得性能提升,而不需要重新安裝整個(gè)系統(tǒng)。
**三、技術(shù)原理:從最大似然到最大后驗(yàn)的躍升**
要理解MaPPO的技術(shù)優(yōu)勢(shì),我們需要先了解傳統(tǒng)方法的數(shù)學(xué)基礎(chǔ)。傳統(tǒng)的DPO方法基于最大似然估計(jì)(MLE),這種方法的核心思想是找到最能解釋觀察數(shù)據(jù)的參數(shù)配置。在偏好學(xué)習(xí)的語(yǔ)境下,這意味著系統(tǒng)試圖找到一個(gè)模型,使得觀察到的偏好選擇具有最高的概率。
但最大似然估計(jì)有一個(gè)根本限制:它只關(guān)注相對(duì)概率,而忽略了絕對(duì)概率的意義。這就像一個(gè)只會(huì)比較的評(píng)委,永遠(yuǎn)只能說(shuō)"A比B好",但說(shuō)不出"A到底有多好"。這種相對(duì)性思維導(dǎo)致了前面提到的種種問(wèn)題。
MaPPO的創(chuàng)新在于引入了最大后驗(yàn)估計(jì)(MAP)的思想。后驗(yàn)估計(jì)不僅考慮觀察到的數(shù)據(jù),還會(huì)結(jié)合先驗(yàn)知識(shí)來(lái)做出更加全面的判斷。在這個(gè)類比中,先驗(yàn)知識(shí)就像是評(píng)委的專業(yè)經(jīng)驗(yàn),它能幫助評(píng)委不僅做出相對(duì)判斷,還能給出絕對(duì)評(píng)價(jià)。
研究團(tuán)隊(duì)通過(guò)巧妙的數(shù)學(xué)推導(dǎo),將這種思想轉(zhuǎn)化為一個(gè)簡(jiǎn)潔的公式。他們構(gòu)造了一個(gè)先驗(yàn)概率函數(shù),這個(gè)函數(shù)能夠根據(jù)兩個(gè)回答的質(zhì)量差距來(lái)調(diào)節(jié)訓(xùn)練的強(qiáng)度。當(dāng)質(zhì)量差距很大時(shí),函數(shù)接近傳統(tǒng)DPO的行為;當(dāng)質(zhì)量相近時(shí),函數(shù)會(huì)自動(dòng)減弱區(qū)分的力度。
這種設(shè)計(jì)的美妙之處在于它的自適應(yīng)性。系統(tǒng)不再需要人工設(shè)定固定的訓(xùn)練參數(shù),而是能夠根據(jù)具體情況自動(dòng)調(diào)整。這就像一個(gè)經(jīng)驗(yàn)豐富的教練,面對(duì)不同水平的學(xué)員時(shí)會(huì)采用不同的訓(xùn)練方法,而不是一刀切地使用同一套訓(xùn)練方案。
**四、實(shí)驗(yàn)驗(yàn)證:全方位的性能提升**
為了驗(yàn)證MaPPO的有效性,研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的實(shí)驗(yàn)驗(yàn)證。他們選擇了多個(gè)不同規(guī)模的語(yǔ)言模型進(jìn)行測(cè)試,包括Qwen2.5系列(1.5B、3B、7B參數(shù))、Mistral-7B和Llama-3-8B等主流模型。測(cè)試涵蓋了三個(gè)重要的評(píng)估基準(zhǔn):MT-Bench、AlpacaEval 2.0和Arena-Hard。
實(shí)驗(yàn)結(jié)果令人印象深刻。在AlpacaEval 2.0基準(zhǔn)測(cè)試中,使用MaPPO訓(xùn)練的Mistral-7B模型相比傳統(tǒng)DPO方法獲得了12.32%的絕對(duì)性能提升,這是一個(gè)相當(dāng)顯著的改進(jìn)。在Arena-Hard測(cè)試中,同樣的模型獲得了4.2%的提升。這些數(shù)字看起來(lái)可能不大,但在AI系統(tǒng)的性能評(píng)估中,即使是幾個(gè)百分點(diǎn)的提升也代表著質(zhì)的飛躍。
更令人興奮的是,MaPPO的改進(jìn)效果在不同規(guī)模的模型上都保持一致。無(wú)論是參數(shù)量較小的1.5B模型,還是參數(shù)量較大的8B模型,都能從MaPPO中獲得顯著的性能提升。這表明這種方法具有良好的可擴(kuò)展性,不會(huì)因?yàn)槟P鸵?guī)模的變化而失效。
研究團(tuán)隊(duì)還測(cè)試了MaPPO與其他先進(jìn)訓(xùn)練方法的兼容性。他們發(fā)現(xiàn),MaPPO可以作為一個(gè)"插件"與現(xiàn)有的多種優(yōu)化方法結(jié)合使用,包括SimPO、IPO和CPO等。在所有測(cè)試案例中,添加MaPPO都能帶來(lái)一致的性能改進(jìn),這證明了這種方法的通用性和實(shí)用性。
**五、在線學(xué)習(xí):適應(yīng)動(dòng)態(tài)環(huán)境的能力**
除了傳統(tǒng)的離線訓(xùn)練模式,MaPPO還支持在線學(xué)習(xí),這是一個(gè)重要的技術(shù)特性。離線訓(xùn)練就像學(xué)生在考試前突擊復(fù)習(xí),使用固定的訓(xùn)練材料;而在線學(xué)習(xí)則像是邊工作邊學(xué)習(xí),能夠根據(jù)實(shí)時(shí)反饋不斷調(diào)整和改進(jìn)。
在在線學(xué)習(xí)模式下,系統(tǒng)會(huì)持續(xù)生成新的回答樣本,并根據(jù)即時(shí)的質(zhì)量評(píng)估來(lái)調(diào)整模型參數(shù)。這種方法的優(yōu)勢(shì)在于能夠適應(yīng)不斷變化的需求和標(biāo)準(zhǔn),就像一個(gè)優(yōu)秀的員工能夠根據(jù)工作環(huán)境的變化不斷提升自己的能力。
研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)迭代式的在線學(xué)習(xí)流程。系統(tǒng)會(huì)將訓(xùn)練數(shù)據(jù)分成多個(gè)批次,在每個(gè)批次中先用當(dāng)前模型生成回答,然后根據(jù)質(zhì)量評(píng)估結(jié)果調(diào)整模型參數(shù),再進(jìn)入下一個(gè)批次的訓(xùn)練。這種方法既保持了學(xué)習(xí)的連續(xù)性,又避免了過(guò)度擬合的風(fēng)險(xiǎn)。
實(shí)驗(yàn)結(jié)果顯示,在線學(xué)習(xí)模式下的MaPPO表現(xiàn)同樣出色。相比傳統(tǒng)的在線DPO方法,MaPPO在多個(gè)測(cè)試基準(zhǔn)上都取得了顯著的性能提升。這證明了MaPPO不僅在靜態(tài)環(huán)境下有效,在動(dòng)態(tài)環(huán)境下同樣能夠發(fā)揮重要作用。
**六、理論分析:穩(wěn)定性與收斂性的保證**
除了實(shí)驗(yàn)驗(yàn)證,研究團(tuán)隊(duì)還從理論角度分析了MaPPO的優(yōu)勢(shì)。他們證明了MaPPO具有更好的收斂穩(wěn)定性,也就是說(shuō),訓(xùn)練過(guò)程更加平穩(wěn),不容易出現(xiàn)大幅波動(dòng)或者訓(xùn)練失敗的情況。
傳統(tǒng)DPO方法的一個(gè)問(wèn)題是梯度變化可能過(guò)于劇烈,就像一輛剎車系統(tǒng)不穩(wěn)定的汽車,在行駛過(guò)程中容易出現(xiàn)急剎急停的情況。而MaPPO通過(guò)引入先驗(yàn)知識(shí)的調(diào)節(jié)機(jī)制,有效地平滑了梯度變化,使得訓(xùn)練過(guò)程更加穩(wěn)定。
研究團(tuán)隊(duì)通過(guò)數(shù)學(xué)分析證明,MaPPO的梯度范數(shù)(衡量變化劇烈程度的指標(biāo))有一個(gè)嚴(yán)格的上界,這個(gè)上界比傳統(tǒng)DPO方法要小。這意味著MaPPO的訓(xùn)練過(guò)程更加可控,不會(huì)出現(xiàn)突然的大幅參數(shù)調(diào)整,從而提高了訓(xùn)練的可靠性。
此外,他們還分析了MaPPO的收斂特性。在理想情況下,MaPPO會(huì)收斂到一個(gè)穩(wěn)定的狀態(tài),在這個(gè)狀態(tài)下,高質(zhì)量回答和低質(zhì)量回答之間保持著合理的概率比例關(guān)系。這種關(guān)系不是固定的,而是會(huì)根據(jù)具體的質(zhì)量差距進(jìn)行調(diào)整,體現(xiàn)了方法的靈活性和適應(yīng)性。
**七、廣泛兼容:與現(xiàn)有方法的無(wú)縫集成**
MaPPO的一個(gè)重要優(yōu)勢(shì)是其出色的兼容性。研究團(tuán)隊(duì)特意將其設(shè)計(jì)為一個(gè)可插拔的組件,能夠與現(xiàn)有的各種優(yōu)化方法無(wú)縫集成。這就像一個(gè)通用的改裝套件,可以安裝在不同品牌和型號(hào)的汽車上,立即提升性能表現(xiàn)。
具體來(lái)說(shuō),MaPPO可以與SimPO、IPO、CPO等多種先進(jìn)的偏好優(yōu)化方法結(jié)合使用。SimPO是一種考慮回答長(zhǎng)度因素的優(yōu)化方法,IPO是一種更通用的偏好建模方法,CPO則是一種結(jié)合了監(jiān)督學(xué)習(xí)和偏好學(xué)習(xí)的混合方法。盡管這些方法的技術(shù)路線不同,但MaPPO都能與它們有效結(jié)合并帶來(lái)性能提升。
在與SimPO結(jié)合的實(shí)驗(yàn)中,MaPPO帶來(lái)了7.60%的AlpacaEval 2.0性能提升和5.3%的Arena-Hard性能提升。與IPO結(jié)合時(shí),Arena-Hard性能提升達(dá)到了11.4%。與CPO結(jié)合時(shí),各項(xiàng)指標(biāo)都有穩(wěn)定的改進(jìn)。這些結(jié)果證明了MaPPO的通用性和實(shí)用價(jià)值。
更重要的是,所有這些改進(jìn)都不需要引入額外的超參數(shù)。這意味著研究者和開(kāi)發(fā)者可以輕松地將MaPPO集成到現(xiàn)有系統(tǒng)中,而不需要進(jìn)行復(fù)雜的參數(shù)調(diào)優(yōu)工作。這大大降低了技術(shù)應(yīng)用的門檻,使得更多人能夠受益于這項(xiàng)創(chuàng)新。
**八、學(xué)術(shù)基準(zhǔn)測(cè)試:全面的能力評(píng)估**
為了更全面地評(píng)估MaPPO的效果,研究團(tuán)隊(duì)還在多個(gè)學(xué)術(shù)基準(zhǔn)測(cè)試上進(jìn)行了驗(yàn)證。這些測(cè)試覆蓋了AI系統(tǒng)的各個(gè)方面,包括指令跟隨能力(IFEval)、通用知識(shí)掌握(GPQA)、多任務(wù)語(yǔ)言理解(MMLU)、常識(shí)推理(HellaSwag)、真實(shí)性判斷(TruthfulQA)和數(shù)學(xué)解題能力(GSM8K)。
結(jié)果顯示,MaPPO不僅在偏好對(duì)齊方面表現(xiàn)出色,在這些基礎(chǔ)能力測(cè)試中也保持了良好的性能,甚至在某些方面有所提升。這解決了一個(gè)重要的擔(dān)憂:改進(jìn)偏好對(duì)齊是否會(huì)損害模型的基礎(chǔ)能力。答案是否定的,MaPPO在提升偏好對(duì)齊的同時(shí),很好地保持了模型在各個(gè)方面的能力水平。
特別值得注意的是,在數(shù)學(xué)解題能力(GSM8K)測(cè)試中,使用MaPPO訓(xùn)練的Qwen2.5-7B模型相比傳統(tǒng)DPO有顯著提升,準(zhǔn)確率從71.3%提升到80.1%。在真實(shí)性判斷(TruthfulQA)測(cè)試中,Llama-3-8B模型的準(zhǔn)確率從51.5%提升到58.2%。這些改進(jìn)表明MaPPO不僅能夠提升偏好對(duì)齊,還能在某些特定任務(wù)上帶來(lái)額外的性能收益。
**九、實(shí)際應(yīng)用:對(duì)未來(lái)AI發(fā)展的意義**
MaPPO的成功不僅是一個(gè)技術(shù)突破,更代表了AI訓(xùn)練方法的一個(gè)重要發(fā)展方向。它展示了如何通過(guò)引入先驗(yàn)知識(shí)來(lái)改進(jìn)機(jī)器學(xué)習(xí)系統(tǒng),這種思路在很多其他領(lǐng)域都有潛在的應(yīng)用價(jià)值。
在實(shí)際應(yīng)用中,MaPPO的優(yōu)勢(shì)會(huì)逐漸顯現(xiàn)。訓(xùn)練出的AI系統(tǒng)會(huì)表現(xiàn)出更好的校準(zhǔn)性,也就是說(shuō),當(dāng)它表示確信某個(gè)答案時(shí),這個(gè)答案確實(shí)更可能是正確的;當(dāng)它表示不確定時(shí),用戶也能據(jù)此做出更好的判斷。這種改進(jìn)對(duì)于提升人機(jī)交互的質(zhì)量具有重要意義。
此外,MaPPO的訓(xùn)練效率優(yōu)勢(shì)也很明顯。由于避免了過(guò)度的參數(shù)調(diào)整,訓(xùn)練過(guò)程更加穩(wěn)定,需要的計(jì)算資源相對(duì)較少。這對(duì)于資源受限的研究機(jī)構(gòu)和公司來(lái)說(shuō)是一個(gè)重要的好處,能夠讓更多的團(tuán)隊(duì)參與到AI系統(tǒng)的改進(jìn)工作中來(lái)。
從更長(zhǎng)遠(yuǎn)的角度看,MaPPO代表的先驗(yàn)知識(shí)融合思路可能會(huì)成為未來(lái)AI訓(xùn)練的一個(gè)重要趨勢(shì)。隨著AI系統(tǒng)變得越來(lái)越復(fù)雜,純粹依靠數(shù)據(jù)驅(qū)動(dòng)的方法可能會(huì)遇到瓶頸,而結(jié)合人類知識(shí)和經(jīng)驗(yàn)的混合方法可能會(huì)成為突破這些瓶頸的關(guān)鍵。
說(shuō)到底,MaPPO解決的是一個(gè)看似技術(shù)性但實(shí)際上非常實(shí)用的問(wèn)題:如何讓AI系統(tǒng)更好地理解和響應(yīng)人類的細(xì)微偏好。這項(xiàng)研究的成功證明,通過(guò)巧妙的方法設(shè)計(jì),我們確實(shí)可以讓AI系統(tǒng)變得更加智能和可靠。對(duì)于普通用戶來(lái)說(shuō),這意味著未來(lái)的AI助手會(huì)更加懂得察言觀色,能夠提供更加貼心和準(zhǔn)確的服務(wù)。對(duì)于開(kāi)發(fā)者來(lái)說(shuō),這提供了一個(gè)簡(jiǎn)單而有效的工具來(lái)改進(jìn)現(xiàn)有系統(tǒng)的性能。
研究團(tuán)隊(duì)的工作還展現(xiàn)了跨機(jī)構(gòu)合作的力量。來(lái)自普度大學(xué)、加州大學(xué)圣地亞哥分校、羅切斯特大學(xué)、佐治亞理工學(xué)院、騰訊AI實(shí)驗(yàn)室和延世大學(xué)的研究者們通過(guò)協(xié)作,產(chǎn)生了這個(gè)創(chuàng)新性的解決方案。這種國(guó)際化的合作模式也為未來(lái)的AI研究樹(shù)立了一個(gè)很好的榜樣。對(duì)于想要深入了解技術(shù)細(xì)節(jié)的讀者,可以通過(guò)arXiv:2507.21183訪問(wèn)完整的研究論文,獲取更多的技術(shù)信息和實(shí)現(xiàn)細(xì)節(jié)。
Q&A
Q1:MaPPO是什么?它解決了什么問(wèn)題? A:MaPPO是一種新的AI訓(xùn)練方法,全稱為最大后驗(yàn)偏好優(yōu)化。它解決了傳統(tǒng)AI訓(xùn)練中"擠壓效應(yīng)"的問(wèn)題,即傳統(tǒng)方法會(huì)過(guò)度區(qū)分質(zhì)量相近的回答,導(dǎo)致AI系統(tǒng)對(duì)所有回答都缺乏信心。MaPPO通過(guò)引入先驗(yàn)知識(shí),能根據(jù)回答質(zhì)量差距動(dòng)態(tài)調(diào)整訓(xùn)練強(qiáng)度。
Q2:MaPPO會(huì)不會(huì)很難使用?需要復(fù)雜的參數(shù)調(diào)整嗎? A:不會(huì)。MaPPO的一個(gè)重要優(yōu)勢(shì)是無(wú)需引入任何新的超參數(shù),可以作為"插件"直接集成到現(xiàn)有的AI訓(xùn)練系統(tǒng)中。研究團(tuán)隊(duì)特意將其設(shè)計(jì)得非常易用,開(kāi)發(fā)者可以輕松地將其添加到現(xiàn)有方法中并立即獲得性能提升。
Q3:MaPPO的性能提升有多大? A:實(shí)驗(yàn)結(jié)果顯示,MaPPO在多個(gè)基準(zhǔn)測(cè)試中都帶來(lái)了顯著提升。例如,在AlpacaEval 2.0測(cè)試中,Mistral-7B模型獲得了12.32%的絕對(duì)性能提升;在Arena-Hard測(cè)試中獲得了4.2%的提升。更重要的是,這種改進(jìn)在不同規(guī)模的模型上都保持一致。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。