av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 大語言模型終于學(xué)會(huì)了"自我監(jiān)督":中科院提出的PACS框架讓AI推理能力大躍進(jìn)

大語言模型終于學(xué)會(huì)了"自我監(jiān)督":中科院提出的PACS框架讓AI推理能力大躍進(jìn)

2025-09-23 09:29
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-23 09:29 ? 科技行者

人工智能領(lǐng)域剛剛迎來了一個(gè)激動(dòng)人心的突破。來自中科院深圳先進(jìn)技術(shù)研究院的研究團(tuán)隊(duì),聯(lián)合中科院大學(xué)和Ritzz-AI公司,在2025年9月發(fā)表了一項(xiàng)開創(chuàng)性研究,他們提出了一個(gè)名為PACS的全新訓(xùn)練框架,徹底改變了大語言模型學(xué)習(xí)推理的方式。這項(xiàng)研究發(fā)表在arXiv預(yù)印本平臺(tái)上(論文編號(hào):2509.02522v1),有興趣深入了解的讀者可以通過https://github.com/ritzz-ai/PACS獲取完整代碼和數(shù)據(jù)。

要理解這項(xiàng)研究的重要性,我們先要明白大語言模型面臨的一個(gè)根本困境。目前的AI模型就像一個(gè)需要不斷指導(dǎo)的學(xué)生,每次解決數(shù)學(xué)題時(shí)都需要老師在旁邊說"這步對(duì)了"或者"這步錯(cuò)了"。但問題是,這種指導(dǎo)往往來得很稀少——只有在學(xué)生完成整道題后,老師才會(huì)說一句"答案正確"或"答案錯(cuò)誤"。這就像你花了兩個(gè)小時(shí)做一道復(fù)雜的數(shù)學(xué)題,老師只在最后告訴你結(jié)果對(duì)不對(duì),卻不告訴你哪一步出了問題。

這種訓(xùn)練方式被稱為"強(qiáng)化學(xué)習(xí)與可驗(yàn)證獎(jiǎng)勵(lì)"(RLVR),雖然聽起來很高大上,但實(shí)際上存在嚴(yán)重的問題。由于反饋信號(hào)過于稀疏,AI模型很難知道自己在推理過程中的哪個(gè)環(huán)節(jié)做得好,哪個(gè)環(huán)節(jié)需要改進(jìn)。這就導(dǎo)致訓(xùn)練過程不穩(wěn)定,模型的表現(xiàn)也時(shí)好時(shí)壞。

在這樣的背景下,中科院的研究團(tuán)隊(duì)提出了一個(gè)革命性的想法:既然傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法有問題,為什么不讓AI學(xué)會(huì)"自我監(jiān)督"呢?他們開發(fā)的PACS框架(全稱是"通過監(jiān)督學(xué)習(xí)框架實(shí)現(xiàn)隱式演員-評(píng)論家耦合"),就像給AI安裝了一個(gè)內(nèi)在的自我評(píng)價(jià)系統(tǒng)。

PACS的核心思想可以用一個(gè)烹飪比喻來理解。傳統(tǒng)方法就像一個(gè)廚師只能在整道菜做完后得到顧客的評(píng)價(jià),而PACS則讓廚師在烹飪過程中就能品嘗和調(diào)整。具體來說,PACS把原本復(fù)雜的強(qiáng)化學(xué)習(xí)問題轉(zhuǎn)換成了一個(gè)簡(jiǎn)單的監(jiān)督學(xué)習(xí)任務(wù)。它不再依賴稀疏的外部獎(jiǎng)勵(lì)信號(hào),而是讓模型學(xué)會(huì)預(yù)測(cè)自己生成答案的質(zhì)量。

這種轉(zhuǎn)換的巧妙之處在于,研究團(tuán)隊(duì)通過數(shù)學(xué)分析證明了,這種監(jiān)督學(xué)習(xí)的方式實(shí)際上包含了傳統(tǒng)強(qiáng)化學(xué)習(xí)的核心機(jī)制,但卻更加穩(wěn)定和高效。就像一個(gè)經(jīng)驗(yàn)豐富的廚師能夠在烹飪過程中同時(shí)扮演"制作者"和"品嘗者"的角色,PACS讓AI模型同時(shí)具備了生成答案和評(píng)價(jià)答案質(zhì)量的能力。

研究團(tuán)隊(duì)在四個(gè)具有挑戰(zhàn)性的數(shù)學(xué)推理任務(wù)上測(cè)試了PACS的效果,包括MATH 500、AMC23、AIME 2024和AIME 2025。這些任務(wù)的難度遞增,其中AIME系列題目是美國數(shù)學(xué)邀請(qǐng)賽的真題,代表了高中數(shù)學(xué)競(jìng)賽的最高水平。

實(shí)驗(yàn)結(jié)果令人印象深刻。在最具挑戰(zhàn)性的AIME 2025測(cè)試中,使用PACS訓(xùn)練的模型在生成256個(gè)候選答案的情況下,成功率達(dá)到了59.78%。相比之下,使用傳統(tǒng)PPO方法訓(xùn)練的模型成功率只有46.46%,使用GRPO方法的成功率為45.42%。這意味著PACS比現(xiàn)有最佳方法提升了13到14個(gè)百分點(diǎn),這在AI領(lǐng)域是一個(gè)巨大的進(jìn)步。

更令人興奮的是,PACS的優(yōu)勢(shì)在所有測(cè)試任務(wù)中都得到了驗(yàn)證。在MATH 500數(shù)據(jù)集上,PACS達(dá)到了67.31%的單次嘗試成功率,比基準(zhǔn)模型提升了10.65個(gè)百分點(diǎn)。在AMC23測(cè)試中,PACS同樣表現(xiàn)出色,特別是在需要更多嘗試次數(shù)的情況下,其優(yōu)勢(shì)更加明顯。

為了更深入地理解PACS的工作原理,我們需要了解它的三個(gè)核心組件。首先是"獎(jiǎng)勵(lì)代理計(jì)算",這就像給模型安裝了一個(gè)內(nèi)在的評(píng)分系統(tǒng),能夠根據(jù)生成答案的對(duì)數(shù)概率比率來評(píng)估答案質(zhì)量。其次是"群組計(jì)算",這個(gè)機(jī)制讓模型能夠在同一批生成的答案中進(jìn)行相互比較,就像學(xué)生們互相檢查作業(yè)一樣。最后是"交叉熵?fù)p失",這個(gè)組件將整個(gè)推理問題轉(zhuǎn)換為一個(gè)標(biāo)準(zhǔn)的分類任務(wù),讓訓(xùn)練過程更加穩(wěn)定。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的梯度分析,發(fā)現(xiàn)PACS的損失函數(shù)自然地包含了兩個(gè)重要部分:一個(gè)負(fù)責(zé)策略改進(jìn)的"演員"部分和一個(gè)負(fù)責(zé)獎(jiǎng)勵(lì)估計(jì)的"評(píng)論家"部分。這種"隱式耦合"的設(shè)計(jì)讓模型能夠同時(shí)優(yōu)化答案生成和質(zhì)量評(píng)估,避免了傳統(tǒng)方法中兩個(gè)組件之間的不協(xié)調(diào)問題。

在訓(xùn)練動(dòng)態(tài)的分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)PACS展現(xiàn)出了更好的探索-利用平衡。傳統(tǒng)方法往往會(huì)陷入"熵坍塌"的問題,就像一個(gè)學(xué)生只會(huì)做一種類型的題目,遇到新問題就束手無策。而PACS能夠維持適當(dāng)?shù)碾S機(jī)性,保證模型在訓(xùn)練過程中持續(xù)探索新的解題方法。

具體來看PACS的實(shí)現(xiàn)細(xì)節(jié),研究團(tuán)隊(duì)采用了REINFORCE留一法(RLOO)估計(jì)器來計(jì)算優(yōu)勢(shì)分?jǐn)?shù)。這種方法的巧妙之處在于,它為每個(gè)生成的答案計(jì)算一個(gè)相對(duì)于同組其他答案的優(yōu)勢(shì)分?jǐn)?shù)。這就像在一個(gè)班級(jí)里,每個(gè)學(xué)生的成績不是絕對(duì)評(píng)分,而是相對(duì)于其他同學(xué)的表現(xiàn)來評(píng)定。

為了解決訓(xùn)練過程中可能出現(xiàn)的數(shù)據(jù)不平衡問題,研究團(tuán)隊(duì)還引入了類別權(quán)重調(diào)整機(jī)制。在數(shù)學(xué)推理任務(wù)中,正確答案往往比錯(cuò)誤答案少得多,這種不平衡會(huì)影響模型的學(xué)習(xí)效果。PACS通過動(dòng)態(tài)調(diào)整正確和錯(cuò)誤樣本的權(quán)重,確保模型能夠平衡地學(xué)習(xí)兩種類型的反饋。

實(shí)驗(yàn)設(shè)置方面,研究團(tuán)隊(duì)使用了DeepScaleR數(shù)據(jù)集作為訓(xùn)練語料,這是一個(gè)包含約40,000個(gè)高質(zhì)量數(shù)學(xué)問題-答案對(duì)的集合。他們?cè)赒wen2.5-3B和Qwen2.5-7B兩個(gè)不同規(guī)模的模型上進(jìn)行了測(cè)試,以驗(yàn)證PACS在不同模型規(guī)模下的泛化能力。

訓(xùn)練過程采用了精心設(shè)計(jì)的超參數(shù)配置。批處理大小設(shè)為1024,學(xué)習(xí)率設(shè)為1×10^-6,每個(gè)查詢采樣8個(gè)響應(yīng)。在推理階段,他們使用了溫度為0.6、top-p為0.96的采樣策略,這種配置能夠在創(chuàng)造性和準(zhǔn)確性之間找到良好平衡。

為了確保評(píng)估結(jié)果的可靠性,研究團(tuán)隊(duì)采用了pass@k指標(biāo),這個(gè)指標(biāo)衡量的是在k次嘗試中至少有一次成功的概率。為了減少采樣隨機(jī)性帶來的偏差,他們對(duì)每個(gè)問題生成了大量候選解答,然后使用無偏估計(jì)器計(jì)算最終結(jié)果。

在消融實(shí)驗(yàn)中,研究團(tuán)隊(duì)重點(diǎn)分析了幾個(gè)關(guān)鍵因子的影響。首先是縮放參數(shù)β的作用,這個(gè)參數(shù)控制著獎(jiǎng)勵(lì)代理的計(jì)算強(qiáng)度。實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)β=1時(shí)模型達(dá)到最佳性能,而在更困難的AIME任務(wù)中,這個(gè)參數(shù)的選擇對(duì)性能影響更大。

權(quán)重機(jī)制的消融實(shí)驗(yàn)顯示了其重要性。沒有權(quán)重調(diào)整的PACS版本在所有任務(wù)上的表現(xiàn)都有所下降,特別是在困難的AIME數(shù)據(jù)集上,性能差距更加明顯。這證實(shí)了類別平衡在處理不平衡數(shù)據(jù)時(shí)的關(guān)鍵作用。

研究團(tuán)隊(duì)還比較了不同優(yōu)勢(shì)估計(jì)器的效果,包括GRPO和Dr. GRPO。結(jié)果顯示,RLOO方法在大多數(shù)任務(wù)上表現(xiàn)最佳,特別是在高難度任務(wù)中優(yōu)勢(shì)更加明顯。這可能是因?yàn)镽LOO的留一法機(jī)制能夠提供更穩(wěn)定和精確的信用分配信號(hào)。

訓(xùn)練動(dòng)態(tài)分析揭示了PACS相對(duì)于基線方法的重要優(yōu)勢(shì)。傳統(tǒng)的PPO和GRPO方法會(huì)很快陷入低熵狀態(tài),導(dǎo)致生成的答案過于保守。而PACS能夠維持更高的熵值,這意味著模型在整個(gè)訓(xùn)練過程中都保持著探索新解法的能力。梯度范數(shù)的分析也顯示,PACS在訓(xùn)練過程中維持了更高的梯度活動(dòng)水平,這表明模型參數(shù)在持續(xù)進(jìn)行有意義的更新。

從響應(yīng)長度的角度來看,PACS生成的解答通常更詳細(xì)、更完整。這可能反映了模型在解題過程中展現(xiàn)出更全面的推理能力,而不僅僅是找到一個(gè)簡(jiǎn)單的答案。

這項(xiàng)研究的意義遠(yuǎn)不止于數(shù)學(xué)推理任務(wù)的改進(jìn)。PACS框架為大語言模型的訓(xùn)練提供了一個(gè)全新的思路,特別是在那些具有可驗(yàn)證結(jié)果的任務(wù)中。編程、邏輯推理、科學(xué)計(jì)算等領(lǐng)域都可能從這種方法中受益。

更重要的是,PACS展示了如何通過巧妙的問題轉(zhuǎn)換來解決復(fù)雜的強(qiáng)化學(xué)習(xí)挑戰(zhàn)。通過將強(qiáng)化學(xué)習(xí)問題重構(gòu)為監(jiān)督學(xué)習(xí)問題,研究團(tuán)隊(duì)不僅簡(jiǎn)化了訓(xùn)練過程,還提高了訓(xùn)練的穩(wěn)定性和效率。這種思路可能啟發(fā)更多類似的方法創(chuàng)新。

從實(shí)際應(yīng)用角度來看,PACS的成功意味著我們離真正智能的AI助手又近了一步。能夠進(jìn)行復(fù)雜數(shù)學(xué)推理的AI模型可以在教育、科研、工程設(shè)計(jì)等多個(gè)領(lǐng)域發(fā)揮重要作用。特別是在自動(dòng)化解題、智能輔導(dǎo)、科學(xué)計(jì)算等應(yīng)用中,這種推理能力的提升將帶來顯著的實(shí)用價(jià)值。

當(dāng)然,這項(xiàng)研究也還存在一些局限性和待解決的問題。首先,PACS主要在數(shù)學(xué)推理任務(wù)上進(jìn)行了驗(yàn)證,其在其他類型推理任務(wù)上的效果還需要進(jìn)一步驗(yàn)證。其次,雖然PACS提高了訓(xùn)練穩(wěn)定性,但計(jì)算成本相比傳統(tǒng)方法如何變化還需要更詳細(xì)的分析。

另外,PACS依賴于問題具有明確的正確答案這一特點(diǎn)。在那些沒有標(biāo)準(zhǔn)答案或者答案具有主觀性的任務(wù)中,如何適應(yīng)PACS框架還是一個(gè)開放問題。研究團(tuán)隊(duì)在未來的工作中可能需要探索如何將這種方法擴(kuò)展到更廣泛的任務(wù)類型。

盡管存在這些局限性,PACS框架的提出仍然代表了AI訓(xùn)練方法的一個(gè)重要進(jìn)步。它不僅在實(shí)驗(yàn)結(jié)果上取得了顯著改進(jìn),更重要的是提供了一種新的思維方式來解決強(qiáng)化學(xué)習(xí)中的根本挑戰(zhàn)。

展望未來,這種"隱式演員-評(píng)論家耦合"的思想可能會(huì)激發(fā)更多創(chuàng)新。研究者們可能會(huì)探索如何將類似的原理應(yīng)用到其他類型的學(xué)習(xí)任務(wù)中,或者如何進(jìn)一步優(yōu)化這種耦合機(jī)制以獲得更好的性能。

總的來說,中科院團(tuán)隊(duì)的這項(xiàng)研究為大語言模型的訓(xùn)練開辟了一條新路徑。通過巧妙地將強(qiáng)化學(xué)習(xí)問題轉(zhuǎn)換為監(jiān)督學(xué)習(xí)任務(wù),PACS不僅解決了傳統(tǒng)方法的穩(wěn)定性問題,還顯著提升了模型在復(fù)雜推理任務(wù)上的表現(xiàn)。這種創(chuàng)新思路可能會(huì)影響未來AI訓(xùn)練方法的發(fā)展方向,讓我們期待看到更多基于這種思想的后續(xù)研究和應(yīng)用。

對(duì)于普通讀者來說,這項(xiàng)研究的成功意味著AI在解決復(fù)雜問題方面又向前邁進(jìn)了一大步。雖然目前主要在數(shù)學(xué)領(lǐng)域展現(xiàn)出優(yōu)勢(shì),但隨著技術(shù)的不斷發(fā)展和完善,我們有理由相信,這種更智能、更穩(wěn)定的AI訓(xùn)練方法將在更多領(lǐng)域發(fā)揮作用,為人類的工作和生活帶來更多便利。如果您對(duì)這項(xiàng)研究的技術(shù)細(xì)節(jié)感興趣,可以訪問研究團(tuán)隊(duì)在GitHub上提供的開源代碼:https://github.com/ritzz-ai/PACS。

Q&A

Q1:PACS框架是什么?它與傳統(tǒng)AI訓(xùn)練方法有什么不同?

A:PACS是中科院提出的一種新型AI訓(xùn)練框架,全稱是"通過監(jiān)督學(xué)習(xí)框架實(shí)現(xiàn)隱式演員-評(píng)論家耦合"。與傳統(tǒng)強(qiáng)化學(xué)習(xí)方法不同,PACS將復(fù)雜的強(qiáng)化學(xué)習(xí)問題轉(zhuǎn)換為簡(jiǎn)單的監(jiān)督學(xué)習(xí)任務(wù),讓AI模型能夠同時(shí)學(xué)會(huì)生成答案和評(píng)價(jià)答案質(zhì)量,就像廚師在烹飪過程中既制作又品嘗一樣,避免了傳統(tǒng)方法中反饋稀疏和訓(xùn)練不穩(wěn)定的問題。

Q2:PACS在數(shù)學(xué)推理任務(wù)上的表現(xiàn)如何?

A:PACS在所有測(cè)試的數(shù)學(xué)推理任務(wù)上都表現(xiàn)出色。在最具挑戰(zhàn)性的AIME 2025測(cè)試中,PACS達(dá)到了59.78%的成功率,比傳統(tǒng)PPO方法提升了13.32個(gè)百分點(diǎn),比GRPO方法提升了14.36個(gè)百分點(diǎn)。在MATH 500數(shù)據(jù)集上,PACS的單次嘗試成功率達(dá)到67.31%,比基準(zhǔn)模型提升了10.65個(gè)百分點(diǎn)。這些結(jié)果證明PACS在復(fù)雜數(shù)學(xué)推理任務(wù)上具有顯著優(yōu)勢(shì)。

Q3:PACS框架可以應(yīng)用到哪些領(lǐng)域?

A:PACS框架主要適用于具有可驗(yàn)證結(jié)果的任務(wù)領(lǐng)域。除了數(shù)學(xué)推理,編程代碼生成、邏輯推理、科學(xué)計(jì)算等領(lǐng)域都可能受益于這種方法。在教育領(lǐng)域,PACS可以幫助開發(fā)更智能的自動(dòng)解題和輔導(dǎo)系統(tǒng);在工程設(shè)計(jì)中,可以用于復(fù)雜計(jì)算問題的求解;在科研領(lǐng)域,可以協(xié)助進(jìn)行數(shù)學(xué)建模和分析。不過目前PACS主要在數(shù)學(xué)推理任務(wù)上得到驗(yàn)證,在其他領(lǐng)域的效果還需要進(jìn)一步研究。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-