這項(xiàng)由上海人工智能實(shí)驗(yàn)室的劉子羽、臧雨航等研究人員領(lǐng)導(dǎo)的研究發(fā)表于2025年1月,論文標(biāo)題為《SPARK:協(xié)同策略與獎(jiǎng)勵(lì)共同進(jìn)化框架》,有興趣深入了解的讀者可以通過(guò)arXiv:2509.22624查詢完整論文。這項(xiàng)研究提出了一種全新的AI訓(xùn)練方法,讓大型語(yǔ)言模型在學(xué)習(xí)推理的同時(shí),也學(xué)會(huì)如何評(píng)判自己的答案質(zhì)量,就像讓學(xué)生既會(huì)做題,又會(huì)當(dāng)老師批改作業(yè)一樣。
在當(dāng)前的AI訓(xùn)練中,研究人員通常面臨一個(gè)兩難選擇:要么使用可以驗(yàn)證的標(biāo)準(zhǔn)答案進(jìn)行訓(xùn)練(比如數(shù)學(xué)題),但這種方法只能應(yīng)用于有明確對(duì)錯(cuò)的問(wèn)題;要么收集大量人類的偏好數(shù)據(jù)來(lái)訓(xùn)練一個(gè)專門的評(píng)判模型,但這種方法成本極高,而且評(píng)判模型往往跟不上主模型的進(jìn)步速度。這就像培養(yǎng)一個(gè)學(xué)生,要么只讓他做有標(biāo)準(zhǔn)答案的題目,要么花大價(jià)錢請(qǐng)很多老師來(lái)評(píng)判他的答案,但老師的水平可能還跟不上學(xué)生的進(jìn)步。
研究團(tuán)隊(duì)提出的SPARK框架巧妙地解決了這個(gè)問(wèn)題。它的核心思想是讓AI模型在學(xué)習(xí)推理的過(guò)程中,同時(shí)學(xué)會(huì)評(píng)判答案的好壞,就像讓一個(gè)學(xué)生在做作業(yè)的同時(shí),也學(xué)會(huì)給自己的作業(yè)打分和找錯(cuò)誤。這種方法不需要額外的人類標(biāo)注數(shù)據(jù),也不需要訓(xùn)練獨(dú)立的評(píng)判模型,而是讓模型自己承擔(dān)起"學(xué)生"和"老師"的雙重角色。
一、變廢為寶的訓(xùn)練數(shù)據(jù)回收
傳統(tǒng)的AI訓(xùn)練方法在每次更新模型參數(shù)后,會(huì)丟棄那些用來(lái)訓(xùn)練的候選答案和正確性信息,就像學(xué)生做完練習(xí)題后就把草稿紙扔掉一樣。但是SPARK框架認(rèn)為這些"廢料"其實(shí)是寶貴的訓(xùn)練資源。
當(dāng)模型生成多個(gè)候選答案時(shí),比如對(duì)一道數(shù)學(xué)題給出五個(gè)不同的解答,研究團(tuán)隊(duì)會(huì)根據(jù)這些答案的正確性,將它們重新組織成三種類型的訓(xùn)練數(shù)據(jù)。第一種是單獨(dú)判斷類型,就像問(wèn)模型"這個(gè)答案對(duì)不對(duì)",訓(xùn)練模型學(xué)會(huì)獨(dú)立評(píng)判一個(gè)答案的質(zhì)量。第二種是比較判斷類型,給模型兩個(gè)答案讓它選擇哪個(gè)更好,這就像讓模型在多個(gè)選項(xiàng)中做出選擇。第三種是反思改進(jìn)類型,當(dāng)模型給出錯(cuò)誤答案時(shí),讓它學(xué)會(huì)發(fā)現(xiàn)錯(cuò)誤并給出正確的解答,這相當(dāng)于培養(yǎng)模型的自我糾錯(cuò)能力。
這種回收利用的方法非常高效,因?yàn)樗械挠?xùn)練數(shù)據(jù)都來(lái)自模型自己的輸出,不需要額外的人工標(biāo)注。更重要的是,這些數(shù)據(jù)總是與模型當(dāng)前的能力水平保持同步,避免了傳統(tǒng)方法中評(píng)判模型滯后于主模型的問(wèn)題。就像學(xué)生總是在做適合自己當(dāng)前水平的練習(xí)題,而不是做過(guò)時(shí)的簡(jiǎn)單題目。
二、策略與獎(jiǎng)勵(lì)的良性循環(huán)
SPARK框架的另一個(gè)創(chuàng)新之處在于建立了一個(gè)正向反饋循環(huán)。當(dāng)模型的判斷能力提高時(shí),它能夠?yàn)樽约旱耐评磉^(guò)程提供更準(zhǔn)確的反饋信號(hào),從而促進(jìn)推理能力的進(jìn)一步提升。而推理能力的提升又會(huì)產(chǎn)生更高質(zhì)量的候選答案,這些答案又能幫助模型學(xué)習(xí)更好的判斷標(biāo)準(zhǔn)。
這個(gè)過(guò)程就像一個(gè)學(xué)生在學(xué)習(xí)過(guò)程中不斷自我改進(jìn):做題能力越強(qiáng),自我檢查能力就越好;自我檢查能力越強(qiáng),又能發(fā)現(xiàn)更多錯(cuò)誤,從而提高做題能力。這種相互促進(jìn)的關(guān)系讓模型能夠在沒(méi)有外部監(jiān)督的情況下持續(xù)改進(jìn)。
具體來(lái)說(shuō),模型在每個(gè)訓(xùn)練步驟中會(huì)生成多個(gè)候選答案,然后使用可驗(yàn)證的獎(jiǎng)勵(lì)信號(hào)(比如數(shù)學(xué)題的正確答案)來(lái)計(jì)算每個(gè)候選答案的質(zhì)量分?jǐn)?shù)。這些分?jǐn)?shù)不僅用于更新模型的推理參數(shù),還用于生成前面提到的三種類型的判斷訓(xùn)練數(shù)據(jù)。通過(guò)同時(shí)優(yōu)化推理和判斷兩種能力,模型能夠?qū)崿F(xiàn)更穩(wěn)定和更快速的改進(jìn)。
三、測(cè)試時(shí)的自我反思能力
由于SPARK訓(xùn)練出的模型既具備推理能力又具備判斷能力,它在實(shí)際應(yīng)用中可以進(jìn)行自我反思和改進(jìn)。當(dāng)面對(duì)一個(gè)新問(wèn)題時(shí),模型首先會(huì)給出一個(gè)初始答案,然后自己評(píng)判這個(gè)答案是否正確。如果判斷結(jié)果是錯(cuò)誤的,模型會(huì)進(jìn)行反思,重新分析問(wèn)題并給出改進(jìn)的答案。
這個(gè)過(guò)程類似于一個(gè)學(xué)生在考試時(shí)的思考過(guò)程:先給出一個(gè)答案,然后檢查這個(gè)答案是否合理,如果發(fā)現(xiàn)問(wèn)題就重新思考并修正。這種自我反思能力讓模型能夠在測(cè)試時(shí)動(dòng)態(tài)地提高答案質(zhì)量,而不需要依賴外部的評(píng)判模型。
更重要的是,這種自我反思機(jī)制可以擴(kuò)展到那些沒(méi)有標(biāo)準(zhǔn)答案的開放性問(wèn)題上。即使在訓(xùn)練時(shí)只使用了有標(biāo)準(zhǔn)答案的數(shù)學(xué)題,模型學(xué)到的判斷能力也能夠泛化到其他領(lǐng)域,比如判斷文本回答的質(zhì)量或圖像描述的準(zhǔn)確性。
四、實(shí)驗(yàn)結(jié)果展現(xiàn)顯著優(yōu)勢(shì)
研究團(tuán)隊(duì)在多個(gè)不同規(guī)模的模型上驗(yàn)證了SPARK框架的有效性,包括70億參數(shù)、320億參數(shù)的多模態(tài)模型,以及70億參數(shù)的純文本模型。實(shí)驗(yàn)涵蓋了數(shù)學(xué)推理、獎(jiǎng)勵(lì)評(píng)判和通用能力三大類評(píng)測(cè)。
在數(shù)學(xué)推理方面,SPARK-VL-7B模型在七個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試上平均提升了9.7%,這相當(dāng)于從班級(jí)中等水平提升到了優(yōu)秀水平。特別值得注意的是,在一些具體的數(shù)學(xué)任務(wù)上,提升幅度甚至達(dá)到了26.7%,這是相當(dāng)顯著的改進(jìn)。
在獎(jiǎng)勵(lì)評(píng)判能力方面,模型在兩個(gè)專門測(cè)試AI判斷能力的基準(zhǔn)上平均提升了12.1%。這意味著經(jīng)過(guò)SPARK訓(xùn)練的模型不僅推理能力更強(qiáng),判斷其他答案質(zhì)量的能力也顯著提升。研究團(tuán)隊(duì)特別指出,雖然訓(xùn)練時(shí)只使用了數(shù)學(xué)相關(guān)的數(shù)據(jù),但模型的判斷能力能夠很好地泛化到其他領(lǐng)域,這說(shuō)明SPARK學(xué)到的是一種通用的評(píng)判思維模式。
在通用能力測(cè)試中,SPARK模型在八個(gè)綜合性基準(zhǔn)測(cè)試上平均提升了1.5%。雖然這個(gè)提升看起來(lái)不如專項(xiàng)能力那么顯著,但考慮到這些是非常全面的測(cè)試,包括常識(shí)推理、閱讀理解、視覺(jué)問(wèn)答等多個(gè)方面,這樣的提升已經(jīng)很有價(jià)值了。
五、與傳統(tǒng)方法的深度對(duì)比
為了證明SPARK的優(yōu)勢(shì),研究團(tuán)隊(duì)設(shè)計(jì)了詳細(xì)的對(duì)比實(shí)驗(yàn)。他們比較了只訓(xùn)練推理能力(Policy-Only)、只訓(xùn)練判斷能力(Reward-Only)、同時(shí)訓(xùn)練兩種能力但不使用協(xié)同機(jī)制(Policy&Reward),以及完整的SPARK方法。
結(jié)果顯示,只訓(xùn)練推理能力的模型在數(shù)學(xué)任務(wù)上表現(xiàn)較好,但判斷能力較弱。只訓(xùn)練判斷能力的模型則相反,判斷能力強(qiáng)但推理能力受損。同時(shí)訓(xùn)練兩種能力但不使用協(xié)同機(jī)制的模型介于兩者之間,但仍然不如SPARK的表現(xiàn)。
這個(gè)對(duì)比清楚地表明,SPARK的核心價(jià)值不僅在于同時(shí)訓(xùn)練兩種能力,更在于它建立的協(xié)同進(jìn)化機(jī)制。就像一個(gè)樂(lè)隊(duì)中,不僅需要每個(gè)樂(lè)手都會(huì)演奏自己的樂(lè)器,更需要他們能夠相互配合,形成和諧的整體效果。
研究團(tuán)隊(duì)還比較了SPARK與其他最新的AI訓(xùn)練方法,包括VL-Rethinker、MM-Eureka、Vision-R1等。在幾乎所有的對(duì)比中,SPARK都顯示出了明顯的優(yōu)勢(shì),特別是在需要復(fù)雜推理和自我反思的任務(wù)上。
六、效率優(yōu)勢(shì)與成本分析
SPARK框架的另一個(gè)重要優(yōu)勢(shì)是訓(xùn)練效率。傳統(tǒng)的基于獎(jiǎng)勵(lì)模型的方法需要首先收集大量的人類偏好數(shù)據(jù),然后訓(xùn)練一個(gè)獨(dú)立的獎(jiǎng)勵(lì)模型,最后使用這個(gè)獎(jiǎng)勵(lì)模型來(lái)指導(dǎo)主模型的訓(xùn)練。這個(gè)過(guò)程不僅成本高昂,而且在實(shí)際應(yīng)用中還需要同時(shí)運(yùn)行主模型和獎(jiǎng)勵(lì)模型,導(dǎo)致計(jì)算資源消耗大約是單模型的兩倍。
相比之下,SPARK只需要一個(gè)統(tǒng)一的模型,所有的訓(xùn)練數(shù)據(jù)都來(lái)自模型自己的輸出,不需要額外的人工標(biāo)注。在實(shí)際應(yīng)用中,也只需要運(yùn)行一個(gè)模型就能同時(shí)獲得推理和判斷能力。這就像原來(lái)需要請(qǐng)兩個(gè)專家(一個(gè)負(fù)責(zé)解題,一個(gè)負(fù)責(zé)評(píng)判),現(xiàn)在只需要一個(gè)全才就能完成所有工作。
研究團(tuán)隊(duì)的成本分析顯示,SPARK的訓(xùn)練成本大約只有傳統(tǒng)方法的一半,而且隨著模型規(guī)模的增大,這種優(yōu)勢(shì)會(huì)更加明顯。這對(duì)于推動(dòng)AI技術(shù)的普及和應(yīng)用具有重要意義,特別是對(duì)那些計(jì)算資源有限的研究機(jī)構(gòu)和公司來(lái)說(shuō)。
七、技術(shù)細(xì)節(jié)與實(shí)現(xiàn)原理
SPARK框架的技術(shù)實(shí)現(xiàn)建立在GRPO(Group Relative Policy Optimization)算法的基礎(chǔ)上,但加入了創(chuàng)新的數(shù)據(jù)回收和協(xié)同訓(xùn)練機(jī)制。在每個(gè)訓(xùn)練步驟中,模型會(huì)對(duì)同一個(gè)問(wèn)題生成多個(gè)候選答案,然后根據(jù)可驗(yàn)證的獎(jiǎng)勵(lì)信號(hào)計(jì)算每個(gè)答案的優(yōu)勢(shì)分?jǐn)?shù)。
這些優(yōu)勢(shì)分?jǐn)?shù)有雙重用途:一方面用于傳統(tǒng)的策略梯度更新,提升模型的推理能力;另一方面用于構(gòu)造判斷和反思的訓(xùn)練樣本,提升模型的評(píng)判能力。這種設(shè)計(jì)確保了兩種能力的訓(xùn)練始終保持同步,避免了一種能力的提升以犧牲另一種能力為代價(jià)。
在生成判斷訓(xùn)練數(shù)據(jù)時(shí),研究團(tuán)隊(duì)設(shè)計(jì)了巧妙的提示模板。對(duì)于單點(diǎn)判斷任務(wù),模型需要回答"這個(gè)答案是否正確";對(duì)于對(duì)比判斷任務(wù),模型需要在兩個(gè)答案中選擇更好的一個(gè);對(duì)于反思任務(wù),模型需要識(shí)別錯(cuò)誤答案并提供正確的解決方案。這三種任務(wù)類型互相補(bǔ)充,全面提升了模型的判斷和自我糾錯(cuò)能力。
八、泛化能力的驚人發(fā)現(xiàn)
研究中一個(gè)特別有趣的發(fā)現(xiàn)是SPARK的強(qiáng)大泛化能力。雖然訓(xùn)練時(shí)只使用了數(shù)學(xué)相關(guān)的可驗(yàn)證獎(jiǎng)勵(lì),但訓(xùn)練出的模型在其他領(lǐng)域的判斷能力也得到了顯著提升。比如在視覺(jué)問(wèn)答、文本評(píng)估等任務(wù)上,SPARK訓(xùn)練的模型都表現(xiàn)出了優(yōu)秀的判斷能力。
這說(shuō)明數(shù)學(xué)推理中學(xué)到的邏輯思維和判斷標(biāo)準(zhǔn)能夠遷移到其他認(rèn)知任務(wù)中。就像學(xué)會(huì)了嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)證明方法的學(xué)生,在分析其他問(wèn)題時(shí)也會(huì)更加邏輯清晰、條理分明。這種跨領(lǐng)域的能力遷移對(duì)于構(gòu)建通用人工智能具有重要意義。
研究團(tuán)隊(duì)還發(fā)現(xiàn),模型的自我反思能力在測(cè)試時(shí)能夠持續(xù)提升答案質(zhì)量。在一些復(fù)雜的推理任務(wù)中,經(jīng)過(guò)自我反思的答案質(zhì)量比初始答案提升了10-15%。這種能力讓AI模型更像人類專家,能夠通過(guò)深入思考來(lái)提高解決問(wèn)題的質(zhì)量。
九、與現(xiàn)有方法的根本區(qū)別
SPARK與現(xiàn)有AI訓(xùn)練方法的根本區(qū)別在于它統(tǒng)一了策略學(xué)習(xí)和價(jià)值判斷。傳統(tǒng)方法將這兩個(gè)過(guò)程分離:先訓(xùn)練一個(gè)模型來(lái)生成答案,再訓(xùn)練另一個(gè)模型來(lái)評(píng)判答案質(zhì)量。這種分離導(dǎo)致了很多問(wèn)題,比如兩個(gè)模型的能力不匹配、訓(xùn)練數(shù)據(jù)的浪費(fèi)、部署成本的增加等。
SPARK的創(chuàng)新之處在于認(rèn)識(shí)到策略和價(jià)值其實(shí)是同一個(gè)認(rèn)知過(guò)程的兩個(gè)方面。一個(gè)真正理解問(wèn)題的模型既應(yīng)該能夠給出好的答案,也應(yīng)該能夠識(shí)別好答案和壞答案的區(qū)別。通過(guò)在同一個(gè)模型中統(tǒng)一這兩種能力,SPARK實(shí)現(xiàn)了更高的訓(xùn)練效率和更好的性能表現(xiàn)。
這種統(tǒng)一的方法也更符合人類的學(xué)習(xí)模式。當(dāng)我們學(xué)習(xí)一個(gè)新領(lǐng)域時(shí),獲得知識(shí)和獲得判斷力往往是同步進(jìn)行的。隨著對(duì)領(lǐng)域理解的加深,我們既能更好地解決問(wèn)題,也能更準(zhǔn)確地評(píng)估解決方案的質(zhì)量。
十、未來(lái)發(fā)展的廣闊前景
SPARK框架為AI訓(xùn)練開辟了新的方向,特別是在自監(jiān)督學(xué)習(xí)和元學(xué)習(xí)方面。由于它能夠讓模型學(xué)會(huì)自我評(píng)估和自我改進(jìn),這為構(gòu)建能夠持續(xù)學(xué)習(xí)的AI系統(tǒng)奠定了基礎(chǔ)。
在實(shí)際應(yīng)用中,SPARK訓(xùn)練的模型可以部署到各種需要推理和判斷的場(chǎng)景中,比如教育輔導(dǎo)、代碼審查、文檔分析等。由于模型具備自我反思能力,它們能夠在這些應(yīng)用中提供更可靠和更高質(zhì)量的服務(wù)。
研究團(tuán)隊(duì)也指出了一些有待進(jìn)一步探索的方向。比如如何將SPARK擴(kuò)展到更多類型的可驗(yàn)證獎(jiǎng)勵(lì),如何在更大規(guī)模的模型上驗(yàn)證其效果,以及如何將這種協(xié)同訓(xùn)練的思想應(yīng)用到其他AI任務(wù)中。
從更廣闊的角度看,SPARK代表了AI訓(xùn)練方法的一個(gè)重要進(jìn)步:從依賴外部監(jiān)督轉(zhuǎn)向內(nèi)在自我改進(jìn)。這種轉(zhuǎn)變可能會(huì)推動(dòng)AI系統(tǒng)向更加自主和智能的方向發(fā)展,最終實(shí)現(xiàn)真正意義上的人工智能。
說(shuō)到底,SPARK的成功證明了一個(gè)重要觀點(diǎn):AI的推理能力和判斷能力不應(yīng)該被人為分割,而應(yīng)該作為統(tǒng)一的認(rèn)知能力來(lái)培養(yǎng)。這種整體性的方法不僅提高了訓(xùn)練效率,也讓AI模型表現(xiàn)出更接近人類專家的思維模式。對(duì)于普通用戶來(lái)說(shuō),這意味著未來(lái)的AI助手將更加可靠、更善于自我糾錯(cuò),能夠提供更高質(zhì)量的幫助和建議。
雖然目前SPARK還主要在學(xué)術(shù)研究階段,但其顯示出的巨大潛力表明,這種新的訓(xùn)練方法很可能會(huì)被廣泛應(yīng)用到實(shí)際的AI產(chǎn)品中。當(dāng)這種技術(shù)成熟并普及時(shí),我們將看到AI在教育、科研、創(chuàng)作等各個(gè)領(lǐng)域發(fā)揮更大的作用,真正成為人類智慧的有力延伸。
Q&A
Q1:SPARK框架相比傳統(tǒng)AI訓(xùn)練方法有什么優(yōu)勢(shì)?
A:SPARK最大的優(yōu)勢(shì)是讓AI模型同時(shí)學(xué)會(huì)推理和判斷,就像培養(yǎng)一個(gè)既會(huì)做題又會(huì)批改作業(yè)的學(xué)生。傳統(tǒng)方法需要分別訓(xùn)練兩個(gè)模型,成本高且效率低,而SPARK只需要一個(gè)模型就能完成所有功能,訓(xùn)練成本降低一半,且性能更好。
Q2:SPARK訓(xùn)練的AI模型能應(yīng)用到哪些實(shí)際場(chǎng)景?
A:由于SPARK模型具備自我反思和糾錯(cuò)能力,可以應(yīng)用到教育輔導(dǎo)、代碼審查、文檔分析、內(nèi)容創(chuàng)作等需要推理和判斷的場(chǎng)景。模型能夠自己檢查答案質(zhì)量并進(jìn)行改進(jìn),提供更可靠的服務(wù)。
Q3:SPARK的自我反思機(jī)制是如何工作的?
A:SPARK訓(xùn)練的模型在回答問(wèn)題后會(huì)自己評(píng)判答案是否正確,如果發(fā)現(xiàn)錯(cuò)誤就會(huì)重新分析并給出改進(jìn)方案。這個(gè)過(guò)程類似于學(xué)生考試時(shí)的自我檢查,能夠在沒(méi)有外部監(jiān)督的情況下提升答案質(zhì)量10-15%。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。