這項由香港大學(xué)的趙學(xué)良和螞蟻集團(tuán)的吳偉等研究者合作完成的研究發(fā)表于2025年1月,論文編號為arXiv:2509.19894v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。研究團(tuán)隊提出了一種名為PromptCoT 2.0的全新方法,讓人工智能能夠自動生成更高質(zhì)量的訓(xùn)練題目,從而實(shí)現(xiàn)自我提升。
想象一下這樣的場景:一個學(xué)霸不僅能解答各種難題,還能根據(jù)學(xué)過的知識點(diǎn)自己編出更有挑戰(zhàn)性的練習(xí)題來訓(xùn)練自己。這正是研究團(tuán)隊想要實(shí)現(xiàn)的目標(biāo)——讓AI模型具備自主出題和自我訓(xùn)練的能力。
當(dāng)前的AI訓(xùn)練面臨著一個巨大瓶頸:高質(zhì)量訓(xùn)練數(shù)據(jù)的稀缺。就像一個想要提高數(shù)學(xué)水平的學(xué)生,如果只有簡單的加減法練習(xí)題,永遠(yuǎn)無法掌握復(fù)雜的微積分。人工標(biāo)注的高質(zhì)量數(shù)據(jù)集不僅成本高昂,而且數(shù)量有限,而現(xiàn)有的合成數(shù)據(jù)往往過于簡單或者覆蓋面太窄,無法滿足訓(xùn)練需求。
研究團(tuán)隊的解決方案非常巧妙。他們發(fā)現(xiàn),如果讓AI在出題時先構(gòu)思"解題思路",然后根據(jù)這個思路來編寫題目,就能大大提高題目的質(zhì)量和難度。這就像一位經(jīng)驗豐富的老師,在設(shè)計考試題目時,會先想好"我要考查學(xué)生的哪些能力",然后圍繞這個目標(biāo)精心設(shè)計題目。
**一、從思路指導(dǎo)出題的創(chuàng)新理念**
傳統(tǒng)的AI出題方法就像是讓計算機(jī)隨機(jī)組合一些數(shù)字和符號,希望能碰運(yùn)氣生成有意義的題目。這種方法的問題顯而易見——大部分生成的題目要么過于簡單,要么邏輯混亂。
PromptCoT 2.0采用了一種全新的"概念-思路-題目"三步走策略。首先,系統(tǒng)會確定要考查的核心概念,比如"指數(shù)運(yùn)算"和"模運(yùn)算"。然后,它會構(gòu)思一個詳細(xì)的解題思路,就像老師在備課時會想:"我要讓學(xué)生先掌握指數(shù)的基本性質(zhì),然后理解模運(yùn)算的規(guī)律,最后將這兩個概念結(jié)合起來解決實(shí)際問題。"有了這個清晰的思路框架,系統(tǒng)再根據(jù)思路生成具體的題目。
這種方法的優(yōu)勢在于,生成的題目不再是隨機(jī)拼湊,而是有明確邏輯結(jié)構(gòu)的。就像一道精心設(shè)計的菜品,每個步驟都有其存在的意義,最終呈現(xiàn)出的是一個完整而和諧的整體。
研究團(tuán)隊還引入了一個關(guān)鍵的優(yōu)化機(jī)制——期望最大化循環(huán)。這個聽起來很技術(shù)化的名詞,實(shí)際上就是讓系統(tǒng)在出題過程中不斷自我反思和改進(jìn)。系統(tǒng)會評估自己生成的思路是否真的能指導(dǎo)出好題目,同時評估生成的題目是否真的體現(xiàn)了預(yù)設(shè)的思路。如果發(fā)現(xiàn)不匹配,系統(tǒng)就會調(diào)整策略,就像一個認(rèn)真的老師會根據(jù)學(xué)生的反饋不斷完善自己的教學(xué)方法。
**二、讓AI自主學(xué)習(xí)的兩種訓(xùn)練方式**
研究團(tuán)隊設(shè)計了兩種不同的訓(xùn)練模式,分別適用于不同能力水平的AI模型。
第一種是"自我對弈"模式,適用于已經(jīng)具備較強(qiáng)能力的AI模型。在這種模式下,AI系統(tǒng)就像一個武林高手,通過與自己過招來提升實(shí)力。系統(tǒng)會生成大量題目,然后嘗試解答這些題目。如果答對了,就獲得正反饋;如果答錯了,就知道這類題目還需要加強(qiáng)練習(xí)。這種方式的最大優(yōu)勢是不需要依賴更強(qiáng)的外部"老師",完全靠自己就能實(shí)現(xiàn)能力提升。
研究團(tuán)隊用這種方法訓(xùn)練了Qwen3-30B模型,結(jié)果令人印象深刻。在數(shù)學(xué)競賽AIME 2024上,模型的準(zhǔn)確率從87.7%提升到92.1%;在AIME 2025上,從85.0%提升到89.8%;在編程競賽LiveCodeBench上也取得了顯著進(jìn)步。這就像一個本來就很厲害的學(xué)生,通過自主練習(xí)進(jìn)一步提高了成績。
第二種是"有監(jiān)督學(xué)習(xí)"模式,適用于能力相對較弱的AI模型。在這種模式下,系統(tǒng)會請一個"老師"(更強(qiáng)的AI模型)來示范解題過程,然后讓學(xué)生模型觀摩學(xué)習(xí)。這就像一個初學(xué)者跟著經(jīng)驗豐富的導(dǎo)師學(xué)習(xí),通過觀察導(dǎo)師的解題步驟來掌握方法。
令人驚訝的是,即使完全使用合成題目進(jìn)行訓(xùn)練,這種方法也能取得出色效果。研究團(tuán)隊用7B參數(shù)的Qwen2.5模型進(jìn)行實(shí)驗,僅使用PromptCoT 2.0生成的題目進(jìn)行訓(xùn)練,就讓模型在AIME 2024上的準(zhǔn)確率從12.8%飆升到73.1%,在編程任務(wù)上也有類似的巨大提升。這個結(jié)果甚至超過了使用人工標(biāo)注數(shù)據(jù)訓(xùn)練的模型,證明了高質(zhì)量合成數(shù)據(jù)的巨大潛力。
**三、題目質(zhì)量的全面提升**
研究團(tuán)隊對生成題目的質(zhì)量進(jìn)行了深入分析,發(fā)現(xiàn)PromptCoT 2.0在多個維度都實(shí)現(xiàn)了顯著改進(jìn)。
從難度角度來看,新方法生成的題目明顯更具挑戰(zhàn)性。研究團(tuán)隊讓一個強(qiáng)大的AI模型(Qwen2.5-72B)嘗試解答不同方法生成的題目,發(fā)現(xiàn)PromptCoT 2.0生成的題目準(zhǔn)確率最低,只有18.5%,而其他方法生成的題目準(zhǔn)確率都在20%以上。這說明新方法確實(shí)能生成更有挑戰(zhàn)性的題目。
更有趣的是,這些困難的題目也需要更復(fù)雜的解題過程。當(dāng)研究團(tuán)隊讓AI模型生成解題步驟時,發(fā)現(xiàn)PromptCoT 2.0的題目平均需要37,373個推理標(biāo)記,遠(yuǎn)超其他方法。這就像是從簡單的一步計算題升級到了需要多步推理的復(fù)雜應(yīng)用題。
從多樣性角度來看,新方法生成的題目也展現(xiàn)出了獨(dú)特的特征。研究團(tuán)隊使用了一種叫做"多維標(biāo)度"的分析方法,將不同數(shù)據(jù)集的特征投影到二維平面上進(jìn)行比較。結(jié)果顯示,現(xiàn)有的開源數(shù)據(jù)集在二維平面上聚集成緊密的團(tuán)簇,說明它們彼此相似,缺乏多樣性。而PromptCoT 2.0生成的題目則獨(dú)占一個區(qū)域,與其他數(shù)據(jù)集明顯分離,表明它具有獨(dú)特的分布特征和更豐富的多樣性。
**四、實(shí)驗驗證的全面性**
研究團(tuán)隊在六個不同的基準(zhǔn)測試上驗證了方法的有效性,涵蓋了數(shù)學(xué)和編程兩個重要領(lǐng)域。
在數(shù)學(xué)方面,他們選擇了三個具有代表性的競賽:AIME 2024和2025(美國數(shù)學(xué)競賽的高級版本),以及HMMT 2025(哈佛-MIT數(shù)學(xué)競賽)。這些競賽題目通常需要高水平的數(shù)學(xué)推理能力,涉及代數(shù)、數(shù)論、幾何和組合數(shù)學(xué)等多個分支。
在編程方面,他們選擇了LiveCodeBench v5和v6(實(shí)時編程基準(zhǔn)測試),以及Codeforces競賽題目。這些測試涵蓋了從算法設(shè)計到代碼實(shí)現(xiàn)的完整編程能力評估。
實(shí)驗結(jié)果一致顯示,PromptCoT 2.0在所有測試中都取得了最佳表現(xiàn)。特別值得注意的是,在30B參數(shù)規(guī)模上,該方法在所有六個基準(zhǔn)測試中都創(chuàng)造了新的最佳記錄。這種全面的提升表明,方法的有效性不是偶然的,而是具有普遍適用性的。
研究團(tuán)隊還進(jìn)行了擴(kuò)展性分析,考察了在不同數(shù)據(jù)規(guī)模下方法的表現(xiàn)。結(jié)果顯示,隨著訓(xùn)練數(shù)據(jù)量的增加,PromptCoT 2.0能夠持續(xù)受益,而傳統(tǒng)的基于人工標(biāo)注的方法很快就達(dá)到了性能天花板。這種良好的擴(kuò)展性為未來的大規(guī)模應(yīng)用提供了信心。
**五、技術(shù)實(shí)現(xiàn)的巧思**
PromptCoT 2.0的技術(shù)實(shí)現(xiàn)充滿了巧妙的設(shè)計。整個系統(tǒng)分為兩個階段:冷啟動初始化和期望最大化優(yōu)化。
在冷啟動階段,系統(tǒng)需要建立基礎(chǔ)的概念-思路-題目對應(yīng)關(guān)系。研究團(tuán)隊收集了約15,000個來自數(shù)學(xué)和編程領(lǐng)域的現(xiàn)有題目,然后使用四個不同的大型語言模型來為每個題目標(biāo)注相關(guān)概念和解題思路。這就像是給系統(tǒng)提供一批"示范案例",讓它理解什么樣的概念對應(yīng)什么樣的思路,什么樣的思路又對應(yīng)什么樣的題目。
在優(yōu)化階段,系統(tǒng)會交替進(jìn)行兩個步驟。在E步驟中,系統(tǒng)會評估當(dāng)前的思路生成質(zhì)量,并根據(jù)評估結(jié)果調(diào)整思路生成策略。評估的標(biāo)準(zhǔn)是看生成的思路是否既符合給定概念,又能預(yù)測出合理的題目。在M步驟中,系統(tǒng)會根據(jù)當(dāng)前的思路來優(yōu)化題目生成過程,確保生成的題目與思路保持一致。
這種交替優(yōu)化的過程就像是兩個工匠相互配合:一個專門設(shè)計制作藍(lán)圖,另一個專門根據(jù)藍(lán)圖制作產(chǎn)品。通過不斷的磨合和調(diào)整,兩者最終能夠完美協(xié)作,產(chǎn)出高質(zhì)量的作品。
系統(tǒng)還引入了一個聰明的獎勵機(jī)制。每當(dāng)生成一個思路-題目對時,系統(tǒng)會計算這個組合的"聯(lián)合似然性"——即這個思路和題目組合在一起的合理程度。似然性高的組合會得到正反饋,促使系統(tǒng)生成更多類似的高質(zhì)量組合。
**六、實(shí)際應(yīng)用的廣闊前景**
PromptCoT 2.0的成功不僅僅是一個技術(shù)突破,更重要的是它為AI訓(xùn)練開辟了一條全新的道路。
在教育領(lǐng)域,這項技術(shù)可以幫助開發(fā)智能教學(xué)系統(tǒng)。系統(tǒng)可以根據(jù)學(xué)生的知識掌握情況,自動生成難度適宜的練習(xí)題。對于數(shù)學(xué)薄弱的學(xué)生,系統(tǒng)可以生成更多基礎(chǔ)題目;對于已經(jīng)掌握基礎(chǔ)知識的學(xué)生,系統(tǒng)可以生成更有挑戰(zhàn)性的綜合應(yīng)用題。這種個性化的題目生成能力將大大提高學(xué)習(xí)效率。
在AI開發(fā)領(lǐng)域,這項技術(shù)為解決訓(xùn)練數(shù)據(jù)稀缺問題提供了新思路。傳統(tǒng)上,開發(fā)一個新的AI應(yīng)用往往需要大量人工標(biāo)注的訓(xùn)練數(shù)據(jù),這不僅成本高昂,而且時間周期長。PromptCoT 2.0展示了通過高質(zhì)量合成數(shù)據(jù)實(shí)現(xiàn)模型能力提升的可能性,這將大大降低AI應(yīng)用的開發(fā)門檻。
在競賽和評估領(lǐng)域,這項技術(shù)可以用于生成更多樣化的測試題目。目前很多AI能力評估都依賴固定的基準(zhǔn)測試,但這些測試可能已經(jīng)被"記住"或者不夠全面。動態(tài)生成的高質(zhì)量測試題目可以提供更客觀、更全面的能力評估。
研究團(tuán)隊還展望了向多模態(tài)擴(kuò)展的可能性。目前的方法主要處理文本形式的數(shù)學(xué)和編程題目,未來可以擴(kuò)展到包含圖像、視頻等多種媒體形式的題目生成。這將進(jìn)一步擴(kuò)大應(yīng)用范圍,比如生成包含幾何圖形的數(shù)學(xué)題或者需要視覺理解的編程任務(wù)。
**七、方法論的深層意義**
PromptCoT 2.0的成功背后體現(xiàn)了一個重要的方法論原則:結(jié)構(gòu)化思維的力量。傳統(tǒng)的數(shù)據(jù)生成方法往往是"拍腦門式"的隨機(jī)組合,而這項研究強(qiáng)調(diào)的是先有清晰的思路框架,再據(jù)此生成具體內(nèi)容。
這種思路在很多領(lǐng)域都有借鑒意義。比如在寫作中,優(yōu)秀的作者通常會先構(gòu)思文章的邏輯框架,然后再填充具體內(nèi)容,而不是想到哪寫到哪。在產(chǎn)品設(shè)計中,成功的產(chǎn)品往往都有清晰的設(shè)計理念,然后圍繞這個理念展開具體功能的實(shí)現(xiàn)。
從更廣的角度來看,PromptCoT 2.0展示了"元學(xué)習(xí)"的巨大潛力。元學(xué)習(xí)簡單來說就是"學(xué)會如何學(xué)習(xí)"。在這項研究中,AI不僅學(xué)會了解題,更重要的是學(xué)會了出題。這種能力的獲得標(biāo)志著AI向更高層次的智能邁進(jìn)了一步。
研究團(tuán)隊的工作還揭示了一個有趣的現(xiàn)象:有時候合成數(shù)據(jù)的質(zhì)量可以超越人工標(biāo)注數(shù)據(jù)。這打破了長期以來"人工數(shù)據(jù)質(zhì)量更高"的固有認(rèn)知。當(dāng)然,這需要足夠巧妙的合成方法,而PromptCoT 2.0正是這樣一種方法的成功示例。
**八、未來發(fā)展的無限可能**
展望未來,PromptCoT 2.0的影響可能遠(yuǎn)超當(dāng)前的應(yīng)用范圍。
在科學(xué)研究領(lǐng)域,這種思路可能催生新的研究范式??茖W(xué)家可以訓(xùn)練AI系統(tǒng)自動生成研究假設(shè)和實(shí)驗設(shè)計,然后通過實(shí)際實(shí)驗驗證這些假設(shè)。這將大大加速科學(xué)發(fā)現(xiàn)的過程。
在創(chuàng)意產(chǎn)業(yè)中,類似的方法可以用于自動生成故事情節(jié)、游戲關(guān)卡、藝術(shù)作品等。AI系統(tǒng)可以先構(gòu)思創(chuàng)作理念,然后據(jù)此生成具體的創(chuàng)意內(nèi)容,為人類創(chuàng)作者提供靈感和助力。
在醫(yī)療診斷領(lǐng)域,這種方法可以用于生成多樣化的病例場景,幫助訓(xùn)練更robust的診斷系統(tǒng)。通過模擬各種復(fù)雜和罕見的病例組合,可以提高AI診斷系統(tǒng)的準(zhǔn)確性和可靠性。
研究團(tuán)隊也指出了一些需要進(jìn)一步研究的方向。比如如何確保生成內(nèi)容的倫理性和安全性,如何在更多領(lǐng)域驗證方法的有效性,如何進(jìn)一步提高計算效率等。
**九、對AI發(fā)展的啟示**
PromptCoT 2.0的成功為AI發(fā)展提供了幾個重要啟示。
首先,它證明了"自我改進(jìn)"在AI發(fā)展中的巨大潛力。與依賴外部數(shù)據(jù)或更強(qiáng)模型的傳統(tǒng)方法不同,這種自我出題自我訓(xùn)練的方式展現(xiàn)了AI系統(tǒng)內(nèi)在的成長能力。這為實(shí)現(xiàn)真正的通用人工智能提供了新的思路。
其次,它強(qiáng)調(diào)了結(jié)構(gòu)化方法在復(fù)雜任務(wù)中的重要性。通過引入思路這個中間層,整個生成過程變得更加可控和高效。這提醒我們在設(shè)計AI系統(tǒng)時,應(yīng)該更多考慮如何引入合適的結(jié)構(gòu)化元素。
再次,它展示了合成數(shù)據(jù)的巨大潛力。隨著AI能力的提升,高質(zhì)量的合成數(shù)據(jù)可能成為訓(xùn)練更強(qiáng)AI系統(tǒng)的主要途徑。這將減少對人工標(biāo)注數(shù)據(jù)的依賴,降低AI開發(fā)的成本和門檻。
最后,它體現(xiàn)了評估反饋在AI學(xué)習(xí)中的關(guān)鍵作用。通過設(shè)計巧妙的獎勵機(jī)制,系統(tǒng)能夠自動識別高質(zhì)量的內(nèi)容并強(qiáng)化相應(yīng)的生成策略。這為設(shè)計更智能的學(xué)習(xí)算法提供了參考。
說到底,PromptCoT 2.0不僅僅是一個技術(shù)方案,更是一種全新的AI訓(xùn)練哲學(xué)。它告訴我們,AI系統(tǒng)不應(yīng)該只是被動地接受訓(xùn)練,而應(yīng)該主動地參與到自己的學(xué)習(xí)過程中。通過讓AI學(xué)會出題,我們實(shí)際上是在培養(yǎng)它的"思考能力"和"創(chuàng)造能力"。這種能力的培養(yǎng)可能是實(shí)現(xiàn)真正智能AI的關(guān)鍵一步。
研究團(tuán)隊已經(jīng)將相關(guān)代碼和數(shù)據(jù)集公開發(fā)布,為整個AI社區(qū)提供了寶貴的資源。相信在不久的將來,我們將看到更多基于這一思路的創(chuàng)新應(yīng)用,推動人工智能向更高層次發(fā)展。歸根結(jié)底,這項研究為我們展現(xiàn)了一個激動人心的未來:AI不僅能解決問題,更能提出問題,不僅能學(xué)習(xí)知識,更能創(chuàng)造知識。
Q&A
Q1:PromptCoT 2.0是什么?
A:PromptCoT 2.0是由香港大學(xué)和螞蟻集團(tuán)聯(lián)合開發(fā)的AI訓(xùn)練方法,它能讓人工智能自動生成高質(zhì)量的訓(xùn)練題目。這種方法的核心思想是讓AI先構(gòu)思解題思路,再根據(jù)思路生成具體題目,就像老師備課時會先想好教學(xué)思路再設(shè)計習(xí)題一樣。
Q2:PromptCoT 2.0比傳統(tǒng)方法好在哪里?
A:傳統(tǒng)方法生成的題目往往過于簡單或邏輯混亂,而PromptCoT 2.0通過"概念-思路-題目"三步走策略,能生成更有挑戰(zhàn)性和邏輯性的題目。實(shí)驗顯示,用這種方法訓(xùn)練的AI模型在數(shù)學(xué)競賽AIME上準(zhǔn)確率從87.7%提升到92.1%,在編程任務(wù)上也有顯著提升。
Q3:普通人能用到PromptCoT 2.0技術(shù)嗎?
A:雖然這項技術(shù)目前主要用于AI研究,但它的應(yīng)用前景很廣泛。未來可能會應(yīng)用到智能教學(xué)系統(tǒng)中,根據(jù)學(xué)生水平自動生成合適難度的練習(xí)題,或者用于開發(fā)更智能的學(xué)習(xí)輔助工具。研究團(tuán)隊已經(jīng)公開了相關(guān)代碼,為進(jìn)一步應(yīng)用開發(fā)奠定了基礎(chǔ)。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。