這項(xiàng)由復(fù)旦大學(xué)數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室任慶宇、何乾昱等研究團(tuán)隊(duì)完成的研究發(fā)表于2025年8月,詳細(xì)展現(xiàn)了如何讓AI推理模型在不依賴更強(qiáng)大外部模型指導(dǎo)的情況下,顯著提升指令遵循能力。有興趣深入了解的讀者可以通過(guò)論文地址https://github.com/Rainier-rq/verl-if訪問(wèn)完整研究資料。
當(dāng)我們與AI助手對(duì)話時(shí),經(jīng)常會(huì)遇到這樣的情況:當(dāng)你給它一個(gè)簡(jiǎn)單任務(wù)時(shí),它表現(xiàn)得很好,但一旦你的要求變得復(fù)雜——比如"寫(xiě)一首關(guān)于春天的詩(shī),要求必須包含'希望'這個(gè)詞,總共不超過(guò)50字,用問(wèn)號(hào)結(jié)尾,并且要體現(xiàn)樂(lè)觀情緒"——AI就開(kāi)始犯迷糊了。它可能寫(xiě)出一首很棒的詩(shī),但忘記了字?jǐn)?shù)限制,或者記住了字?jǐn)?shù)卻忘記了用問(wèn)號(hào)結(jié)尾。
這就像是一個(gè)聰明的學(xué)生,在數(shù)學(xué)考試中能解出復(fù)雜的方程,但總是忘記在答題卡上寫(xiě)名字或者沒(méi)按要求用黑色水筆答題。這種現(xiàn)象在AI領(lǐng)域被稱為"推理能力與指令遵循能力的權(quán)衡",簡(jiǎn)單說(shuō)就是AI要么擅長(zhǎng)思考復(fù)雜問(wèn)題,要么擅長(zhǎng)聽(tīng)話照做,很難兩者兼得。
更讓人頭疼的是,目前解決這個(gè)問(wèn)題的方法都需要"請(qǐng)外援"。就像一個(gè)學(xué)習(xí)成績(jī)不好的學(xué)生,需要找更厲害的學(xué)霸來(lái)當(dāng)家教,通過(guò)模仿學(xué)霸的解題過(guò)程來(lái)提高自己。在AI世界里,這意味著需要更強(qiáng)大、更昂貴的AI模型來(lái)充當(dāng)"老師",指導(dǎo)較小的模型如何更好地遵循指令。這不僅成本高昂,還面臨一個(gè)根本性問(wèn)題:學(xué)生永遠(yuǎn)無(wú)法超越老師,因?yàn)樗荒軐W(xué)到老師已經(jīng)會(huì)的東西。
復(fù)旦大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)顛覆性的解決方案:讓AI模型通過(guò)自我督導(dǎo)的強(qiáng)化學(xué)習(xí)來(lái)提升指令遵循能力,就像一個(gè)學(xué)生通過(guò)自己琢磨、自己練習(xí),逐漸掌握了既解題又規(guī)范答題的技能。這種方法的神奇之處在于,它不需要外部的"超級(jí)老師",而是讓模型從自己的學(xué)習(xí)過(guò)程中產(chǎn)生的信號(hào)來(lái)指導(dǎo)自己進(jìn)步。
研究團(tuán)隊(duì)的核心發(fā)現(xiàn)是,指令中的各種約束條件本身就具有可驗(yàn)證性?;氐絼偛艑?xiě)詩(shī)的例子,我們可以很容易地檢查一首詩(shī)是否包含了"希望"這個(gè)詞(數(shù)一數(shù)就知道),是否超過(guò)了50字(數(shù)字?jǐn)?shù)),是否以問(wèn)號(hào)結(jié)尾(看最后一個(gè)標(biāo)點(diǎn)符號(hào)),以及是否體現(xiàn)了樂(lè)觀情緒(這需要一些判斷,但也是可以評(píng)估的)。這些檢查結(jié)果就成了模型自我學(xué)習(xí)的"內(nèi)部信號(hào)"。
一、漸進(jìn)式約束課程:從簡(jiǎn)單到復(fù)雜的學(xué)習(xí)路徑
傳統(tǒng)的訓(xùn)練方法就像直接讓一個(gè)剛學(xué)會(huì)加法的小學(xué)生去解微積分題,結(jié)果可想而知。復(fù)旦團(tuán)隊(duì)采用了一種更加符合人類(lèi)學(xué)習(xí)規(guī)律的方法:漸進(jìn)式約束課程。
這個(gè)方法的核心思想是將復(fù)雜的多約束指令分解成一系列遞增難度的學(xué)習(xí)任務(wù)。比如原本的指令是"寫(xiě)一首關(guān)于春天的詩(shī),要求包含'希望'這個(gè)詞,不超過(guò)50字,用問(wèn)號(hào)結(jié)尾,體現(xiàn)樂(lè)觀情緒",他們會(huì)創(chuàng)建一個(gè)學(xué)習(xí)序列:首先讓模型學(xué)會(huì)"寫(xiě)一首關(guān)于春天的詩(shī),要求包含'希望'這個(gè)詞",接著學(xué)習(xí)"寫(xiě)一首關(guān)于春天的詩(shī),要求包含'希望'這個(gè)詞,不超過(guò)50字",然后是三個(gè)約束的版本,最后才是包含所有五個(gè)約束的完整任務(wù)。
這就像教小朋友騎自行車(chē)一樣。你不會(huì)一開(kāi)始就讓他們?cè)诜泵Φ慕值郎向T車(chē),而是先在空曠的操場(chǎng)上練習(xí)平衡,然后練習(xí)踩踏板,接著學(xué)會(huì)轉(zhuǎn)彎,最后才讓他們應(yīng)對(duì)真實(shí)的交通環(huán)境。通過(guò)這種循序漸進(jìn)的方式,模型在每個(gè)學(xué)習(xí)階段都能獲得足夠密集的反饋信號(hào),避免了直接面對(duì)復(fù)雜任務(wù)時(shí)出現(xiàn)的"學(xué)習(xí)信號(hào)稀疏"問(wèn)題。
研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含五個(gè)難度級(jí)別的課程體系。第一級(jí)包含2806個(gè)單約束指令,第二級(jí)有2745個(gè)雙約束指令,依此類(lèi)推,直到第五級(jí)的2619個(gè)五約束指令。這種設(shè)計(jì)確保了模型能夠在掌握簡(jiǎn)單技能的基礎(chǔ)上逐步攀升到更高的復(fù)雜度水平。
在這個(gè)漸進(jìn)學(xué)習(xí)過(guò)程中,模型逐漸建立起了一種"約束感知能力"。就像一個(gè)經(jīng)驗(yàn)豐富的司機(jī),不僅知道如何開(kāi)車(chē),還能同時(shí)注意限速標(biāo)志、交通信號(hào)、行人動(dòng)態(tài)等多個(gè)因素。模型學(xué)會(huì)了在生成內(nèi)容的同時(shí),持續(xù)監(jiān)控自己是否滿足了每一個(gè)指定的約束條件。
二、智能獎(jiǎng)勵(lì)建模:區(qū)分硬約束與軟約束的精準(zhǔn)評(píng)估
在現(xiàn)實(shí)世界中,指令中的約束可以分為兩大類(lèi):一類(lèi)是像"字?jǐn)?shù)不超過(guò)50"這樣明確可驗(yàn)證的硬約束,另一類(lèi)是像"體現(xiàn)樂(lè)觀情緒"這樣需要語(yǔ)義理解的軟約束。就像考試中有客觀題和主觀題,需要不同的評(píng)分方法。
對(duì)于硬約束,研究團(tuán)隊(duì)采用了程序化驗(yàn)證的方法。這就像用尺子測(cè)量長(zhǎng)度一樣直接準(zhǔn)確:要么滿足要求得1分,要么不滿足得0分。比如檢查文本是否以問(wèn)號(hào)結(jié)尾,程序只需要查看最后一個(gè)字符是否為"?"即可。
軟約束的處理則更加巧妙。研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)重要規(guī)律:在漸進(jìn)式學(xué)習(xí)過(guò)程中,當(dāng)模型從處理k-1個(gè)約束的指令升級(jí)到處理k個(gè)約束的指令時(shí),新增約束往往是第k個(gè)約束。這意呀著,模型在面對(duì)k個(gè)約束時(shí)生成的回答通常會(huì)滿足第k個(gè)約束,而在面對(duì)k-1個(gè)約束時(shí)生成的回答通常不會(huì)滿足第k個(gè)約束。
利用這個(gè)規(guī)律,他們構(gòu)建了一個(gè)自監(jiān)督的訓(xùn)練數(shù)據(jù)集:將滿足第k個(gè)約束的回答標(biāo)記為正樣本,將不滿足的標(biāo)記為負(fù)樣本。這樣就無(wú)需外部模型的幫助,僅通過(guò)模型自身的學(xué)習(xí)過(guò)程就產(chǎn)生了大量的訓(xùn)練數(shù)據(jù)。
為了驗(yàn)證這種自監(jiān)督方法的有效性,研究團(tuán)隊(duì)進(jìn)行了人工標(biāo)注實(shí)驗(yàn)。他們發(fā)現(xiàn)自己構(gòu)建的數(shù)據(jù)集與人類(lèi)標(biāo)注結(jié)果的一致性達(dá)到了94%的肯德?tīng)柕燃?jí)相關(guān)系數(shù)和97%的位置一致性,這表明這種自監(jiān)督方法確實(shí)能夠準(zhǔn)確捕捉約束滿足情況。
在實(shí)際應(yīng)用中,這個(gè)獎(jiǎng)勵(lì)模型采用了約束級(jí)別的二元分類(lèi)方法。對(duì)于每個(gè)約束,模型會(huì)輸出一個(gè)0到1之間的概率值,表示回答滿足該約束的可能性。這種細(xì)粒度的評(píng)估方式不僅提供了更精確的反饋信號(hào),還大大提高了計(jì)算效率,因?yàn)樗苊饬藗鹘y(tǒng)生成式獎(jiǎng)勵(lì)模型的高昂計(jì)算成本。
三、強(qiáng)化學(xué)習(xí)優(yōu)化:讓AI在實(shí)踐中自我完善
有了漸進(jìn)課程和智能獎(jiǎng)勵(lì)系統(tǒng),最后一步就是讓模型在實(shí)際訓(xùn)練中不斷優(yōu)化自己的行為。這就像一個(gè)運(yùn)動(dòng)員通過(guò)反復(fù)練習(xí)和教練反饋來(lái)提高技能水平。
研究團(tuán)隊(duì)采用了GRPO(生成式強(qiáng)化學(xué)習(xí)策略優(yōu)化)算法來(lái)訓(xùn)練模型。這個(gè)算法的工作原理可以比作一個(gè)反復(fù)試錯(cuò)和改進(jìn)的過(guò)程:模型先按照當(dāng)前的"直覺(jué)"生成一個(gè)回答,然后接受獎(jiǎng)勵(lì)系統(tǒng)的評(píng)估,如果得到了高分,就會(huì)增強(qiáng)產(chǎn)生這種回答的傾向;如果得分較低,就會(huì)調(diào)整策略避免類(lèi)似的錯(cuò)誤。
在具體實(shí)現(xiàn)上,模型會(huì)將不同類(lèi)型約束的獎(jiǎng)勵(lì)信號(hào)綜合起來(lái)形成一個(gè)整體評(píng)分。對(duì)于包含k個(gè)約束的指令,最終的獎(jiǎng)勵(lì)值是所有約束滿足度的平均值。這種設(shè)計(jì)確保了模型不會(huì)因?yàn)閷?zhuān)注于某幾個(gè)容易滿足的約束而忽略其他重要要求。
訓(xùn)練過(guò)程中的一個(gè)重要發(fā)現(xiàn)是,模型的回答長(zhǎng)度會(huì)隨著訓(xùn)練的進(jìn)行而發(fā)生有趣的變化。對(duì)于指令遵循任務(wù),回答長(zhǎng)度顯著增加,這表明模型學(xué)會(huì)了生成更詳細(xì)、更符合要求的內(nèi)容。而對(duì)于數(shù)學(xué)和科學(xué)推理任務(wù),回答長(zhǎng)度的變化相對(duì)較小,說(shuō)明模型在提升指令遵循能力的同時(shí)保持了原有的推理能力。
研究團(tuán)隊(duì)還發(fā)現(xiàn),在訓(xùn)練的不同階段,模型展現(xiàn)出了不同的學(xué)習(xí)特征。早期階段主要是學(xué)會(huì)識(shí)別和響應(yīng)基本約束,中期開(kāi)始掌握多約束協(xié)調(diào),后期則專(zhuān)注于fine-tuning和性能優(yōu)化。這種漸進(jìn)式的能力提升模式與人類(lèi)學(xué)習(xí)復(fù)雜技能的過(guò)程非常相似。
四、實(shí)驗(yàn)驗(yàn)證:全面超越現(xiàn)有方法的顯著效果
為了驗(yàn)證這種自監(jiān)督強(qiáng)化學(xué)習(xí)方法的有效性,研究團(tuán)隊(duì)進(jìn)行了全面的實(shí)驗(yàn)評(píng)估。他們選擇了多個(gè)不同規(guī)模和類(lèi)型的模型進(jìn)行測(cè)試,包括1.5B參數(shù)的小型模型到8B參數(shù)的較大模型,涵蓋了從蒸餾模型到指令調(diào)優(yōu)模型的各種類(lèi)型。
實(shí)驗(yàn)結(jié)果令人印象深刻。在指令遵循能力方面,經(jīng)過(guò)訓(xùn)練的模型在IFEval基準(zhǔn)測(cè)試中的提升幅度達(dá)到了10-16個(gè)百分點(diǎn)。以R1-Distill-Qwen-7B模型為例,其prompt-level準(zhǔn)確率從61.7%提升到了71.7%,instruction-level準(zhǔn)確率從72.5%提升到了80.2%。這種提升幅度在AI模型優(yōu)化中是相當(dāng)顯著的。
更重要的是,這種提升并沒(méi)有以犧牲推理能力為代價(jià)。在數(shù)學(xué)推理測(cè)試AIME2024中,優(yōu)化后的模型不僅保持了原有的性能水平,部分情況下甚至略有提升。在科學(xué)推理測(cè)試FOLIO中,某些模型的表現(xiàn)還有了明顯改善,這表明更好的指令遵循能力實(shí)際上可能有助于推理任務(wù)的表現(xiàn)。
跨領(lǐng)域泛化能力的測(cè)試結(jié)果同樣令人鼓舞。研究團(tuán)隊(duì)在訓(xùn)練數(shù)據(jù)中完全沒(méi)有涉及的約束類(lèi)型上測(cè)試了模型表現(xiàn),發(fā)現(xiàn)優(yōu)化后的模型仍然能夠顯著提升對(duì)新類(lèi)型約束的遵循能力。這說(shuō)明模型學(xué)到的不僅僅是特定約束的處理方法,而是一種更通用的"約束感知和滿足"能力。
在計(jì)算效率方面,新方法相比傳統(tǒng)的基于外部模型指導(dǎo)的方法展現(xiàn)出了明顯優(yōu)勢(shì)。約束級(jí)二元分類(lèi)的獎(jiǎng)勵(lì)模型比傳統(tǒng)的生成式獎(jiǎng)勵(lì)模型快了幾十倍,這使得大規(guī)模訓(xùn)練成為可能。同時(shí),由于不需要調(diào)用外部的更強(qiáng)大模型,整個(gè)訓(xùn)練過(guò)程的成本也大大降低。
五、消融實(shí)驗(yàn):解析各個(gè)組件的關(guān)鍵作用
為了深入理解方法中各個(gè)組件的作用,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。這就像拆解一臺(tái)精密機(jī)器,看看每個(gè)零件對(duì)整體性能的貢獻(xiàn)。
首先是漸進(jìn)約束課程的作用驗(yàn)證。當(dāng)移除這一組件,直接在多約束指令上訓(xùn)練時(shí),模型的性能出現(xiàn)了明顯下降。在CFBench測(cè)試中,整體滿足率從60.7%下降到了57.7%,這驗(yàn)證了循序漸進(jìn)學(xué)習(xí)策略的重要性。訓(xùn)練過(guò)程中的獎(jiǎng)勵(lì)曲線也顯示,沒(méi)有漸進(jìn)課程的模型收到的獎(jiǎng)勵(lì)信號(hào)更加稀疏,學(xué)習(xí)效率明顯較低。
獎(jiǎng)勵(lì)建模方面的消融實(shí)驗(yàn)揭示了幾個(gè)重要發(fā)現(xiàn)。當(dāng)僅使用獎(jiǎng)勵(lì)模型而不結(jié)合規(guī)則驗(yàn)證時(shí),模型容易出現(xiàn)"獎(jiǎng)勵(lì)黑客"現(xiàn)象,即找到一些欺騙獎(jiǎng)勵(lì)系統(tǒng)但實(shí)際不滿足約束的方法。而當(dāng)僅使用二元獎(jiǎng)勵(lì)(滿足得1分,不滿足得0分)而不使用概率獎(jiǎng)勵(lì)時(shí),模型獲得的學(xué)習(xí)信號(hào)變得過(guò)于粗糙,優(yōu)化效果明顯下降。
研究團(tuán)隊(duì)還將他們的約束級(jí)二元分類(lèi)獎(jiǎng)勵(lì)模型與其他幾種方法進(jìn)行了比較。相比于直接使用大語(yǔ)言模型作為評(píng)判者的方法,他們的方法在保持相似準(zhǔn)確性的同時(shí),推理速度快了近5倍。相比于使用Bradley-Terry損失訓(xùn)練的傳統(tǒng)獎(jiǎng)勵(lì)模型,他們的方法在人類(lèi)標(biāo)注一致性上表現(xiàn)更好,達(dá)到了61.2%的肯德?tīng)柕燃?jí)相關(guān)系數(shù),而傳統(tǒng)方法只有48.8%。
訓(xùn)練動(dòng)態(tài)分析揭示了一個(gè)有趣的現(xiàn)象:不同類(lèi)型的基礎(chǔ)模型展現(xiàn)出了不同的學(xué)習(xí)模式。對(duì)于從通用指令模型出發(fā)的訓(xùn)練,模型在所有任務(wù)類(lèi)型上的回答長(zhǎng)度都有所增加,這表明模型學(xué)會(huì)了生成更詳細(xì)的回答。而對(duì)于從推理專(zhuān)門(mén)模型出發(fā)的訓(xùn)練,回答長(zhǎng)度呈現(xiàn)先增后減的趨勢(shì),特別是在科學(xué)任務(wù)上,這說(shuō)明這類(lèi)模型在保持原有推理能力的同時(shí)學(xué)會(huì)了更精確的指令遵循。
六、實(shí)際應(yīng)用中的表現(xiàn)分析
通過(guò)具體的案例分析,我們可以更直觀地看到這種方法的效果。研究團(tuán)隊(duì)提供了一個(gè)典型的例子:要求模型"寫(xiě)一首關(guān)于好奇貓咪的詩(shī),標(biāo)題用雙角括號(hào)包圍,少于13句話,不使用逗號(hào),別忘了加其他標(biāo)點(diǎn)符號(hào)"。
訓(xùn)練前的模型會(huì)產(chǎn)生一長(zhǎng)串思考過(guò)程,詳細(xì)分析如何選擇標(biāo)題、避免逗號(hào)、構(gòu)建詩(shī)歌結(jié)構(gòu)等等,但最終生成的詩(shī)歌卻顯著超過(guò)了13句話的限制,得分只有0.333分。這就像一個(gè)學(xué)生在考試中寫(xiě)了很多草稿和思路,但最終答案卻不符合題目要求。
訓(xùn)練后的模型則表現(xiàn)出了截然不同的行為模式。它仍然會(huì)進(jìn)行必要的思考,但更加簡(jiǎn)潔高效,并且最終生成了一首嚴(yán)格符合所有約束條件的詩(shī)歌:標(biāo)題正確使用了雙角括號(hào),句子數(shù)量控制在要求范圍內(nèi),沒(méi)有使用逗號(hào),包含了其他適當(dāng)?shù)臉?biāo)點(diǎn)符號(hào),內(nèi)容生動(dòng)有趣。最終得分達(dá)到了滿分1.0。
這種改變不僅體現(xiàn)在單個(gè)任務(wù)上,而是具有系統(tǒng)性。在軟約束方面,比如"采用心理評(píng)估報(bào)告的風(fēng)格"或"為高中心理學(xué)學(xué)生量身定制"這樣的要求,優(yōu)化后的模型也能夠更好地把握和執(zhí)行。在硬約束方面,對(duì)于格式要求、長(zhǎng)度限制、特定詞匯包含等規(guī)則,新模型的準(zhǔn)確執(zhí)行率有了大幅提升。
特別值得注意的是,模型在處理沖突約束時(shí)的表現(xiàn)也有了改善。比如當(dāng)要求既要詳細(xì)又要簡(jiǎn)潔時(shí),優(yōu)化后的模型能夠找到更好的平衡點(diǎn),而不是簡(jiǎn)單地忽略其中一個(gè)要求。
七、方法的創(chuàng)新意義與未來(lái)展望
這項(xiàng)研究的創(chuàng)新意義遠(yuǎn)超技術(shù)本身的改進(jìn)。它首次證明了AI模型可以在不依賴外部"超級(jí)老師"的情況下,通過(guò)自我監(jiān)督學(xué)習(xí)顯著提升復(fù)雜指令遵循能力。這打破了長(zhǎng)期以來(lái)"學(xué)生永遠(yuǎn)無(wú)法超越老師"的技術(shù)瓶頸,為AI能力的進(jìn)一步發(fā)展開(kāi)辟了新的道路。
從技術(shù)演進(jìn)的角度看,這種方法代表了從"依賴外部指導(dǎo)"到"內(nèi)在自我提升"的重要轉(zhuǎn)變。就像人類(lèi)學(xué)習(xí)從最初的模仿他人逐漸發(fā)展到獨(dú)立思考和創(chuàng)新一樣,AI系統(tǒng)也開(kāi)始具備了某種程度的"自我教育"能力。這種能力的獲得可能是通向更通用人工智能的重要一步。
在實(shí)際應(yīng)用層面,這種技術(shù)的影響可能是深遠(yuǎn)的。目前的AI助手在處理復(fù)雜、多約束的任務(wù)時(shí)經(jīng)常出現(xiàn)各種"理解偏差"或"執(zhí)行不完整"的問(wèn)題,而這種新方法為解決這些問(wèn)題提供了一條可行的技術(shù)路徑。未來(lái)的AI助手可能會(huì)變得更加"聽(tīng)話"和"精確",能夠準(zhǔn)確理解和執(zhí)行用戶的復(fù)雜指令。
從成本效益的角度看,這種方法也具有重要的實(shí)用價(jià)值。傳統(tǒng)的依賴外部強(qiáng)大模型的方法不僅成本高昂,還面臨數(shù)據(jù)獲取和模型訪問(wèn)的限制。而自監(jiān)督的方法讓更多的研究團(tuán)隊(duì)和公司能夠以較低的成本改進(jìn)自己的AI模型,有助于推動(dòng)整個(gè)行業(yè)的技術(shù)普及和創(chuàng)新。
研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前方法的一些局限性。由于計(jì)算資源的限制,他們還沒(méi)有在超大規(guī)模模型(如32B參數(shù)以上)上驗(yàn)證這種方法的效果。同時(shí),多約束數(shù)據(jù)集的構(gòu)建仍然相對(duì)有限,缺乏足夠的多樣性和復(fù)雜性。這些都是未來(lái)研究需要解決的問(wèn)題。
展望未來(lái),這種自監(jiān)督強(qiáng)化學(xué)習(xí)的思路可能會(huì)被應(yīng)用到更多的AI能力提升場(chǎng)景中。比如讓模型自我學(xué)習(xí)更好的推理策略、更準(zhǔn)確的事實(shí)核查能力、更恰當(dāng)?shù)那楦斜磉_(dá)等等。每一個(gè)能夠被驗(yàn)證和評(píng)估的能力都有可能通過(guò)類(lèi)似的方法得到提升。
說(shuō)到底,這項(xiàng)研究最令人興奮的地方在于它展示了AI系統(tǒng)自我改進(jìn)的巨大潛力。就像一個(gè)勤奮的學(xué)生通過(guò)不斷練習(xí)和反思逐漸掌握復(fù)雜技能一樣,AI模型也開(kāi)始具備了某種"自我修煉"的能力。這不僅意味著更好的技術(shù)性能,更預(yù)示著AI發(fā)展模式的根本性轉(zhuǎn)變。當(dāng)AI系統(tǒng)不再完全依賴人類(lèi)的直接指導(dǎo),而是能夠通過(guò)與環(huán)境的交互和內(nèi)在的反饋機(jī)制實(shí)現(xiàn)自我提升時(shí),我們可能正在見(jiàn)證人工智能發(fā)展史上的一個(gè)重要轉(zhuǎn)折點(diǎn)。
無(wú)論是對(duì)于研究人員、開(kāi)發(fā)者還是普通用戶來(lái)說(shuō),這種技術(shù)進(jìn)步都值得關(guān)注。它不僅提供了構(gòu)建更有用AI助手的新方法,也為我們理解智能系統(tǒng)的學(xué)習(xí)和發(fā)展規(guī)律提供了新的視角。隨著這類(lèi)技術(shù)的不斷成熟和應(yīng)用,我們有理由期待一個(gè)AI助手更加智能、可靠和有用的未來(lái)。
Q&A
Q1:什么是指令遵循能力?為什么AI模型在這方面表現(xiàn)不好?
A:指令遵循能力是指AI準(zhǔn)確理解并執(zhí)行復(fù)雜、多約束指令的能力。比如要求AI"寫(xiě)詩(shī)且包含特定詞匯、控制字?jǐn)?shù)、使用特定標(biāo)點(diǎn)"時(shí),很多AI要么理解錯(cuò)誤,要么只滿足部分要求。這是因?yàn)閭鹘y(tǒng)AI在推理能力和指令執(zhí)行能力之間存在權(quán)衡,擅長(zhǎng)復(fù)雜思考的模型往往不夠"聽(tīng)話"。
Q2:復(fù)旦大學(xué)的自監(jiān)督強(qiáng)化學(xué)習(xí)方法有什么特別之處?
A:這種方法的創(chuàng)新在于讓AI模型通過(guò)自己的學(xué)習(xí)過(guò)程產(chǎn)生的信號(hào)來(lái)指導(dǎo)自己進(jìn)步,不需要更強(qiáng)大的外部AI模型當(dāng)"老師"。它采用漸進(jìn)式約束課程,將復(fù)雜指令分解為從簡(jiǎn)單到困難的學(xué)習(xí)序列,同時(shí)設(shè)計(jì)了智能獎(jiǎng)勵(lì)系統(tǒng)來(lái)區(qū)分不同類(lèi)型的約束要求。
Q3:這種技術(shù)對(duì)普通用戶使用AI助手有什么實(shí)際意義?
A:這意味著未來(lái)的AI助手會(huì)變得更加"聽(tīng)話"和精確。當(dāng)你給出復(fù)雜指令時(shí),比如要求特定格式、長(zhǎng)度、風(fēng)格的內(nèi)容,AI不會(huì)再頻繁出現(xiàn)"理解偏差"或"執(zhí)行不完整"的問(wèn)題。同時(shí),由于不依賴昂貴的外部模型,這種技術(shù)的普及成本更低,有望讓更多用戶享受到更好的AI服務(wù)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。