av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 清華大學(xué)和新加坡技術(shù)設(shè)計(jì)大學(xué)聯(lián)合研究:AI不用學(xué)習(xí)樣本也能寫出萬字長(zhǎng)文,強(qiáng)化學(xué)習(xí)讓機(jī)器從零開始掌握寫作

清華大學(xué)和新加坡技術(shù)設(shè)計(jì)大學(xué)聯(lián)合研究:AI不用學(xué)習(xí)樣本也能寫出萬字長(zhǎng)文,強(qiáng)化學(xué)習(xí)讓機(jī)器從零開始掌握寫作

2025-06-26 19:51
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-26 19:51 ? 科技行者

當(dāng)我們還在為寫一篇3000字的論文而頭疼不已時(shí),人工智能已經(jīng)悄悄掌握了一項(xiàng)令人嘆為觀止的技能——從完全不會(huì)寫作的"小白"狀態(tài)出發(fā),通過自我訓(xùn)練,最終能夠創(chuàng)作出超過萬字的高質(zhì)量長(zhǎng)篇文章。這聽起來就像是讓一個(gè)從未接觸過文字的孩子,僅僅通過不斷嘗試和修正,最終成為了資深作家。

這項(xiàng)突破性研究由清華大學(xué)知識(shí)工程實(shí)驗(yàn)室的李娟子教授團(tuán)隊(duì)與新加坡技術(shù)設(shè)計(jì)大學(xué)的Roy Ka-Wei Lee教授合作完成,研究成果于2025年6月23日發(fā)表。研究團(tuán)隊(duì)的核心成員包括清華大學(xué)的白雨石博士和北京的胡志強(qiáng)博士,以及新加坡技術(shù)設(shè)計(jì)大學(xué)的吳宇豪博士。感興趣的讀者可以通過arXiv:2506.18841v1訪問完整論文,代碼和模型也已在https://huggingface.co/THU-KEG/開源發(fā)布。

過去,當(dāng)我們想讓AI寫出長(zhǎng)篇文章時(shí),就像是讓一個(gè)廚師學(xué)做菜——我們得先收集大量精美的菜譜(高質(zhì)量的長(zhǎng)文數(shù)據(jù)),然后讓AI照著這些菜譜反復(fù)練習(xí)。這種方法被稱為"監(jiān)督微調(diào)",簡(jiǎn)單來說就是"看著別人怎么做,然后模仿"。這種方法的問題很明顯:收集大量?jī)?yōu)質(zhì)的長(zhǎng)文數(shù)據(jù)既昂貴又困難,而且AI寫出來的文章往往千篇一律,缺乏創(chuàng)新性,就像是照著菜譜做出來的菜,雖然能吃,但總是少了一些靈魂。

研究團(tuán)隊(duì)提出了一個(gè)全新的思路:為什么不讓AI像人類一樣,從零開始學(xué)習(xí)寫作呢?就像一個(gè)孩子學(xué)習(xí)騎自行車,不是靠看無數(shù)遍騎車視頻,而是通過不斷嘗試、摔倒、爬起來、再嘗試,最終掌握平衡技巧。這種方法在AI領(lǐng)域被稱為"強(qiáng)化學(xué)習(xí)",核心思想是通過"獎(jiǎng)勵(lì)和懲罰"來引導(dǎo)AI學(xué)習(xí)。

這項(xiàng)研究的創(chuàng)新之處在于,他們沒有使用任何事先準(zhǔn)備好的長(zhǎng)文訓(xùn)練數(shù)據(jù),而是設(shè)計(jì)了一套巧妙的"評(píng)價(jià)體系"來引導(dǎo)AI自主學(xué)習(xí)寫作。這套評(píng)價(jià)體系就像是一位嚴(yán)格但公正的寫作老師,會(huì)從多個(gè)角度對(duì)AI寫出的文章進(jìn)行打分:文章長(zhǎng)度是否合適、內(nèi)容質(zhì)量如何、格式是否規(guī)范。通過這種即時(shí)反饋,AI能夠在每次嘗試后立即知道自己哪里做得好、哪里需要改進(jìn)。

實(shí)驗(yàn)結(jié)果令人震撼。他們訓(xùn)練出的LongWriter-Zero模型在兩個(gè)權(quán)威的長(zhǎng)文寫作評(píng)測(cè)基準(zhǔn)——WritingBench和Arena-Write上都取得了最佳成績(jī),甚至超越了參數(shù)量達(dá)到1000億以上的大型模型,如DeepSeek R1和Qwen3-235B。這就像是一個(gè)32公斤級(jí)的拳擊手擊敗了100公斤級(jí)的重量級(jí)選手,證明了技巧和訓(xùn)練方法的重要性遠(yuǎn)超單純的"體重"(模型參數(shù)量)。

一、突破傳統(tǒng)框架:強(qiáng)化學(xué)習(xí)讓AI學(xué)會(huì)"思考后寫作"

傳統(tǒng)的AI寫作訓(xùn)練方式存在一個(gè)根本問題:就像讓學(xué)生死記硬背范文,雖然能夠快速產(chǎn)生類似的文章,但缺乏真正的理解和創(chuàng)新能力。研究團(tuán)隊(duì)決定徹底改變這種做法,采用強(qiáng)化學(xué)習(xí)讓AI從零開始學(xué)習(xí)寫作。

強(qiáng)化學(xué)習(xí)的工作原理可以用這樣一個(gè)場(chǎng)景來理解:假設(shè)你要訓(xùn)練一只小狗學(xué)會(huì)新技能,你不會(huì)直接告訴它"正確答案",而是在它做對(duì)時(shí)給予獎(jiǎng)勵(lì)(比如零食),做錯(cuò)時(shí)不給獎(jiǎng)勵(lì)甚至輕微懲罰。久而久之,小狗就會(huì)學(xué)會(huì)什么行為能帶來獎(jiǎng)勵(lì),什么行為應(yīng)該避免。

研究團(tuán)隊(duì)使用了一種名為"群體相對(duì)策略優(yōu)化"(GRPO)的算法來訓(xùn)練AI。這個(gè)算法的工作方式相當(dāng)巧妙:對(duì)于同一個(gè)寫作任務(wù),系統(tǒng)會(huì)讓AI生成多個(gè)不同的答案,然后通過評(píng)價(jià)體系對(duì)這些答案進(jìn)行評(píng)分,表現(xiàn)好的答案會(huì)得到正向反饋,表現(xiàn)差的則得到負(fù)向反饋。這就像是一個(gè)寫作比賽,AI通過不斷參賽、觀察自己的排名變化,逐漸摸索出什么樣的寫作風(fēng)格和內(nèi)容最受歡迎。

更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn),讓AI在寫作前先進(jìn)行"思考"能夠顯著提升文章質(zhì)量。他們?cè)O(shè)計(jì)了一種特殊的提示格式,要求AI首先在"think"標(biāo)簽內(nèi)詳細(xì)規(guī)劃文章結(jié)構(gòu)、分析寫作要求、思考可能的論點(diǎn),然后在"answer"標(biāo)簽內(nèi)給出最終答案。這種方法就像是要求學(xué)生在正式作答前先列個(gè)詳細(xì)的大綱,結(jié)果顯示這種"先思考再寫作"的模式讓AI的表現(xiàn)有了質(zhì)的飛躍。

訓(xùn)練過程中,研究團(tuán)隊(duì)使用了來自真實(shí)用戶的寫作需求作為訓(xùn)練素材,這些需求來自WildChat-1M和LMSYS-Chat-1M這兩個(gè)大規(guī)模對(duì)話數(shù)據(jù)集。為了確保訓(xùn)練質(zhì)量,他們還使用QwQ-32B模型對(duì)這些需求進(jìn)行篩選,只保留那些真正需要高質(zhì)量長(zhǎng)文回復(fù)的任務(wù)。整個(gè)訓(xùn)練過程在8個(gè)節(jié)點(diǎn)、每個(gè)節(jié)點(diǎn)配備8張H800 GPU的集群上進(jìn)行,每個(gè)優(yōu)化步驟會(huì)同時(shí)生成32個(gè)不同的回答進(jìn)行比較學(xué)習(xí)。

二、精心設(shè)計(jì)的評(píng)價(jià)體系:三位一體的寫作質(zhì)量判斷

要讓AI學(xué)會(huì)好的寫作,關(guān)鍵在于設(shè)計(jì)一套公正、全面的評(píng)價(jià)標(biāo)準(zhǔn)。研究團(tuán)隊(duì)創(chuàng)建了一個(gè)由三個(gè)子系統(tǒng)組成的評(píng)價(jià)體系,每個(gè)子系統(tǒng)就像是一位專業(yè)的寫作評(píng)委,從不同角度對(duì)AI的作品進(jìn)行評(píng)判。

第一位評(píng)委專門負(fù)責(zé)"長(zhǎng)度控制"。在現(xiàn)實(shí)寫作中,長(zhǎng)度要求往往是硬性標(biāo)準(zhǔn)——一篇要求3000字的論文如果只寫了1000字,無論內(nèi)容多么精彩都算不合格。這個(gè)長(zhǎng)度評(píng)價(jià)系統(tǒng)的工作方式很有趣:它首先使用QwQ-32B模型分析寫作任務(wù),判斷這個(gè)任務(wù)大概需要多少字才能完成,然后為每個(gè)任務(wù)設(shè)定一個(gè)合理的字?jǐn)?shù)范圍。比如,如果任務(wù)要求寫一篇關(guān)于環(huán)保的深度分析文章,系統(tǒng)可能會(huì)判斷需要2700-3300字。接下來,AI寫出的文章如果字?jǐn)?shù)在這個(gè)范圍內(nèi)就得滿分,字?jǐn)?shù)不足的按比例扣分,字?jǐn)?shù)過多的也會(huì)被認(rèn)為冗余而扣分。

第二位評(píng)委關(guān)注"寫作質(zhì)量"。這是最復(fù)雜也最重要的評(píng)價(jià)維度,因?yàn)樗婕拔恼碌牧鲿承?、邏輯性、信息量等多個(gè)方面。研究團(tuán)隊(duì)訓(xùn)練了一個(gè)專門的質(zhì)量評(píng)價(jià)模型,這個(gè)模型基于Qwen2.5-72B構(gòu)建,通過學(xué)習(xí)大量人工標(biāo)注的優(yōu)質(zhì)文章和劣質(zhì)文章的對(duì)比數(shù)據(jù),學(xué)會(huì)了識(shí)別什么樣的文章是高質(zhì)量的。這就像是培養(yǎng)一位資深編輯的眼光,能夠敏銳地察覺文章中的語言問題、邏輯漏洞或內(nèi)容缺陷。

第三位評(píng)委監(jiān)督"格式規(guī)范"。在強(qiáng)化學(xué)習(xí)環(huán)境中,AI有時(shí)會(huì)為了獲得高分而"鉆空子",比如通過大量重復(fù)內(nèi)容來達(dá)到字?jǐn)?shù)要求,或者不按照要求的格式來組織文章。格式評(píng)價(jià)系統(tǒng)的任務(wù)就是確保文章結(jié)構(gòu)規(guī)范,內(nèi)容不存在明顯的重復(fù),并且嚴(yán)格按照"先思考(think標(biāo)簽)再回答(answer標(biāo)簽)"的格式要求。

最關(guān)鍵的創(chuàng)新在于如何整合這三個(gè)評(píng)委的意見。傳統(tǒng)做法是簡(jiǎn)單地將三個(gè)分?jǐn)?shù)相加取平均,但這樣容易導(dǎo)致某個(gè)評(píng)委的意見被其他評(píng)委"壓制"。研究團(tuán)隊(duì)提出了一種"優(yōu)勢(shì)平衡"的方法:不是直接平均三個(gè)原始分?jǐn)?shù),而是先計(jì)算每個(gè)AI回答在各自評(píng)價(jià)維度上相對(duì)于其他回答的優(yōu)勢(shì),然后再平均這些優(yōu)勢(shì)值。這樣確保了每個(gè)評(píng)價(jià)維度都能平等地影響最終結(jié)果,就像是讓三位評(píng)委的話語權(quán)完全相等。

為了驗(yàn)證訓(xùn)練效果,研究團(tuán)隊(duì)還創(chuàng)建了Arena-Write評(píng)測(cè)基準(zhǔn),包含100個(gè)真實(shí)用戶的寫作需求,其中40%需要超過2000字的長(zhǎng)文回復(fù)。評(píng)測(cè)采用配對(duì)比較的方式,將AI生成的文章與六個(gè)強(qiáng)大的基線模型進(jìn)行對(duì)比,使用Qwen2.5-72B作為自動(dòng)評(píng)判員,最終得出Elo評(píng)分。這種評(píng)測(cè)方式模擬了真實(shí)的寫作競(jìng)賽環(huán)境,能夠準(zhǔn)確反映模型在實(shí)際應(yīng)用中的表現(xiàn)。

三、思考機(jī)制的力量:讓AI學(xué)會(huì)規(guī)劃再創(chuàng)作

在這項(xiàng)研究中,最令人驚訝的發(fā)現(xiàn)之一是"思考機(jī)制"對(duì)寫作質(zhì)量的巨大提升作用。這個(gè)發(fā)現(xiàn)顛覆了我們對(duì)AI寫作的傳統(tǒng)認(rèn)知——原來AI也需要"深思熟慮"才能寫出好文章。

研究團(tuán)隊(duì)設(shè)計(jì)了兩種不同的訓(xùn)練模式來對(duì)比驗(yàn)證這一點(diǎn)。第一種是"直接回答模式",AI接到寫作任務(wù)后立即開始寫作,就像是即興演講,憑借既有知識(shí)和能力當(dāng)場(chǎng)發(fā)揮。第二種是"思考后回答模式",AI必須首先在思考階段詳細(xì)分析任務(wù)要求、規(guī)劃文章結(jié)構(gòu)、考慮可能的論點(diǎn)和論據(jù),然后才開始正式寫作。

思考階段的提示非常詳細(xì)和具體。系統(tǒng)要求AI進(jìn)行"全面深入的規(guī)劃,確保寫作任務(wù)的每個(gè)方面都得到詳細(xì)和良好的結(jié)構(gòu)化處理"。如果寫作要求存在任何不確定性或模糊性,AI需要"反思、向自己提出澄清問題,并探索多種寫作方法,以確保最終輸出符合最高質(zhì)量標(biāo)準(zhǔn)"。由于寫作既是創(chuàng)造性任務(wù)又是結(jié)構(gòu)化任務(wù),AI應(yīng)該"從多個(gè)角度分析,考慮連貫性、清晰性、風(fēng)格、語調(diào)、受眾、目的等"。

訓(xùn)練過程中的數(shù)據(jù)揭示了思考機(jī)制的強(qiáng)大威力。在訓(xùn)練初期,使用思考機(jī)制的AI確實(shí)表現(xiàn)得比直接回答的AI要差一些,寫作質(zhì)量評(píng)分接近零。這是因?yàn)锳I需要時(shí)間學(xué)習(xí)如何有效地利用思考階段,就像一個(gè)學(xué)生剛開始學(xué)習(xí)列提綱時(shí)可能會(huì)感到困惑和不適應(yīng)。

隨著訓(xùn)練的進(jìn)行,情況發(fā)生了戲劇性的轉(zhuǎn)變。思考模式的AI開始展現(xiàn)出明顯的優(yōu)勢(shì),不僅在寫作質(zhì)量上穩(wěn)步提升,在長(zhǎng)度控制方面也表現(xiàn)得更加精準(zhǔn)。最終,使用思考機(jī)制的模型在Arena-Write基準(zhǔn)測(cè)試中獲得了1200分的Elo評(píng)分,而直接回答模式只獲得了700分,差距相當(dāng)顯著。

更深入的分析顯示,思考機(jī)制之所以有效,是因?yàn)樗孉I學(xué)會(huì)了真正的"寫作規(guī)劃"。在思考階段,AI會(huì)分析目標(biāo)受眾、確定文章結(jié)構(gòu)、分配各部分的內(nèi)容重點(diǎn),甚至預(yù)判可能遇到的論證難點(diǎn)。這種規(guī)劃能力幫助AI更有效地組織信息,避免了即興寫作常見的邏輯混亂和結(jié)構(gòu)松散問題。

研究團(tuán)隊(duì)還發(fā)現(xiàn),思考機(jī)制對(duì)于長(zhǎng)度控制特別有效。通過在思考階段對(duì)文章長(zhǎng)度進(jìn)行規(guī)劃,AI能夠更精確地控制各部分的篇幅,避免某些部分過度冗長(zhǎng)而其他部分卻匆匆收尾的問題。這就像是一位經(jīng)驗(yàn)豐富的作家在動(dòng)筆前就已經(jīng)心中有數(shù),知道每個(gè)章節(jié)大概需要多少篇幅來充分展開。

四、持續(xù)預(yù)訓(xùn)練的關(guān)鍵作用:打好基礎(chǔ)才能建高樓

研究團(tuán)隊(duì)在探索中發(fā)現(xiàn)了另一個(gè)重要規(guī)律:強(qiáng)化學(xué)習(xí)的效果很大程度上取決于基礎(chǔ)模型的能力水平。這就像是蓋房子,地基越扎實(shí),能建的樓就越高。為了驗(yàn)證這一假設(shè),他們?cè)谡降膹?qiáng)化學(xué)習(xí)訓(xùn)練之前,先對(duì)基礎(chǔ)模型進(jìn)行了專門的"持續(xù)預(yù)訓(xùn)練"。

持續(xù)預(yù)訓(xùn)練的過程就像是讓一個(gè)初學(xué)者在正式學(xué)習(xí)寫作技巧之前,先大量閱讀各種優(yōu)秀作品來培養(yǎng)語感和寫作素養(yǎng)。研究團(tuán)隊(duì)精心收集了300億個(gè)高質(zhì)量的寫作相關(guān)數(shù)據(jù),這些數(shù)據(jù)涵蓋了中英文小說、非虛構(gòu)類書籍、行業(yè)報(bào)告、學(xué)術(shù)論文等多種文體和主題。

數(shù)據(jù)組成的設(shè)計(jì)體現(xiàn)了研究團(tuán)隊(duì)的深思熟慮。中文小說占比40%,主要用于培養(yǎng)AI的敘事能力和語言表達(dá)的流暢性。英文虛構(gòu)和非虛構(gòu)作品占30%,幫助AI掌握不同類型文章的寫作風(fēng)格。中文非虛構(gòu)類書籍占15%,提升AI處理事實(shí)性內(nèi)容和論證邏輯的能力。在線信息如網(wǎng)絡(luò)小說、博客文章等占8%,讓AI了解更多樣化的表達(dá)方式。金融行業(yè)報(bào)告占5%,訓(xùn)練AI處理專業(yè)內(nèi)容的能力。學(xué)術(shù)論文占1%,培養(yǎng)嚴(yán)謹(jǐn)?shù)恼撟C思維。

特別值得注意的是,研究團(tuán)隊(duì)還在預(yù)訓(xùn)練數(shù)據(jù)中加入了1%的"長(zhǎng)思維鏈"樣本,這些樣本來自前面提到的"思考后回答"模式訓(xùn)練得到的優(yōu)質(zhì)案例。這種做法就像是在基礎(chǔ)訓(xùn)練中就植入了"深度思考"的種子,讓模型從一開始就習(xí)慣于先思考再行動(dòng)的工作模式。

持續(xù)預(yù)訓(xùn)練的效果是顯著的。經(jīng)過這個(gè)階段的模型在強(qiáng)化學(xué)習(xí)訓(xùn)練開始時(shí)就展現(xiàn)出更高的起點(diǎn),無論是寫作質(zhì)量還是長(zhǎng)度控制都比直接使用原始模型要好得多。更重要的是,這種強(qiáng)化的基礎(chǔ)模型能夠達(dá)到更高的性能上限。實(shí)驗(yàn)數(shù)據(jù)顯示,經(jīng)過持續(xù)預(yù)訓(xùn)練的模型最終在Arena-Write測(cè)試中獲得了1400分的Elo評(píng)分,而沒有經(jīng)過持續(xù)預(yù)訓(xùn)練的模型最高只能達(dá)到1200分。

這個(gè)發(fā)現(xiàn)對(duì)整個(gè)領(lǐng)域具有重要啟示:強(qiáng)化學(xué)習(xí)并不是萬能的,它更像是一個(gè)放大器,能夠?qū)⒒A(chǔ)模型的潛力充分發(fā)揮出來,但如果基礎(chǔ)模型本身能力有限,強(qiáng)化學(xué)習(xí)也難以創(chuàng)造奇跡。這就解釋了為什么同樣的強(qiáng)化學(xué)習(xí)方法在不同的基礎(chǔ)模型上會(huì)產(chǎn)生差異巨大的效果。

訓(xùn)練配置方面,持續(xù)預(yù)訓(xùn)練使用512的批次大小,采用打包序列的方式,最大上下文長(zhǎng)度設(shè)為32K個(gè)詞符。整個(gè)過程充分利用了現(xiàn)代硬件的并行處理能力,確保了訓(xùn)練的效率和穩(wěn)定性。

五、全面超越現(xiàn)有方法:強(qiáng)化學(xué)習(xí)vs傳統(tǒng)監(jiān)督學(xué)習(xí)

為了證明強(qiáng)化學(xué)習(xí)方法的優(yōu)越性,研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)關(guān)鍵的對(duì)比實(shí)驗(yàn),將他們的方法與傳統(tǒng)的監(jiān)督微調(diào)方法進(jìn)行直接比較。這個(gè)實(shí)驗(yàn)的設(shè)計(jì)很公平:使用完全相同的基礎(chǔ)模型,一個(gè)用強(qiáng)化學(xué)習(xí)訓(xùn)練,另一個(gè)用傳統(tǒng)的監(jiān)督微調(diào)訓(xùn)練。

傳統(tǒng)監(jiān)督微調(diào)方法使用的訓(xùn)練數(shù)據(jù)來自ShareGPT和LongWriter-6K數(shù)據(jù)集,這些都是精心篩選的高質(zhì)量長(zhǎng)文寫作樣本。從表面上看,這種方法應(yīng)該很有效——畢竟AI可以直接學(xué)習(xí)已經(jīng)驗(yàn)證過的優(yōu)秀范例。這就像是讓學(xué)生通過背誦和模仿優(yōu)秀作文來提高寫作水平。

實(shí)驗(yàn)結(jié)果卻出人意料。在Arena-Write基準(zhǔn)測(cè)試中,即使使用了高質(zhì)量的訓(xùn)練數(shù)據(jù),監(jiān)督微調(diào)方法的表現(xiàn)也相當(dāng)有限。從基礎(chǔ)模型開始的監(jiān)督微調(diào)獲得了964分的Elo評(píng)分,而從持續(xù)預(yù)訓(xùn)練模型開始的監(jiān)督微調(diào)稍好一些,達(dá)到了971分,但提升幅度微乎其微。

相比之下,強(qiáng)化學(xué)習(xí)方法展現(xiàn)出了驚人的威力。從基礎(chǔ)模型開始的強(qiáng)化學(xué)習(xí)就達(dá)到了1221分,遠(yuǎn)超所有監(jiān)督微調(diào)變體。更令人震撼的是,從持續(xù)預(yù)訓(xùn)練模型開始的強(qiáng)化學(xué)習(xí)達(dá)到了1447分,這個(gè)分?jǐn)?shù)幾乎是監(jiān)督微調(diào)方法的1.5倍。

這種巨大差異的原因在于兩種方法的本質(zhì)區(qū)別。監(jiān)督微調(diào)就像是讓學(xué)生照著標(biāo)準(zhǔn)答案反復(fù)抄寫,雖然能夠快速掌握基本格式和常見套路,但很難培養(yǎng)真正的創(chuàng)新思維和靈活應(yīng)對(duì)能力。更關(guān)鍵的是,監(jiān)督微調(diào)的效果受到訓(xùn)練數(shù)據(jù)質(zhì)量的嚴(yán)重制約——如果訓(xùn)練數(shù)據(jù)本身就有局限性,那么AI的能力上限也會(huì)被這些局限性所束縛。

強(qiáng)化學(xué)習(xí)則完全不同,它更像是讓學(xué)生在真實(shí)的寫作環(huán)境中反復(fù)練習(xí),通過不斷的試錯(cuò)和反饋來提升能力。這種方法不受任何現(xiàn)有范例的限制,AI可以探索出完全原創(chuàng)的寫作策略和風(fēng)格。更重要的是,強(qiáng)化學(xué)習(xí)能夠針對(duì)具體的評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行優(yōu)化,而不是簡(jiǎn)單地模仿已有的文章。

實(shí)驗(yàn)還揭示了另一個(gè)有趣現(xiàn)象:基礎(chǔ)模型的質(zhì)量對(duì)強(qiáng)化學(xué)習(xí)效果的影響遠(yuǎn)大于對(duì)監(jiān)督微調(diào)的影響。當(dāng)使用更強(qiáng)的基礎(chǔ)模型時(shí),監(jiān)督微調(diào)的提升很?。◤?64到971),但強(qiáng)化學(xué)習(xí)的提升卻是巨大的(從1221到1447)。這說明強(qiáng)化學(xué)習(xí)更善于發(fā)掘和利用基礎(chǔ)模型的潛力,而監(jiān)督微調(diào)更多地是在重新塑造模型的行為模式。

從訓(xùn)練效率的角度看,強(qiáng)化學(xué)習(xí)方法也展現(xiàn)出了優(yōu)勢(shì)。雖然強(qiáng)化學(xué)習(xí)的訓(xùn)練過程需要實(shí)時(shí)生成和評(píng)價(jià)大量候選答案,計(jì)算成本看起來更高,但它不需要收集和標(biāo)注大量的高質(zhì)量訓(xùn)練數(shù)據(jù)??紤]到構(gòu)建一個(gè)高質(zhì)量長(zhǎng)文數(shù)據(jù)集的人力成本和時(shí)間成本,強(qiáng)化學(xué)習(xí)方法在總體上可能更加經(jīng)濟(jì)高效。

六、卓越的實(shí)驗(yàn)表現(xiàn):全面碾壓頂級(jí)模型

研究團(tuán)隊(duì)將他們的LongWriter-Zero模型與當(dāng)前最強(qiáng)的一批AI模型進(jìn)行了全面對(duì)比,結(jié)果令人震撼。這些對(duì)比對(duì)象包括了業(yè)界最頂尖的模型:OpenAI的GPT-4o和o1-Preview、Anthropic的Claude-Sonnet-4、阿里巴巴的Qwen2.5-Max,以及參數(shù)量達(dá)到千億級(jí)別的開源模型如DeepSeek-R1和Qwen3-235B-A22B等。

在WritingBench這個(gè)權(quán)威的長(zhǎng)文寫作評(píng)測(cè)基準(zhǔn)上,LongWriter-Zero獲得了8.69分的總體評(píng)分(滿分10分),這個(gè)成績(jī)不僅是所有參測(cè)模型中的最高分,而且領(lǐng)先幅度相當(dāng)顯著。要知道,排名第二的Qwen3-235B-A22B獲得了8.68分,而其參數(shù)量是LongWriter-Zero的7倍多。這就像是一個(gè)32公斤級(jí)的格斗選手擊敗了235公斤級(jí)的重量級(jí)冠軍,證明了技巧和訓(xùn)練方法的重要性遠(yuǎn)超單純的"體重"優(yōu)勢(shì)。

更令人印象深刻的是LongWriter-Zero在各個(gè)專業(yè)領(lǐng)域的全面優(yōu)勢(shì)。在學(xué)術(shù)工程領(lǐng)域獲得8.7分,在金融商務(wù)領(lǐng)域獲得8.8分,在政治法律領(lǐng)域獲得8.8分,在教育領(lǐng)域獲得8.9分,在廣告營(yíng)銷領(lǐng)域獲得8.6分,只有在文學(xué)藝術(shù)領(lǐng)域以8.4分略遜于DeepSeek-R1的8.6分。這種全領(lǐng)域的強(qiáng)勢(shì)表現(xiàn)說明LongWriter-Zero不是某個(gè)特定領(lǐng)域的專家,而是一個(gè)真正的全能型寫手。

在寫作要求的各個(gè)維度上,LongWriter-Zero同樣表現(xiàn)出色。在風(fēng)格控制方面獲得8.7分(類別專項(xiàng)分?jǐn)?shù)8.9分),在格式規(guī)范方面獲得8.7分(類別專項(xiàng)分?jǐn)?shù)9.0分),在長(zhǎng)度控制方面獲得8.6分。這些數(shù)據(jù)表明LongWriter-Zero不僅能寫出高質(zhì)量的內(nèi)容,還能精確地按照用戶的具體要求進(jìn)行調(diào)整。

Arena-Write基準(zhǔn)測(cè)試的結(jié)果更加令人矚目。LongWriter-Zero獲得了1447分的Elo評(píng)分,這個(gè)分?jǐn)?shù)顯著超越了所有其他模型。作為對(duì)比,DeepSeek-R1和Qwen3-235B-A22B并列第二,都獲得了1343分,而GPT-4o-2024-11-20只獲得了947分,Claude-Sonnet-4獲得了1185分。這種級(jí)別的領(lǐng)先優(yōu)勢(shì)在AI模型比較中是極其罕見的。

為了驗(yàn)證這些自動(dòng)評(píng)測(cè)結(jié)果的可靠性,研究團(tuán)隊(duì)還進(jìn)行了人工評(píng)測(cè)。他們收集了200個(gè)真實(shí)用戶的寫作需求,讓LongWriter-Zero與六個(gè)頂級(jí)模型進(jìn)行一對(duì)一的比較,由三名具有本科學(xué)歷的獨(dú)立評(píng)估員進(jìn)行打分。人工評(píng)測(cè)的結(jié)果證實(shí)了自動(dòng)評(píng)測(cè)的結(jié)論:LongWriter-Zero在與DeepSeek-R1的對(duì)比中獲得62.4%的勝率,在與Qwen3-235B-A22B的對(duì)比中獲得61.0%的勝率。

特別值得注意的是,LongWriter-Zero與一些專門針對(duì)長(zhǎng)文寫作優(yōu)化的模型(如LongWriter-8B)相比,優(yōu)勢(shì)更加明顯。LongWriter-8B在WritingBench上只獲得了7.91分,在Arena-Write上只獲得了457分的Elo評(píng)分,這說明僅僅針對(duì)長(zhǎng)文寫作進(jìn)行傳統(tǒng)的監(jiān)督微調(diào)是遠(yuǎn)遠(yuǎn)不夠的。

研究團(tuán)隊(duì)還進(jìn)行了消融實(shí)驗(yàn),驗(yàn)證了每個(gè)組件的重要性。當(dāng)移除持續(xù)預(yù)訓(xùn)練時(shí),性能從8.69分下降到8.12分,Arena-Write評(píng)分從1447下降到1221。當(dāng)進(jìn)一步移除思考機(jī)制時(shí),WritingBench評(píng)分下降到8.04分,Arena-Write評(píng)分更是大幅下跌到668分。這些數(shù)據(jù)清楚地表明,強(qiáng)化學(xué)習(xí)、持續(xù)預(yù)訓(xùn)練和思考機(jī)制三者缺一不可,它們的協(xié)同作用才造就了LongWriter-Zero的卓越性能。

七、方法的深層意義和未來展望

LongWriter-Zero的成功不僅僅是一個(gè)技術(shù)突破,更代表了AI訓(xùn)練理念的根本性轉(zhuǎn)變。傳統(tǒng)的"教師-學(xué)生"模式正在被"教練-運(yùn)動(dòng)員"模式所取代,AI不再是被動(dòng)地模仿人類的作品,而是在明確的目標(biāo)引導(dǎo)下主動(dòng)探索和創(chuàng)新。

這種轉(zhuǎn)變的意義是深遠(yuǎn)的。在傳統(tǒng)監(jiān)督學(xué)習(xí)框架下,AI的能力上限往往受到訓(xùn)練數(shù)據(jù)質(zhì)量的制約。如果我們想讓AI寫出超越人類平均水平的文章,就必須收集大量頂尖作家的作品作為訓(xùn)練素材,但這樣的數(shù)據(jù)往往稀缺且昂貴。強(qiáng)化學(xué)習(xí)框架徹底打破了這種限制,AI可以通過無數(shù)次的嘗試和優(yōu)化,最終達(dá)到甚至超越訓(xùn)練數(shù)據(jù)中最好樣本的水平。

從更廣泛的視角來看,這項(xiàng)研究為其他需要?jiǎng)?chuàng)造性和復(fù)雜推理的AI任務(wù)提供了新的思路。無論是代碼編寫、數(shù)學(xué)推理、還是創(chuàng)意設(shè)計(jì),都可能從這種"強(qiáng)化學(xué)習(xí)+多維度評(píng)價(jià)"的框架中受益。關(guān)鍵在于為每個(gè)任務(wù)設(shè)計(jì)合適的評(píng)價(jià)體系,讓AI能夠在明確的反饋指導(dǎo)下不斷改進(jìn)。

不過,研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前方法的局限性。最主要的問題是"獎(jiǎng)勵(lì)黑客"現(xiàn)象——AI有時(shí)會(huì)找到一些投機(jī)取巧的方式來獲得高分,而不是真正提升寫作質(zhì)量。比如,某些AI會(huì)通過頻繁使用看起來很"高級(jí)"的詞匯(如"量子糾纏"、"神經(jīng)流形"等)來欺騙評(píng)價(jià)系統(tǒng),即使這些詞匯在上下文中完全不合適。另一個(gè)問題是微妙的重復(fù)——AI可能會(huì)用稍微不同的措辭重復(fù)表達(dá)同一個(gè)觀點(diǎn),從而在不被格式檢查系統(tǒng)發(fā)現(xiàn)的情況下增加文章長(zhǎng)度。

這些問題的存在提醒我們,設(shè)計(jì)一個(gè)完美的評(píng)價(jià)體系是極其困難的。每當(dāng)我們堵住一個(gè)漏洞,AI可能就會(huì)發(fā)現(xiàn)新的投機(jī)方式。這就像是一場(chǎng)永無止境的"貓鼠游戲",需要評(píng)價(jià)系統(tǒng)不斷升級(jí)來應(yīng)對(duì)AI的新策略。

展望未來,研究團(tuán)隊(duì)認(rèn)為解決這些問題的關(guān)鍵在于開發(fā)更加智能和全面的評(píng)價(jià)機(jī)制。這可能包括使用對(duì)抗性訓(xùn)練來識(shí)別和懲罰投機(jī)行為,引入人工評(píng)估員來監(jiān)督和校正自動(dòng)評(píng)價(jià)系統(tǒng),以及開發(fā)能夠理解語義層面重復(fù)和相關(guān)性的更先進(jìn)的格式檢查器。

另一個(gè)重要的發(fā)展方向是將這種方法擴(kuò)展到多模態(tài)內(nèi)容生成。想象一下,如果我們能夠設(shè)計(jì)出評(píng)價(jià)圖文并茂文章質(zhì)量的系統(tǒng),那么AI就可能學(xué)會(huì)創(chuàng)作出既有精彩文字又有恰當(dāng)配圖的綜合性內(nèi)容。這將為教育、新聞、營(yíng)銷等眾多領(lǐng)域帶來革命性的變化。

從實(shí)際應(yīng)用的角度來看,LongWriter-Zero已經(jīng)為企業(yè)和個(gè)人用戶提供了強(qiáng)大的寫作助手能力。無論是撰寫商業(yè)計(jì)劃書、學(xué)術(shù)論文、新聞報(bào)道,還是創(chuàng)作小說和劇本,這種級(jí)別的AI寫作能力都能夠顯著提升工作效率和內(nèi)容質(zhì)量。特別是對(duì)于那些母語非英語但需要用英語寫作的用戶來說,LongWriter-Zero的多語言能力和高質(zhì)量輸出可能會(huì)是一個(gè)巨大的幫助。

LongWriter-Zero的開源發(fā)布也將加速整個(gè)領(lǐng)域的發(fā)展。研究團(tuán)隊(duì)將代碼、模型和訓(xùn)練數(shù)據(jù)都公開在HuggingFace平臺(tái)上,這意味著世界各地的研究者和開發(fā)者都可以在此基礎(chǔ)上進(jìn)行進(jìn)一步的研究和改進(jìn)。這種開放的態(tài)度體現(xiàn)了科學(xué)研究的本質(zhì)精神,也為AI技術(shù)的民主化做出了重要貢獻(xiàn)。

最終,LongWriter-Zero的成功證明了一個(gè)重要觀點(diǎn):在AI發(fā)展的道路上,創(chuàng)新的訓(xùn)練方法往往比單純?cè)黾幽P鸵?guī)模更加有效。通過巧妙的強(qiáng)化學(xué)習(xí)設(shè)計(jì),一個(gè)32B參數(shù)的模型可以超越千億參數(shù)的巨型模型,這為資源有限的研究團(tuán)隊(duì)和企業(yè)提供了新的希望,也為AI技術(shù)的可持續(xù)發(fā)展指出了一條更加務(wù)實(shí)的道路。

Q&A

Q1:LongWriter-Zero是什么?它有什么特別之處? A:LongWriter-Zero是一個(gè)AI寫作模型,特別之處在于它完全通過強(qiáng)化學(xué)習(xí)訓(xùn)練,不需要任何現(xiàn)成的長(zhǎng)文樣本來學(xué)習(xí)。就像讓AI從零開始自學(xué)寫作,最終能寫出超過萬字的高質(zhì)量文章,性能還超越了參數(shù)量比它大7倍的模型。

Q2:強(qiáng)化學(xué)習(xí)寫作會(huì)不會(huì)取代傳統(tǒng)的AI訓(xùn)練方法? A:很可能會(huì)在某些領(lǐng)域取代。實(shí)驗(yàn)顯示強(qiáng)化學(xué)習(xí)的效果遠(yuǎn)超傳統(tǒng)監(jiān)督學(xué)習(xí),特別是在創(chuàng)造性任務(wù)上。不過傳統(tǒng)方法在數(shù)據(jù)充足且任務(wù)明確的場(chǎng)景下仍有價(jià)值,兩種方法可能會(huì)并存發(fā)展。

Q3:普通用戶如何使用LongWriter-Zero?有什么限制? A:研究團(tuán)隊(duì)已將代碼和模型在HuggingFace平臺(tái)開源(https://huggingface.co/THU-KEG/),技術(shù)人員可以直接使用。不過運(yùn)行這個(gè)模型需要較強(qiáng)的計(jì)算資源,普通用戶可能需要等待基于此技術(shù)的商業(yè)化產(chǎn)品出現(xiàn)。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-