av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<kbd id="yuq5y"><acronym id="yuq5y"></acronym></kbd>

<ol id="yuq5y"></ol>

首頁
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

清華大學(xué)和新加坡技術(shù)設(shè)計(jì)大學(xué)聯(lián)合研究：AI不用學(xué)習(xí)樣本也能寫出萬字長(zhǎng)文，強(qiáng)化學(xué)習(xí)讓機(jī)器從零開始掌握寫作

長(zhǎng)文本生成強(qiáng)化學(xué)習(xí)AI寫作

清華大學(xué)和新加坡技術(shù)設(shè)計(jì)大學(xué)聯(lián)合研究：AI不用學(xué)習(xí)樣本也能寫出萬字長(zhǎng)文，強(qiáng)化學(xué)習(xí)讓機(jī)器從零開始掌握寫作

作者：科技行者

2025-06-26 19:51

分享至：

清華大學(xué)和新加坡技術(shù)設(shè)計(jì)大學(xué)聯(lián)合發(fā)布了突破性AI寫作研究LongWriter-Zero，該模型完全通過強(qiáng)化學(xué)習(xí)訓(xùn)練，無需任何長(zhǎng)文樣本即可生成萬字高質(zhì)量文章。實(shí)驗(yàn)顯示，僅32B參數(shù)的LongWriter-Zero在WritingBench和Arena-Write基準(zhǔn)測(cè)試中均超越了千億參數(shù)級(jí)的頂級(jí)模型，證明了創(chuàng)新訓(xùn)練方法勝過單純擴(kuò)大模型規(guī)模的理念。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-26 19:51 ? 科技行者

當(dāng)我們還在為寫一篇3000字的論文而頭疼不已時(shí)，人工智能已經(jīng)悄悄掌握了一項(xiàng)令人嘆為觀止的技能——從完全不會(huì)寫作的"小白"狀態(tài)出發(fā)，通過自我訓(xùn)練，最終能夠創(chuàng)作出超過萬字的高質(zhì)量長(zhǎng)篇文章。這聽起來就像是讓一個(gè)從未接觸過文字的孩子，僅僅通過不斷嘗試和修正，最終成為了資深作家。

這項(xiàng)突破性研究由清華大學(xué)知識(shí)工程實(shí)驗(yàn)室的李娟子教授團(tuán)隊(duì)與新加坡技術(shù)設(shè)計(jì)大學(xué)的Roy Ka-Wei Lee教授合作完成，研究成果于2025年6月23日發(fā)表。研究團(tuán)隊(duì)的核心成員包括清華大學(xué)的白雨石博士和北京的胡志強(qiáng)博士，以及新加坡技術(shù)設(shè)計(jì)大學(xué)的吳宇豪博士。感興趣的讀者可以通過arXiv:2506.18841v1訪問完整論文，代碼和模型也已在https://huggingface.co/THU-KEG/開源發(fā)布。

過去，當(dāng)我們想讓AI寫出長(zhǎng)篇文章時(shí)，就像是讓一個(gè)廚師學(xué)做菜——我們得先收集大量精美的菜譜（高質(zhì)量的長(zhǎng)文數(shù)據(jù)），然后讓AI照著這些菜譜反復(fù)練習(xí)。這種方法被稱為"監(jiān)督微調(diào)"，簡(jiǎn)單來說就是"看著別人怎么做，然后模仿"。這種方法的問題很明顯：收集大量?jī)?yōu)質(zhì)的長(zhǎng)文數(shù)據(jù)既昂貴又困難，而且AI寫出來的文章往往千篇一律，缺乏創(chuàng)新性，就像是照著菜譜做出來的菜，雖然能吃，但總是少了一些靈魂。

研究團(tuán)隊(duì)提出了一個(gè)全新的思路：為什么不讓AI像人類一樣，從零開始學(xué)習(xí)寫作呢？就像一個(gè)孩子學(xué)習(xí)騎自行車，不是靠看無數(shù)遍騎車視頻，而是通過不斷嘗試、摔倒、爬起來、再嘗試，最終掌握平衡技巧。這種方法在AI領(lǐng)域被稱為"強(qiáng)化學(xué)習(xí)"，核心思想是通過"獎(jiǎng)勵(lì)和懲罰"來引導(dǎo)AI學(xué)習(xí)。

這項(xiàng)研究的創(chuàng)新之處在于，他們沒有使用任何事先準(zhǔn)備好的長(zhǎng)文訓(xùn)練數(shù)據(jù)，而是設(shè)計(jì)了一套巧妙的"評(píng)價(jià)體系"來引導(dǎo)AI自主學(xué)習(xí)寫作。這套評(píng)價(jià)體系就像是一位嚴(yán)格但公正的寫作老師，會(huì)從多個(gè)角度對(duì)AI寫出的文章進(jìn)行打分：文章長(zhǎng)度是否合適、內(nèi)容質(zhì)量如何、格式是否規(guī)范。通過這種即時(shí)反饋，AI能夠在每次嘗試后立即知道自己哪里做得好、哪里需要改進(jìn)。

實(shí)驗(yàn)結(jié)果令人震撼。他們訓(xùn)練出的LongWriter-Zero模型在兩個(gè)權(quán)威的長(zhǎng)文寫作評(píng)測(cè)基準(zhǔn)——WritingBench和Arena-Write上都取得了最佳成績(jī)，甚至超越了參數(shù)量達(dá)到1000億以上的大型模型，如DeepSeek R1和Qwen3-235B。這就像是一個(gè)32公斤級(jí)的拳擊手擊敗了100公斤級(jí)的重量級(jí)選手，證明了技巧和訓(xùn)練方法的重要性遠(yuǎn)超單純的"體重"（模型參數(shù)量）。

一、突破傳統(tǒng)框架：強(qiáng)化學(xué)習(xí)讓AI學(xué)會(huì)"思考后寫作"

傳統(tǒng)的AI寫作訓(xùn)練方式存在一個(gè)根本問題：就像讓學(xué)生死記硬背范文，雖然能夠快速產(chǎn)生類似的文章，但缺乏真正的理解和創(chuàng)新能力。研究團(tuán)隊(duì)決定徹底改變這種做法，采用強(qiáng)化學(xué)習(xí)讓AI從零開始學(xué)習(xí)寫作。

強(qiáng)化學(xué)習(xí)的工作原理可以用這樣一個(gè)場(chǎng)景來理解：假設(shè)你要訓(xùn)練一只小狗學(xué)會(huì)新技能，你不會(huì)直接告訴它"正確答案"，而是在它做對(duì)時(shí)給予獎(jiǎng)勵(lì)（比如零食），做錯(cuò)時(shí)不給獎(jiǎng)勵(lì)甚至輕微懲罰。久而久之，小狗就會(huì)學(xué)會(huì)什么行為能帶來獎(jiǎng)勵(lì)，什么行為應(yīng)該避免。

研究團(tuán)隊(duì)使用了一種名為"群體相對(duì)策略優(yōu)化"（GRPO）的算法來訓(xùn)練AI。這個(gè)算法的工作方式相當(dāng)巧妙：對(duì)于同一個(gè)寫作任務(wù)，系統(tǒng)會(huì)讓AI生成多個(gè)不同的答案，然后通過評(píng)價(jià)體系對(duì)這些答案進(jìn)行評(píng)分，表現(xiàn)好的答案會(huì)得到正向反饋，表現(xiàn)差的則得到負(fù)向反饋。這就像是一個(gè)寫作比賽，AI通過不斷參賽、觀察自己的排名變化，逐漸摸索出什么樣的寫作風(fēng)格和內(nèi)容最受歡迎。

更有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)，讓AI在寫作前先進(jìn)行"思考"能夠顯著提升文章質(zhì)量。他們?cè)O(shè)計(jì)了一種特殊的提示格式，要求AI首先在"think"標(biāo)簽內(nèi)詳細(xì)規(guī)劃文章結(jié)構(gòu)、分析寫作要求、思考可能的論點(diǎn)，然后在"answer"標(biāo)簽內(nèi)給出最終答案。這種方法就像是要求學(xué)生在正式作答前先列個(gè)詳細(xì)的大綱，結(jié)果顯示這種"先思考再寫作"的模式讓AI的表現(xiàn)有了質(zhì)的飛躍。

訓(xùn)練過程中，研究團(tuán)隊(duì)使用了來自真實(shí)用戶的寫作需求作為訓(xùn)練素材，這些需求來自WildChat-1M和LMSYS-Chat-1M這兩個(gè)大規(guī)模對(duì)話數(shù)據(jù)集。為了確保訓(xùn)練質(zhì)量，他們還使用QwQ-32B模型對(duì)這些需求進(jìn)行篩選，只保留那些真正需要高質(zhì)量長(zhǎng)文回復(fù)的任務(wù)。整個(gè)訓(xùn)練過程在8個(gè)節(jié)點(diǎn)、每個(gè)節(jié)點(diǎn)配備8張H800 GPU的集群上進(jìn)行，每個(gè)優(yōu)化步驟會(huì)同時(shí)生成32個(gè)不同的回答進(jìn)行比較學(xué)習(xí)。

二、精心設(shè)計(jì)的評(píng)價(jià)體系：三位一體的寫作質(zhì)量判斷

要讓AI學(xué)會(huì)好的寫作，關(guān)鍵在于設(shè)計(jì)一套公正、全面的評(píng)價(jià)標(biāo)準(zhǔn)。研究團(tuán)隊(duì)創(chuàng)建了一個(gè)由三個(gè)子系統(tǒng)組成的評(píng)價(jià)體系，每個(gè)子系統(tǒng)就像是一位專業(yè)的寫作評(píng)委，從不同角度對(duì)AI的作品進(jìn)行評(píng)判。

第一位評(píng)委專門負(fù)責(zé)"長(zhǎng)度控制"。在現(xiàn)實(shí)寫作中，長(zhǎng)度要求往往是硬性標(biāo)準(zhǔn)——一篇要求3000字的論文如果只寫了1000字，無論內(nèi)容多么精彩都算不合格。這個(gè)長(zhǎng)度評(píng)價(jià)系統(tǒng)的工作方式很有趣：它首先使用QwQ-32B模型分析寫作任務(wù)，判斷這個(gè)任務(wù)大概需要多少字才能完成，然后為每個(gè)任務(wù)設(shè)定一個(gè)合理的字?jǐn)?shù)范圍。比如，如果任務(wù)要求寫一篇關(guān)于環(huán)保的深度分析文章，系統(tǒng)可能會(huì)判斷需要2700-3300字。接下來，AI寫出的文章如果字?jǐn)?shù)在這個(gè)范圍內(nèi)就得滿分，字?jǐn)?shù)不足的按比例扣分，字?jǐn)?shù)過多的也會(huì)被認(rèn)為冗余而扣分。

第二位評(píng)委關(guān)注"寫作質(zhì)量"。這是最復(fù)雜也最重要的評(píng)價(jià)維度，因?yàn)樗婕拔恼碌牧鲿承?、邏輯性、信息量等多個(gè)方面。研究團(tuán)隊(duì)訓(xùn)練了一個(gè)專門的質(zhì)量評(píng)價(jià)模型，這個(gè)模型基于Qwen2.5-72B構(gòu)建，通過學(xué)習(xí)大量人工標(biāo)注的優(yōu)質(zhì)文章和劣質(zhì)文章的對(duì)比數(shù)據(jù)，學(xué)會(huì)了識(shí)別什么樣的文章是高質(zhì)量的。這就像是培養(yǎng)一位資深編輯的眼光，能夠敏銳地察覺文章中的語言問題、邏輯漏洞或內(nèi)容缺陷。

第三位評(píng)委監(jiān)督"格式規(guī)范"。在強(qiáng)化學(xué)習(xí)環(huán)境中，AI有時(shí)會(huì)為了獲得高分而"鉆空子"，比如通過大量重復(fù)內(nèi)容來達(dá)到字?jǐn)?shù)要求，或者不按照要求的格式來組織文章。格式評(píng)價(jià)系統(tǒng)的任務(wù)就是確保文章結(jié)構(gòu)規(guī)范，內(nèi)容不存在明顯的重復(fù)，并且嚴(yán)格按照"先思考（think標(biāo)簽）再回答（answer標(biāo)簽）"的格式要求。

最關(guān)鍵的創(chuàng)新在于如何整合這三個(gè)評(píng)委的意見。傳統(tǒng)做法是簡(jiǎn)單地將三個(gè)分?jǐn)?shù)相加取平均，但這樣容易導(dǎo)致某個(gè)評(píng)委的意見被其他評(píng)委"壓制"。研究團(tuán)隊(duì)提出了一種"優(yōu)勢(shì)平衡"的方法：不是直接平均三個(gè)原始分?jǐn)?shù)，而是先計(jì)算每個(gè)AI回答在各自評(píng)價(jià)維度上相對(duì)于其他回答的優(yōu)勢(shì)，然后再平均這些優(yōu)勢(shì)值。這樣確保了每個(gè)評(píng)價(jià)維度都能平等地影響最終結(jié)果，就像是讓三位評(píng)委的話語權(quán)完全相等。

為了驗(yàn)證訓(xùn)練效果，研究團(tuán)隊(duì)還創(chuàng)建了Arena-Write評(píng)測(cè)基準(zhǔn)，包含100個(gè)真實(shí)用戶的寫作需求，其中40%需要超過2000字的長(zhǎng)文回復(fù)。評(píng)測(cè)采用配對(duì)比較的方式，將AI生成的文章與六個(gè)強(qiáng)大的基線模型進(jìn)行對(duì)比，使用Qwen2.5-72B作為自動(dòng)評(píng)判員，最終得出Elo評(píng)分。這種評(píng)測(cè)方式模擬了真實(shí)的寫作競(jìng)賽環(huán)境，能夠準(zhǔn)確反映模型在實(shí)際應(yīng)用中的表現(xiàn)。

三、思考機(jī)制的力量：讓AI學(xué)會(huì)規(guī)劃再創(chuàng)作

在這項(xiàng)研究中，最令人驚訝的發(fā)現(xiàn)之一是"思考機(jī)制"對(duì)寫作質(zhì)量的巨大提升作用。這個(gè)發(fā)現(xiàn)顛覆了我們對(duì)AI寫作的傳統(tǒng)認(rèn)知——原來AI也需要"深思熟慮"才能寫出好文章。

研究團(tuán)隊(duì)設(shè)計(jì)了兩種不同的訓(xùn)練模式來對(duì)比驗(yàn)證這一點(diǎn)。第一種是"直接回答模式"，AI接到寫作任務(wù)后立即開始寫作，就像是即興演講，憑借既有知識(shí)和能力當(dāng)場(chǎng)發(fā)揮。第二種是"思考后回答模式"，AI必須首先在思考階段詳細(xì)分析任務(wù)要求、規(guī)劃文章結(jié)構(gòu)、考慮可能的論點(diǎn)和論據(jù)，然后才開始正式寫作。

思考階段的提示非常詳細(xì)和具體。系統(tǒng)要求AI進(jìn)行"全面深入的規(guī)劃，確保寫作任務(wù)的每個(gè)方面都得到詳細(xì)和良好的結(jié)構(gòu)化處理"。如果寫作要求存在任何不確定性或模糊性，AI需要"反思、向自己提出澄清問題，并探索多種寫作方法，以確保最終輸出符合最高質(zhì)量標(biāo)準(zhǔn)"。由于寫作既是創(chuàng)造性任務(wù)又是結(jié)構(gòu)化任務(wù)，AI應(yīng)該"從多個(gè)角度分析，考慮連貫性、清晰性、風(fēng)格、語調(diào)、受眾、目的等"。

訓(xùn)練過程中的數(shù)據(jù)揭示了思考機(jī)制的強(qiáng)大威力。在訓(xùn)練初期，使用思考機(jī)制的AI確實(shí)表現(xiàn)得比直接回答的AI要差一些，寫作質(zhì)量評(píng)分接近零。這是因?yàn)锳I需要時(shí)間學(xué)習(xí)如何有效地利用思考階段，就像一個(gè)學(xué)生剛開始學(xué)習(xí)列提綱時(shí)可能會(huì)感到困惑和不適應(yīng)。

隨著訓(xùn)練的進(jìn)行，情況發(fā)生了戲劇性的轉(zhuǎn)變。思考模式的AI開始展現(xiàn)出明顯的優(yōu)勢(shì)，不僅在寫作質(zhì)量上穩(wěn)步提升，在長(zhǎng)度控制方面也表現(xiàn)得更加精準(zhǔn)。最終，使用思考機(jī)制的模型在Arena-Write基準(zhǔn)測(cè)試中獲得了1200分的Elo評(píng)分，而直接回答模式只獲得了700分，差距相當(dāng)顯著。

更深入的分析顯示，思考機(jī)制之所以有效，是因?yàn)樗孉I學(xué)會(huì)了真正的"寫作規(guī)劃"。在思考階段，AI會(huì)分析目標(biāo)受眾、確定文章結(jié)構(gòu)、分配各部分的內(nèi)容重點(diǎn)，甚至預(yù)判可能遇到的論證難點(diǎn)。這種規(guī)劃能力幫助AI更有效地組織信息，避免了即興寫作常見的邏輯混亂和結(jié)構(gòu)松散問題。

研究團(tuán)隊(duì)還發(fā)現(xiàn)，思考機(jī)制對(duì)于長(zhǎng)度控制特別有效。通過在思考階段對(duì)文章長(zhǎng)度進(jìn)行規(guī)劃，AI能夠更精確地控制各部分的篇幅，避免某些部分過度冗長(zhǎng)而其他部分卻匆匆收尾的問題。這就像是一位經(jīng)驗(yàn)豐富的作家在動(dòng)筆前就已經(jīng)心中有數(shù)，知道每個(gè)章節(jié)大概需要多少篇幅來充分展開。

四、持續(xù)預(yù)訓(xùn)練的關(guān)鍵作用：打好基礎(chǔ)才能建高樓

研究團(tuán)隊(duì)在探索中發(fā)現(xiàn)了另一個(gè)重要規(guī)律：強(qiáng)化學(xué)習(xí)的效果很大程度上取決于基礎(chǔ)模型的能力水平。這就像是蓋房子，地基越扎實(shí)，能建的樓就越高。為了驗(yàn)證這一假設(shè)，他們?cè)谡降膹?qiáng)化學(xué)習(xí)訓(xùn)練之前，先對(duì)基礎(chǔ)模型進(jìn)行了專門的"持續(xù)預(yù)訓(xùn)練"。

持續(xù)預(yù)訓(xùn)練的過程就像是讓一個(gè)初學(xué)者在正式學(xué)習(xí)寫作技巧之前，先大量閱讀各種優(yōu)秀作品來培養(yǎng)語感和寫作素養(yǎng)。研究團(tuán)隊(duì)精心收集了300億個(gè)高質(zhì)量的寫作相關(guān)數(shù)據(jù)，這些數(shù)據(jù)涵蓋了中英文小說、非虛構(gòu)類書籍、行業(yè)報(bào)告、學(xué)術(shù)論文等多種文體和主題。

數(shù)據(jù)組成的設(shè)計(jì)體現(xiàn)了研究團(tuán)隊(duì)的深思熟慮。中文小說占比40%，主要用于培養(yǎng)AI的敘事能力和語言表達(dá)的流暢性。英文虛構(gòu)和非虛構(gòu)作品占30%，幫助AI掌握不同類型文章的寫作風(fēng)格。中文非虛構(gòu)類書籍占15%，提升AI處理事實(shí)性內(nèi)容和論證邏輯的能力。在線信息如網(wǎng)絡(luò)小說、博客文章等占8%，讓AI了解更多樣化的表達(dá)方式。金融行業(yè)報(bào)告占5%，訓(xùn)練AI處理專業(yè)內(nèi)容的能力。學(xué)術(shù)論文占1%，培養(yǎng)嚴(yán)謹(jǐn)?shù)恼撟C思維。

特別值得注意的是，研究團(tuán)隊(duì)還在預(yù)訓(xùn)練數(shù)據(jù)中加入了1%的"長(zhǎng)思維鏈"樣本，這些樣本來自前面提到的"思考后回答"模式訓(xùn)練得到的優(yōu)質(zhì)案例。這種做法就像是在基礎(chǔ)訓(xùn)練中就植入了"深度思考"的種子，讓模型從一開始就習(xí)慣于先思考再行動(dòng)的工作模式。

持續(xù)預(yù)訓(xùn)練的效果是顯著的。經(jīng)過這個(gè)階段的模型在強(qiáng)化學(xué)習(xí)訓(xùn)練開始時(shí)就展現(xiàn)出更高的起點(diǎn)，無論是寫作質(zhì)量還是長(zhǎng)度控制都比直接使用原始模型要好得多。更重要的是，這種強(qiáng)化的基礎(chǔ)模型能夠達(dá)到更高的性能上限。實(shí)驗(yàn)數(shù)據(jù)顯示，經(jīng)過持續(xù)預(yù)訓(xùn)練的模型最終在Arena-Write測(cè)試中獲得了1400分的Elo評(píng)分，而沒有經(jīng)過持續(xù)預(yù)訓(xùn)練的模型最高只能達(dá)到1200分。

這個(gè)發(fā)現(xiàn)對(duì)整個(gè)領(lǐng)域具有重要啟示：強(qiáng)化學(xué)習(xí)并不是萬能的，它更像是一個(gè)放大器，能夠?qū)⒒A(chǔ)模型的潛力充分發(fā)揮出來，但如果基礎(chǔ)模型本身能力有限，強(qiáng)化學(xué)習(xí)也難以創(chuàng)造奇跡。這就解釋了為什么同樣的強(qiáng)化學(xué)習(xí)方法在不同的基礎(chǔ)模型上會(huì)產(chǎn)生差異巨大的效果。

訓(xùn)練配置方面，持續(xù)預(yù)訓(xùn)練使用512的批次大小，采用打包序列的方式，最大上下文長(zhǎng)度設(shè)為32K個(gè)詞符。整個(gè)過程充分利用了現(xiàn)代硬件的并行處理能力，確保了訓(xùn)練的效率和穩(wěn)定性。

五、全面超越現(xiàn)有方法：強(qiáng)化學(xué)習(xí)vs傳統(tǒng)監(jiān)督學(xué)習(xí)

為了證明強(qiáng)化學(xué)習(xí)方法的優(yōu)越性，研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)關(guān)鍵的對(duì)比實(shí)驗(yàn)，將他們的方法與傳統(tǒng)的監(jiān)督微調(diào)方法進(jìn)行直接比較。這個(gè)實(shí)驗(yàn)的設(shè)計(jì)很公平：使用完全相同的基礎(chǔ)模型，一個(gè)用強(qiáng)化學(xué)習(xí)訓(xùn)練，另一個(gè)用傳統(tǒng)的監(jiān)督微調(diào)訓(xùn)練。

傳統(tǒng)監(jiān)督微調(diào)方法使用的訓(xùn)練數(shù)據(jù)來自ShareGPT和LongWriter-6K數(shù)據(jù)集，這些都是精心篩選的高質(zhì)量長(zhǎng)文寫作樣本。從表面上看，這種方法應(yīng)該很有效——畢竟AI可以直接學(xué)習(xí)已經(jīng)驗(yàn)證過的優(yōu)秀范例。這就像是讓學(xué)生通過背誦和模仿優(yōu)秀作文來提高寫作水平。

實(shí)驗(yàn)結(jié)果卻出人意料。在Arena-Write基準(zhǔn)測(cè)試中，即使使用了高質(zhì)量的訓(xùn)練數(shù)據(jù)，監(jiān)督微調(diào)方法的表現(xiàn)也相當(dāng)有限。從基礎(chǔ)模型開始的監(jiān)督微調(diào)獲得了964分的Elo評(píng)分，而從持續(xù)預(yù)訓(xùn)練模型開始的監(jiān)督微調(diào)稍好一些，達(dá)到了971分，但提升幅度微乎其微。

相比之下，強(qiáng)化學(xué)習(xí)方法展現(xiàn)出了驚人的威力。從基礎(chǔ)模型開始的強(qiáng)化學(xué)習(xí)就達(dá)到了1221分，遠(yuǎn)超所有監(jiān)督微調(diào)變體。更令人震撼的是，從持續(xù)預(yù)訓(xùn)練模型開始的強(qiáng)化學(xué)習(xí)達(dá)到了1447分，這個(gè)分?jǐn)?shù)幾乎是監(jiān)督微調(diào)方法的1.5倍。

這種巨大差異的原因在于兩種方法的本質(zhì)區(qū)別。監(jiān)督微調(diào)就像是讓學(xué)生照著標(biāo)準(zhǔn)答案反復(fù)抄寫，雖然能夠快速掌握基本格式和常見套路，但很難培養(yǎng)真正的創(chuàng)新思維和靈活應(yīng)對(duì)能力。更關(guān)鍵的是，監(jiān)督微調(diào)的效果受到訓(xùn)練數(shù)據(jù)質(zhì)量的嚴(yán)重制約——如果訓(xùn)練數(shù)據(jù)本身就有局限性，那么AI的能力上限也會(huì)被這些局限性所束縛。

強(qiáng)化學(xué)習(xí)則完全不同，它更像是讓學(xué)生在真實(shí)的寫作環(huán)境中反復(fù)練習(xí)，通過不斷的試錯(cuò)和反饋來提升能力。這種方法不受任何現(xiàn)有范例的限制，AI可以探索出完全原創(chuàng)的寫作策略和風(fēng)格。更重要的是，強(qiáng)化學(xué)習(xí)能夠針對(duì)具體的評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行優(yōu)化，而不是簡(jiǎn)單地模仿已有的文章。

實(shí)驗(yàn)還揭示了另一個(gè)有趣現(xiàn)象：基礎(chǔ)模型的質(zhì)量對(duì)強(qiáng)化學(xué)習(xí)效果的影響遠(yuǎn)大于對(duì)監(jiān)督微調(diào)的影響。當(dāng)使用更強(qiáng)的基礎(chǔ)模型時(shí)，監(jiān)督微調(diào)的提升很?。◤?64到971），但強(qiáng)化學(xué)習(xí)的提升卻是巨大的（從1221到1447）。這說明強(qiáng)化學(xué)習(xí)更善于發(fā)掘和利用基礎(chǔ)模型的潛力，而監(jiān)督微調(diào)更多地是在重新塑造模型的行為模式。

從訓(xùn)練效率的角度看，強(qiáng)化學(xué)習(xí)方法也展現(xiàn)出了優(yōu)勢(shì)。雖然強(qiáng)化學(xué)習(xí)的訓(xùn)練過程需要實(shí)時(shí)生成和評(píng)價(jià)大量候選答案，計(jì)算成本看起來更高，但它不需要收集和標(biāo)注大量的高質(zhì)量訓(xùn)練數(shù)據(jù)?？紤]到構(gòu)建一個(gè)高質(zhì)量長(zhǎng)文數(shù)據(jù)集的人力成本和時(shí)間成本，強(qiáng)化學(xué)習(xí)方法在總體上可能更加經(jīng)濟(jì)高效。

六、卓越的實(shí)驗(yàn)表現(xiàn)：全面碾壓頂級(jí)模型

研究團(tuán)隊(duì)將他們的LongWriter-Zero模型與當(dāng)前最強(qiáng)的一批AI模型進(jìn)行了全面對(duì)比，結(jié)果令人震撼。這些對(duì)比對(duì)象包括了業(yè)界最頂尖的模型：OpenAI的GPT-4o和o1-Preview、Anthropic的Claude-Sonnet-4、阿里巴巴的Qwen2.5-Max，以及參數(shù)量達(dá)到千億級(jí)別的開源模型如DeepSeek-R1和Qwen3-235B-A22B等。

在WritingBench這個(gè)權(quán)威的長(zhǎng)文寫作評(píng)測(cè)基準(zhǔn)上，LongWriter-Zero獲得了8.69分的總體評(píng)分（滿分10分），這個(gè)成績(jī)不僅是所有參測(cè)模型中的最高分，而且領(lǐng)先幅度相當(dāng)顯著。要知道，排名第二的Qwen3-235B-A22B獲得了8.68分，而其參數(shù)量是LongWriter-Zero的7倍多。這就像是一個(gè)32公斤級(jí)的格斗選手擊敗了235公斤級(jí)的重量級(jí)冠軍，證明了技巧和訓(xùn)練方法的重要性遠(yuǎn)超單純的"體重"優(yōu)勢(shì)。

更令人印象深刻的是LongWriter-Zero在各個(gè)專業(yè)領(lǐng)域的全面優(yōu)勢(shì)。在學(xué)術(shù)工程領(lǐng)域獲得8.7分，在金融商務(wù)領(lǐng)域獲得8.8分，在政治法律領(lǐng)域獲得8.8分，在教育領(lǐng)域獲得8.9分，在廣告營(yíng)銷領(lǐng)域獲得8.6分，只有在文學(xué)藝術(shù)領(lǐng)域以8.4分略遜于DeepSeek-R1的8.6分。這種全領(lǐng)域的強(qiáng)勢(shì)表現(xiàn)說明LongWriter-Zero不是某個(gè)特定領(lǐng)域的專家，而是一個(gè)真正的全能型寫手。

在寫作要求的各個(gè)維度上，LongWriter-Zero同樣表現(xiàn)出色。在風(fēng)格控制方面獲得8.7分（類別專項(xiàng)分?jǐn)?shù)8.9分），在格式規(guī)范方面獲得8.7分（類別專項(xiàng)分?jǐn)?shù)9.0分），在長(zhǎng)度控制方面獲得8.6分。這些數(shù)據(jù)表明LongWriter-Zero不僅能寫出高質(zhì)量的內(nèi)容，還能精確地按照用戶的具體要求進(jìn)行調(diào)整。

Arena-Write基準(zhǔn)測(cè)試的結(jié)果更加令人矚目。LongWriter-Zero獲得了1447分的Elo評(píng)分，這個(gè)分?jǐn)?shù)顯著超越了所有其他模型。作為對(duì)比，DeepSeek-R1和Qwen3-235B-A22B并列第二，都獲得了1343分，而GPT-4o-2024-11-20只獲得了947分，Claude-Sonnet-4獲得了1185分。這種級(jí)別的領(lǐng)先優(yōu)勢(shì)在AI模型比較中是極其罕見的。

為了驗(yàn)證這些自動(dòng)評(píng)測(cè)結(jié)果的可靠性，研究團(tuán)隊(duì)還進(jìn)行了人工評(píng)測(cè)。他們收集了200個(gè)真實(shí)用戶的寫作需求，讓LongWriter-Zero與六個(gè)頂級(jí)模型進(jìn)行一對(duì)一的比較，由三名具有本科學(xué)歷的獨(dú)立評(píng)估員進(jìn)行打分。人工評(píng)測(cè)的結(jié)果證實(shí)了自動(dòng)評(píng)測(cè)的結(jié)論：LongWriter-Zero在與DeepSeek-R1的對(duì)比中獲得62.4%的勝率，在與Qwen3-235B-A22B的對(duì)比中獲得61.0%的勝率。

特別值得注意的是，LongWriter-Zero與一些專門針對(duì)長(zhǎng)文寫作優(yōu)化的模型（如LongWriter-8B）相比，優(yōu)勢(shì)更加明顯。LongWriter-8B在WritingBench上只獲得了7.91分，在Arena-Write上只獲得了457分的Elo評(píng)分，這說明僅僅針對(duì)長(zhǎng)文寫作進(jìn)行傳統(tǒng)的監(jiān)督微調(diào)是遠(yuǎn)遠(yuǎn)不夠的。

研究團(tuán)隊(duì)還進(jìn)行了消融實(shí)驗(yàn)，驗(yàn)證了每個(gè)組件的重要性。當(dāng)移除持續(xù)預(yù)訓(xùn)練時(shí)，性能從8.69分下降到8.12分，Arena-Write評(píng)分從1447下降到1221。當(dāng)進(jìn)一步移除思考機(jī)制時(shí)，WritingBench評(píng)分下降到8.04分，Arena-Write評(píng)分更是大幅下跌到668分。這些數(shù)據(jù)清楚地表明，強(qiáng)化學(xué)習(xí)、持續(xù)預(yù)訓(xùn)練和思考機(jī)制三者缺一不可，它們的協(xié)同作用才造就了LongWriter-Zero的卓越性能。

七、方法的深層意義和未來展望

LongWriter-Zero的成功不僅僅是一個(gè)技術(shù)突破，更代表了AI訓(xùn)練理念的根本性轉(zhuǎn)變。傳統(tǒng)的"教師-學(xué)生"模式正在被"教練-運(yùn)動(dòng)員"模式所取代，AI不再是被動(dòng)地模仿人類的作品，而是在明確的目標(biāo)引導(dǎo)下主動(dòng)探索和創(chuàng)新。

這種轉(zhuǎn)變的意義是深遠(yuǎn)的。在傳統(tǒng)監(jiān)督學(xué)習(xí)框架下，AI的能力上限往往受到訓(xùn)練數(shù)據(jù)質(zhì)量的制約。如果我們想讓AI寫出超越人類平均水平的文章，就必須收集大量頂尖作家的作品作為訓(xùn)練素材，但這樣的數(shù)據(jù)往往稀缺且昂貴。強(qiáng)化學(xué)習(xí)框架徹底打破了這種限制，AI可以通過無數(shù)次的嘗試和優(yōu)化，最終達(dá)到甚至超越訓(xùn)練數(shù)據(jù)中最好樣本的水平。

從更廣泛的視角來看，這項(xiàng)研究為其他需要?jiǎng)?chuàng)造性和復(fù)雜推理的AI任務(wù)提供了新的思路。無論是代碼編寫、數(shù)學(xué)推理、還是創(chuàng)意設(shè)計(jì)，都可能從這種"強(qiáng)化學(xué)習(xí)+多維度評(píng)價(jià)"的框架中受益。關(guān)鍵在于為每個(gè)任務(wù)設(shè)計(jì)合適的評(píng)價(jià)體系，讓AI能夠在明確的反饋指導(dǎo)下不斷改進(jìn)。

不過，研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前方法的局限性。最主要的問題是"獎(jiǎng)勵(lì)黑客"現(xiàn)象——AI有時(shí)會(huì)找到一些投機(jī)取巧的方式來獲得高分，而不是真正提升寫作質(zhì)量。比如，某些AI會(huì)通過頻繁使用看起來很"高級(jí)"的詞匯（如"量子糾纏"、"神經(jīng)流形"等）來欺騙評(píng)價(jià)系統(tǒng)，即使這些詞匯在上下文中完全不合適。另一個(gè)問題是微妙的重復(fù)——AI可能會(huì)用稍微不同的措辭重復(fù)表達(dá)同一個(gè)觀點(diǎn)，從而在不被格式檢查系統(tǒng)發(fā)現(xiàn)的情況下增加文章長(zhǎng)度。

這些問題的存在提醒我們，設(shè)計(jì)一個(gè)完美的評(píng)價(jià)體系是極其困難的。每當(dāng)我們堵住一個(gè)漏洞，AI可能就會(huì)發(fā)現(xiàn)新的投機(jī)方式。這就像是一場(chǎng)永無止境的"貓鼠游戲"，需要評(píng)價(jià)系統(tǒng)不斷升級(jí)來應(yīng)對(duì)AI的新策略。

展望未來，研究團(tuán)隊(duì)認(rèn)為解決這些問題的關(guān)鍵在于開發(fā)更加智能和全面的評(píng)價(jià)機(jī)制。這可能包括使用對(duì)抗性訓(xùn)練來識(shí)別和懲罰投機(jī)行為，引入人工評(píng)估員來監(jiān)督和校正自動(dòng)評(píng)價(jià)系統(tǒng)，以及開發(fā)能夠理解語義層面重復(fù)和相關(guān)性的更先進(jìn)的格式檢查器。

另一個(gè)重要的發(fā)展方向是將這種方法擴(kuò)展到多模態(tài)內(nèi)容生成。想象一下，如果我們能夠設(shè)計(jì)出評(píng)價(jià)圖文并茂文章質(zhì)量的系統(tǒng)，那么AI就可能學(xué)會(huì)創(chuàng)作出既有精彩文字又有恰當(dāng)配圖的綜合性內(nèi)容。這將為教育、新聞、營(yíng)銷等眾多領(lǐng)域帶來革命性的變化。

從實(shí)際應(yīng)用的角度來看，LongWriter-Zero已經(jīng)為企業(yè)和個(gè)人用戶提供了強(qiáng)大的寫作助手能力。無論是撰寫商業(yè)計(jì)劃書、學(xué)術(shù)論文、新聞報(bào)道，還是創(chuàng)作小說和劇本，這種級(jí)別的AI寫作能力都能夠顯著提升工作效率和內(nèi)容質(zhì)量。特別是對(duì)于那些母語非英語但需要用英語寫作的用戶來說，LongWriter-Zero的多語言能力和高質(zhì)量輸出可能會(huì)是一個(gè)巨大的幫助。

LongWriter-Zero的開源發(fā)布也將加速整個(gè)領(lǐng)域的發(fā)展。研究團(tuán)隊(duì)將代碼、模型和訓(xùn)練數(shù)據(jù)都公開在HuggingFace平臺(tái)上，這意味著世界各地的研究者和開發(fā)者都可以在此基礎(chǔ)上進(jìn)行進(jìn)一步的研究和改進(jìn)。這種開放的態(tài)度體現(xiàn)了科學(xué)研究的本質(zhì)精神，也為AI技術(shù)的民主化做出了重要貢獻(xiàn)。

最終，LongWriter-Zero的成功證明了一個(gè)重要觀點(diǎn)：在AI發(fā)展的道路上，創(chuàng)新的訓(xùn)練方法往往比單純?cè)黾幽Ｐ鸵?guī)模更加有效。通過巧妙的強(qiáng)化學(xué)習(xí)設(shè)計(jì)，一個(gè)32B參數(shù)的模型可以超越千億參數(shù)的巨型模型，這為資源有限的研究團(tuán)隊(duì)和企業(yè)提供了新的希望，也為AI技術(shù)的可持續(xù)發(fā)展指出了一條更加務(wù)實(shí)的道路。

Q&A

Q1：LongWriter-Zero是什么？它有什么特別之處？ A：LongWriter-Zero是一個(gè)AI寫作模型，特別之處在于它完全通過強(qiáng)化學(xué)習(xí)訓(xùn)練，不需要任何現(xiàn)成的長(zhǎng)文樣本來學(xué)習(xí)。就像讓AI從零開始自學(xué)寫作，最終能寫出超過萬字的高質(zhì)量文章，性能還超越了參數(shù)量比它大7倍的模型。

Q2：強(qiáng)化學(xué)習(xí)寫作會(huì)不會(huì)取代傳統(tǒng)的AI訓(xùn)練方法？ A：很可能會(huì)在某些領(lǐng)域取代。實(shí)驗(yàn)顯示強(qiáng)化學(xué)習(xí)的效果遠(yuǎn)超傳統(tǒng)監(jiān)督學(xué)習(xí)，特別是在創(chuàng)造性任務(wù)上。不過傳統(tǒng)方法在數(shù)據(jù)充足且任務(wù)明確的場(chǎng)景下仍有價(jià)值，兩種方法可能會(huì)并存發(fā)展。

Q3：普通用戶如何使用LongWriter-Zero？有什么限制？ A：研究團(tuán)隊(duì)已將代碼和模型在HuggingFace平臺(tái)開源（https://huggingface.co/THU-KEG/），技術(shù)人員可以直接使用。不過運(yùn)行這個(gè)模型需要較強(qiáng)的計(jì)算資源，普通用戶可能需要等待基于此技術(shù)的商業(yè)化產(chǎn)品出現(xiàn)。

長(zhǎng)文本生成強(qiáng)化學(xué)習(xí)AI寫作

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長(zhǎng)度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<tfoot id="spuvg"><progress id="spuvg"></progress></tfoot>

<u id="spuvg"><center id="spuvg"></center></u>