在當(dāng)今快速發(fā)展的人工智能領(lǐng)域,大型語言模型(LLMs)已經(jīng)展現(xiàn)出令人驚嘆的文本生成能力。然而,當(dāng)涉及到生成長(zhǎng)篇文本時(shí),這些模型仍然面臨著巨大挑戰(zhàn),尤其是在保持連貫性、確保邏輯一致性以及隨著文本長(zhǎng)度增加而維持質(zhì)量方面。新加坡科技設(shè)計(jì)大學(xué)和清華大學(xué)的研究團(tuán)隊(duì)在一項(xiàng)最新研究中提出了一個(gè)創(chuàng)新解決方案,他們開發(fā)了名為"SuperWriter"的框架,旨在顯著提升長(zhǎng)篇文本生成的質(zhì)量。這項(xiàng)研究由吳宇昊、白宇實(shí)、胡志強(qiáng)、李娟子和李嘉偉共同完成,發(fā)表于2025年6月的arXiv預(yù)印本平臺(tái)(arXiv:2506.04180v1)。
為什么長(zhǎng)篇文本生成如此困難?
想象一下,你正在閱讀一部小說,剛開始情節(jié)引人入勝,但隨著閱讀的深入,你發(fā)現(xiàn)故事線開始混亂,人物行為前后矛盾,甚至出現(xiàn)了情節(jié)漏洞。這正是當(dāng)前大型語言模型在生成長(zhǎng)篇文本時(shí)面臨的典型問題。
現(xiàn)有的大型語言模型通常采用"一口氣生成"的方式創(chuàng)作長(zhǎng)篇文本,就像一個(gè)人不打草稿、不停頓思考地一氣呵成寫完一篇長(zhǎng)文。然而,優(yōu)秀的人類作家很少這樣創(chuàng)作。如論文第一頁圖1所示,人類寫作通常遵循一個(gè)更為深思熟慮的過程:先思考(Think)、再規(guī)劃大綱(Outline)、然后分章節(jié)寫作(Write),最后進(jìn)行修改(Refine)。這種結(jié)構(gòu)化的思考過程正是SuperWriter要模仿的關(guān)鍵。
研究團(tuán)隊(duì)發(fā)現(xiàn),雖然大型語言模型在短文生成方面表現(xiàn)出色,但在長(zhǎng)篇?jiǎng)?chuàng)作中,它們往往會(huì)隨著文本長(zhǎng)度增加而出現(xiàn)連貫性下降和邏輯矛盾的問題。這些模型缺乏一個(gè)明確的、結(jié)構(gòu)化的思考框架來指導(dǎo)長(zhǎng)篇文本的創(chuàng)作過程。
SuperWriter:模仿人類作家的思考過程
SuperWriter的核心理念是引入顯式的結(jié)構(gòu)化思考環(huán)節(jié)到文本生成過程中。這個(gè)框架主要由兩個(gè)關(guān)鍵部分組成:SuperWriter-Agent(基于代理的框架)和SuperWriter-LM(經(jīng)過訓(xùn)練的語言模型)。
### SuperWriter-Agent:三階段寫作框架
SuperWriter-Agent是一個(gè)代理式框架,它模擬人類寫作的認(rèn)知過程,將長(zhǎng)篇文本生成分為三個(gè)階段:規(guī)劃(Planning)、寫作(Writing)和修改(Refining)。就像一位專業(yè)作家會(huì)先構(gòu)思、再動(dòng)筆、最后修改一樣,這個(gè)框架也遵循類似的工作流程。
**第一階段:規(guī)劃(Plan)**
想象一下寫作課堂上老師和學(xué)生們圍坐在一起,通過口頭討論來完善創(chuàng)作構(gòu)思的場(chǎng)景。SuperWriter-Agent的規(guī)劃階段正是模擬了這種"故事工作坊"(Story Workshop)的互動(dòng)過程。
在這個(gè)階段,系統(tǒng)中的兩個(gè)AI代理會(huì)進(jìn)行協(xié)作對(duì)話,共同確定: - 核心主題和中心論點(diǎn) - 角色背景設(shè)定(如果是創(chuàng)意寫作) - 段落級(jí)別的內(nèi)容結(jié)構(gòu) - 合理分配每個(gè)段落的字?jǐn)?shù) - 將關(guān)鍵想法與特定段落關(guān)聯(lián)起來
研究團(tuán)隊(duì)解釋道,這種結(jié)構(gòu)化的規(guī)劃過程大大增強(qiáng)了最終文本的整體連貫性和組織性。通過這種方法,AI代理能夠更加專注和有條理地發(fā)展思路,就像人類作家在正式寫作前會(huì)先在腦海中或紙上整理思路一樣。
**第二階段:寫作(Write)**
受到OpenAI的o1和DeepSeek-R1等推理型語言模型的啟發(fā),SuperWriter在寫作階段采用了"先思考后寫作"的雙步驟方法。具體來說,寫作階段包含兩個(gè)主要步驟:
1. **思考步驟(Thinker Step)**:在這一初始階段,模型不會(huì)直接生成表層文本。相反,它會(huì)識(shí)別并組織與段落相關(guān)的關(guān)鍵思想、主題元素和邏輯結(jié)構(gòu)。這種顯式的推理過程為后續(xù)的文本生成提供了清晰的方向性框架。
2. **寫作步驟(Writer Step)**:基于思考步驟中形成的結(jié)構(gòu)化大綱,并將前一段落(即第n-1段)作為上下文輸入,模型開始生成當(dāng)前段落。這種利用先前上下文的方法確保了段落之間的平滑過渡,并有助于整個(gè)文檔的邏輯流暢性。
這種方法就像人類寫作時(shí)會(huì)先在腦海中構(gòu)思一段話的主要內(nèi)容和結(jié)構(gòu),然后才開始正式寫作一樣。通過分離"思考"和"寫作"這兩個(gè)認(rèn)知過程,SuperWriter能夠產(chǎn)生更有條理、邏輯更一致的段落。
**第三階段:修改(Refine)**
最后的修改階段不僅僅是進(jìn)行表面的編輯,而是系統(tǒng)地評(píng)估生成文本的整體質(zhì)量,并識(shí)別需要有針對(duì)性修改的特定段落。這個(gè)過程包含兩個(gè)關(guān)鍵步驟:
1. **檢查步驟(Checker Step)**:模型對(duì)每個(gè)段落進(jìn)行全面評(píng)估,識(shí)別邏輯不一致、表達(dá)不清晰或偏離預(yù)期敘事結(jié)構(gòu)等問題。
2. **編輯步驟(Editor Step)**:基于檢查步驟的反饋,模型進(jìn)行精確和有針對(duì)性的修改,以提高文本的準(zhǔn)確性、流暢性和結(jié)構(gòu)連貫性。
這種迭代和結(jié)構(gòu)化的修改過程確保最終輸出不僅準(zhǔn)確傳達(dá)原始意圖和敘事目標(biāo),還滿足學(xué)術(shù)寫作中期望的嚴(yán)格標(biāo)準(zhǔn)。就像人類作家會(huì)反復(fù)閱讀和修改自己的草稿一樣,SuperWriter也通過這種方式提升文本質(zhì)量。
### SuperWriter-LM:將結(jié)構(gòu)化思考融入語言模型
研究團(tuán)隊(duì)在開發(fā)了SuperWriter-Agent后,提出了一個(gè)關(guān)鍵問題:能否將這種結(jié)構(gòu)化思考的能力直接注入到語言模型中,使其能夠以更少的推理步驟生成高質(zhì)量的長(zhǎng)篇文本,而不是依賴30到40個(gè)單獨(dú)的代理調(diào)用?
為了解答這個(gè)問題,他們進(jìn)行了有針對(duì)性的模型訓(xùn)練實(shí)驗(yàn),目標(biāo)不僅是延長(zhǎng)輸出長(zhǎng)度,還要通過將SuperWriter-Agent的結(jié)構(gòu)化思考過程直接融入模型本身,從根本上改善連貫性、相關(guān)性和深度。
**訓(xùn)練數(shù)據(jù)構(gòu)建**
SuperWriter-LM的訓(xùn)練數(shù)據(jù)來源于兩個(gè)實(shí)際的指令調(diào)優(yōu)數(shù)據(jù)集:WildChat-1M和LMSYS-Chat-1M,分別包含英文和中文指令。為確保所選指令對(duì)長(zhǎng)篇寫作任務(wù)的質(zhì)量和相關(guān)性,研究團(tuán)隊(duì)使用DeepSeek-R1-Distill-Qwen-32B模型進(jìn)行了篩選。
最終,他們使用SuperWriter-Agent(由GPT-4o-2024-08-06驅(qū)動(dòng))基于4,000條經(jīng)過篩選的指令生成了SFT訓(xùn)練數(shù)據(jù)。每個(gè)數(shù)據(jù)實(shí)例都遵循結(jié)構(gòu)化流程:查詢 → 大綱 → 草稿 → 最終輸出。他們明確地將這個(gè)流程分為與SuperWriter-Agent內(nèi)部結(jié)構(gòu)一致的三個(gè)階段:規(guī)劃(query → outline)、寫作(outline → draft)和修改(draft → final output)。
這種分階段的訓(xùn)練方式有兩個(gè)主要優(yōu)勢(shì): 1. 它更好地適應(yīng)實(shí)際用戶工作流程,用戶可能希望在進(jìn)入下一階段之前查看和修改中間結(jié)果(例如大綱)。 2. 由代理生成的完整輸出可能非常長(zhǎng)——有些超過10萬個(gè)標(biāo)記——對(duì)現(xiàn)有的長(zhǎng)上下文模型構(gòu)成重大挑戰(zhàn)。通過將生成過程分解為多個(gè)階段,研究團(tuán)隊(duì)確保每個(gè)訓(xùn)練樣本都控制在32K標(biāo)記以內(nèi),使其更易于當(dāng)前模型處理。
三個(gè)階段(規(guī)劃、寫作和修改)各包含4,000個(gè)數(shù)據(jù)實(shí)例,總共形成了12,000個(gè)高質(zhì)量的訓(xùn)練數(shù)據(jù)。在推理過程中,模型按照三個(gè)連續(xù)階段進(jìn)行生成,產(chǎn)生最終輸出。
**層次化直接偏好優(yōu)化**
直接偏好優(yōu)化(DPO)已被證明在基于成對(duì)人類(或代理模型)偏好的單次生成任務(wù)中有效地調(diào)整策略。然而,在SuperWriter的情境中,寫作過程是按照三個(gè)不同階段順序展開的:規(guī)劃、起草和修改。僅對(duì)最終輸出應(yīng)用傳統(tǒng)DPO會(huì)忽略早期階段固有的寶貴偏好信號(hào)。
為了解決這個(gè)問題,研究團(tuán)隊(duì)引入了一個(gè)層次化的多階段DPO框架,結(jié)合了結(jié)構(gòu)化偏好數(shù)據(jù)構(gòu)建和系統(tǒng)評(píng)估。如論文圖4所示,寫作過程被構(gòu)造為一棵通過蒙特卡洛樹搜索探索的樹。樹中的每條路徑,標(biāo)記為(i, j, k),依次對(duì)應(yīng)第一階段(計(jì)劃i)、第二階段(草稿j)和第三階段(修改k)。
他們嵌入了兩個(gè)關(guān)鍵假設(shè): 1. 結(jié)構(gòu)良好的初始計(jì)劃會(huì)導(dǎo)致更高質(zhì)量的草稿(第一階段計(jì)劃 → 第二階段寫作) 2. 精心修改的草稿通常會(huì)產(chǎn)生更好的最終輸出(第二階段寫作 → 第三階段修改)
因此,他們將質(zhì)量信號(hào)從葉節(jié)點(diǎn)(最終輸出)向上反向傳播到中間階段,確保策略從每個(gè)層次的決策中學(xué)習(xí),而不僅僅是從最終結(jié)果中學(xué)習(xí)。
**評(píng)估過程**
為了評(píng)分每個(gè)葉節(jié)點(diǎn)上的最終輸出,研究團(tuán)隊(duì)引入了Write-judge,這是一個(gè)六維評(píng)分標(biāo)準(zhǔn)(每個(gè)維度0-10分),根據(jù)指令類型從更大的二十個(gè)維度池中選擇。為了抑制評(píng)估偏差,他們使用QwQ-32B模型在相同溫度設(shè)置下對(duì)每個(gè)輸出評(píng)分三次,并取平均值。
然后,他們從葉節(jié)點(diǎn)向上傳播分?jǐn)?shù),構(gòu)建DPO對(duì),并使用標(biāo)準(zhǔn)DPO損失優(yōu)化策略:
``` LDPO = – E(x,y+,y–)~DDPO[log σ(β [sθ(x, y+) – sθ(x, y–)])] ```
通過上述方法,他們獲得了一個(gè)DPO偏好數(shù)據(jù)集,并使用360-LLaMAfactory對(duì)已經(jīng)監(jiān)督微調(diào)的SuperWriter-LM進(jìn)行了上下文并行DPO訓(xùn)練,批量大小為32,學(xué)習(xí)率為1 × 10^-6。
實(shí)驗(yàn)結(jié)果:SuperWriter-LM表現(xiàn)如何?
SuperWriter-LM的性能評(píng)估通過兩個(gè)主要方面進(jìn)行:WritingBench基準(zhǔn)測(cè)試和與其他模型的勝率比較。
### WritingBench基準(zhǔn)測(cè)試結(jié)果
WritingBench是一個(gè)綜合基準(zhǔn)測(cè)試,旨在評(píng)估大型語言模型在六個(gè)主要寫作領(lǐng)域(學(xué)術(shù)與工程、金融與商業(yè)、政治與法律、文學(xué)與藝術(shù)、教育、以及廣告與營銷)的表現(xiàn)。
如論文表1所示,基于Qwen2.5-7B開發(fā)的SuperWriter-LM在整體表現(xiàn)上達(dá)到了8.51分(滿分10分),僅次于DeepSeek-R1(8.55分),并超過了許多規(guī)模更大的模型,包括ChatGPT-4o-latest(8.16分)、o1-Preview(8.15分)以及Claude-3.5-Sonnet(7.71分)。
在不同領(lǐng)域的表現(xiàn)上,SuperWriter-LM在學(xué)術(shù)與工程(8.6分)、金融與商業(yè)(8.7分)、政治與法律(8.7分)和教育(8.7分)這四個(gè)主要領(lǐng)域中取得了最高分,甚至略微超過了DeepSeek-R1模型。此外,SuperWriter-LM在滿足各種特殊寫作要求方面也表現(xiàn)出色,只有在長(zhǎng)度_C設(shè)置上表現(xiàn)稍差。研究團(tuán)隊(duì)解釋,這主要是因?yàn)榇砩傻臄?shù)據(jù)往往傾向于生成更長(zhǎng)的輸出,即使是對(duì)短文本任務(wù)也是如此——這個(gè)問題對(duì)長(zhǎng)篇文本生成并不構(gòu)成影響。
### 勝率比較結(jié)果
為了解決WritingBench評(píng)估方法的局限性(如評(píng)論模型的相對(duì)較小規(guī)??赡軐?dǎo)致的脆弱性),研究團(tuán)隊(duì)采用了更直接和可解釋的評(píng)估指標(biāo):勝率。他們?cè)谑占慕?00個(gè)來自實(shí)際用戶的查詢上評(píng)估了模型性能,對(duì)于每個(gè)查詢,由SuperWriter-LM和六個(gè)基準(zhǔn)模型生成響應(yīng)。
如圖5所示,SuperWriter-LM在與同規(guī)模模型(圖中的1、2和3號(hào)模型)的比較中展示了顯著的性能領(lǐng)先優(yōu)勢(shì)。此外,在與更大規(guī)模模型(圖中的4、5、6和7號(hào)模型)的比較中,SuperWriter-LM保持競(jìng)爭(zhēng)力,在某些情況下甚至略微優(yōu)于最先進(jìn)的LLMs。
為了減輕自動(dòng)評(píng)估中可能出現(xiàn)的不準(zhǔn)確性,研究團(tuán)隊(duì)還對(duì)約200個(gè)實(shí)際用戶查詢進(jìn)行了人類補(bǔ)充評(píng)估,比較SuperWriter-LM與Writing-Model-Qwen-7B。對(duì)于每個(gè)查詢,三名具有本科學(xué)位的獨(dú)立注釋者被要求評(píng)估和確定首選響應(yīng),結(jié)果被分類為勝利、失敗或平局。圖5(8)中的聚合結(jié)果顯示,SuperWriter-LM在人類判斷下表現(xiàn)更強(qiáng)。然而,由于注釋者在兩個(gè)響應(yīng)之間的差異微妙時(shí)傾向于分配平局,整體勝率看起來稍低。
### 消融研究結(jié)果
最后,研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)消融研究,包括四種不同的設(shè)置,在WritingBench基準(zhǔn)測(cè)試上進(jìn)行評(píng)估:
1. **基礎(chǔ)模型**:使用Qwen2.5-Instruct作為性能基線(平均分?jǐn)?shù)7.43) 2. **SuperWriter-final-answer**:將用戶查詢作為輸入,從SuperWriter-agent的Stage-3修改步驟產(chǎn)生最終輸出——這是一個(gè)沒有任何顯式思考過程的一次性生成,達(dá)到了8.21的平均分?jǐn)?shù) 3. **+Three-Stage**:對(duì)應(yīng)于他們的SFT訓(xùn)練模型,明確執(zhí)行規(guī)劃、起草和修改,以鏈?zhǔn)?、多階段的方式進(jìn)行,包含結(jié)構(gòu)化思考,將性能提升至8.47 4. **+Hierarchical DPO**:進(jìn)一步使用層次化DPO優(yōu)化增強(qiáng)的完整模型,達(dá)到最高分8.51
如表6所示,每個(gè)額外的組件都帶來了一致的性能改進(jìn),證明了他們提出的方法在結(jié)構(gòu)化寫作任務(wù)中的有效性。
SuperWriter的局限性
盡管SuperWriter-LM在長(zhǎng)篇文本生成方面表現(xiàn)出色,但研究團(tuán)隊(duì)也坦率地指出了幾個(gè)局限性:
**1. 推理延遲**:與LongWriter或Suri等單次生成模型相比,SuperWriter的三階段框架會(huì)導(dǎo)致額外的推理時(shí)間。雖然比多輪代理式管道(如每個(gè)輸出需要30-40次調(diào)用)效率高得多,但結(jié)構(gòu)化的規(guī)劃→寫作→修改過程仍需要三次順序前向傳遞,可能增加實(shí)際應(yīng)用中用戶感知的延遲。
**2. 模型規(guī)模**:當(dāng)前實(shí)現(xiàn)基于7B參數(shù)的Qwen2.5骨干網(wǎng)絡(luò),這在性能和成本之間取得了平衡。然而,這種中等規(guī)??赡芟拗颇P偷膬?nèi)部世界知識(shí),特別是在知識(shí)密集型或?qū)I(yè)化的寫作場(chǎng)景(如法律、醫(yī)療和科學(xué)領(lǐng)域)。在定性分析中,一些輸出顯示出淺層的事實(shí)基礎(chǔ)或微妙的推理錯(cuò)誤。
**3. 缺乏在線強(qiáng)化學(xué)習(xí)**:SuperWriter的對(duì)齊階段僅依賴離線直接偏好優(yōu)化(DPO),使用靜態(tài)偏好對(duì)訓(xùn)練。雖然有效,但這種設(shè)置缺乏在線人類反饋強(qiáng)化學(xué)習(xí)(RLHF)的適應(yīng)性,后者允許模型通過探索持續(xù)改進(jìn)輸出。關(guān)鍵瓶頸是將通用獎(jiǎng)勵(lì)模型應(yīng)用于長(zhǎng)輸出時(shí)的高回滾成本。
總結(jié):SuperWriter如何改變長(zhǎng)篇文本生成
SuperWriter通過引入結(jié)構(gòu)化的寫作過程——規(guī)劃、寫作和修改——徹底改變了長(zhǎng)篇文本生成的方式。這種方法教會(huì)模型在寫作前"深思熟慮",并產(chǎn)生高質(zhì)量的監(jiān)督信號(hào)。結(jié)合層次化DPO策略,模型學(xué)會(huì)了在所有寫作階段調(diào)整其輸出。
實(shí)驗(yàn)結(jié)果令人印象深刻:SuperWriter-LM在WritingBench上超越了所有同等規(guī)模的模型,在關(guān)鍵領(lǐng)域甚至超過了671B的DeepSeek-R1模型。在與頂級(jí)開源基準(zhǔn)模型的實(shí)際用戶比較中,它也贏得了超過98%的勝率。這些結(jié)果證實(shí)了多階段生成和結(jié)構(gòu)化偏好學(xué)習(xí)對(duì)提高寫作質(zhì)量的價(jià)值。
總的來說,SuperWriter項(xiàng)目展示了通過模擬人類認(rèn)知寫作過程,可以顯著提高人工智能生成的長(zhǎng)篇文本質(zhì)量。通過結(jié)構(gòu)化思考和分階段生成,這種方法不僅延長(zhǎng)了輸出文本的長(zhǎng)度,更重要的是提升了內(nèi)容的連貫性、邏輯一致性和整體質(zhì)量,使AI生成的長(zhǎng)篇文本更接近人類專業(yè)作家的水平。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。