這項由馬里蘭大學(xué)的李宗霞、常雅培、周宇航、吳西陽、梁志超、成有妍、Jordan Lee Boyd-Graber等研究者領(lǐng)導(dǎo)的研究發(fā)表于2025年,有興趣深入了解的讀者可以通過https://github.com/zli12321/long_form_rl訪問完整代碼和論文。
當(dāng)我們讓AI寫一篇文章或回答一個問題時,最頭疼的問題是什么?不是讓它寫得更長,而是讓它寫得更好。就像教一個學(xué)生寫作文一樣,我們很容易告訴他"再寫500個字",但很難告訴他"寫得更有深度、更有邏輯、更吸引人"。這個看似簡單的問題,實際上是人工智能領(lǐng)域一個非常棘手的挑戰(zhàn)。
馬里蘭大學(xué)的研究團(tuán)隊發(fā)現(xiàn)了這個問題的核心所在。目前的AI訓(xùn)練就像是在用一把尺子來評判文章質(zhì)量——傳統(tǒng)的評價方法只會機械地比較詞匯重復(fù)率或者句子相似度,完全無法理解文章的真正價值。這就好比讓一個從未讀過書的人去評判兩篇文章的優(yōu)劣,他只能數(shù)數(shù)哪篇字?jǐn)?shù)更多,哪篇用了更復(fù)雜的詞匯,但完全看不出哪篇更有說服力、更清晰易懂或者更有創(chuàng)意。
研究團(tuán)隊發(fā)現(xiàn),當(dāng)前最先進(jìn)的AI訓(xùn)練方法GRPO(群體相對策略優(yōu)化)在處理數(shù)學(xué)題這樣有標(biāo)準(zhǔn)答案的任務(wù)時表現(xiàn)出色,但在處理開放性寫作任務(wù)時卻顯得力不從心。這就像是一個優(yōu)秀的數(shù)學(xué)老師試圖去教語文寫作——他知道數(shù)學(xué)題的對錯,但面對一篇散文時卻不知道該如何評價其好壞。
為了解決這個問題,研究團(tuán)隊開發(fā)了一個名為PrefBERT的智能評價系統(tǒng)。這個系統(tǒng)就像是培養(yǎng)了一位有經(jīng)驗的語文老師,專門負(fù)責(zé)評判文章質(zhì)量。與傳統(tǒng)方法不同的是,PrefBERT接受了大量人類評分員標(biāo)注的文章質(zhì)量數(shù)據(jù)訓(xùn)練,學(xué)會了從人類的角度來理解什么是好文章。
PrefBERT的工作原理相當(dāng)巧妙。研究團(tuán)隊使用了兩個包含豐富評分?jǐn)?shù)據(jù)的數(shù)據(jù)集來訓(xùn)練這個系統(tǒng)。第一個是Prometheus-preference數(shù)據(jù)集,包含20萬個經(jīng)過精細(xì)評分的長篇回答,評分維度包括適應(yīng)性交流、情感智能等十個方面。第二個是MOCHA數(shù)據(jù)集,專門用于評判中長篇文章的整體正確性。這兩個數(shù)據(jù)集就像是給PrefBERT提供了大量的"標(biāo)準(zhǔn)答案",讓它學(xué)會了人類專家的評判標(biāo)準(zhǔn)。
在具體實現(xiàn)上,PrefBERT基于ModernBERT模型構(gòu)建,這是一個相對輕量級的模型,只有1.5億個參數(shù)。這個設(shè)計選擇非常聰明——它既保證了評價的準(zhǔn)確性,又確保了訓(xùn)練和使用時的效率。系統(tǒng)的工作流程是這樣的:給定一個參考答案和一個待評價答案,PrefBERT會將它們拼接在一起,通過深度學(xué)習(xí)網(wǎng)絡(luò)處理后,輸出一個0到1之間的質(zhì)量分?jǐn)?shù)。
研究團(tuán)隊在三個不同類型的數(shù)據(jù)集上測試了PrefBERT的效果。第一個是ELI5數(shù)據(jù)集,來源于Reddit上的"像給五歲孩子解釋一樣"社區(qū),包含各種需要用通俗語言解釋復(fù)雜概念的問答。第二個是Alpaca數(shù)據(jù)集,包含5.2萬個由GPT-3生成的指令-回答對,涵蓋了各種不同類型的任務(wù)。第三個是LongForm數(shù)據(jù)集,包含從維基百科、Common Crawl等來源構(gòu)建的長篇文檔,配有由AI生成的反向指令。
實驗結(jié)果令人印象深刻。當(dāng)研究團(tuán)隊使用PrefBERT作為獎勵信號來訓(xùn)練AI模型時,即使是相對較小的模型(如Qwen2.5-3B)也能產(chǎn)生接近大型模型(如Qwen2.5-7B)質(zhì)量的回答。這就像是一個經(jīng)驗豐富的教練能夠讓普通運動員發(fā)揮出接近專業(yè)選手的水平。
更有趣的是,研究團(tuán)隊發(fā)現(xiàn)傳統(tǒng)的評價指標(biāo)存在嚴(yán)重缺陷。比如ROUGE和BERTScore這樣的傳統(tǒng)指標(biāo),在面對明顯質(zhì)量差異很大的兩篇文章時,居然給出了幾乎相同的分?jǐn)?shù)。這就像是一個色盲的人試圖區(qū)分紅綠燈——完全無法識別出關(guān)鍵差異。
而一些通用的大型獎勵模型雖然能夠提供更好的評價,但它們往往傾向于偏愛更長的回答,而不是更好的回答。這創(chuàng)造了一種"獎勵欺騙"現(xiàn)象——AI學(xué)會了通過寫得更冗長而不是更有價值來獲得高分。這就像是一個學(xué)生發(fā)現(xiàn)老師只看作文的字?jǐn)?shù),于是開始大量使用廢話來湊字?jǐn)?shù)。
為了驗證PrefBERT的真實效果,研究團(tuán)隊進(jìn)行了大規(guī)模的人工評價實驗。他們隨機選擇了150個測試問題,收集了七個不同模型的回答,然后讓人類專家進(jìn)行盲評。結(jié)果顯示,使用PrefBERT訓(xùn)練的模型在人類評價中表現(xiàn)優(yōu)異,平均評分達(dá)到3.36分(滿分5分),成功率達(dá)到51%。
特別值得注意的是,人類評價結(jié)果揭示了一個重要問題:那些在自動評價中得分很高的冗長回答,在人類專家眼中實際上質(zhì)量較低。使用通用大型獎勵模型訓(xùn)練的AI平均生成710個詞的回答,幾乎是PrefBERT訓(xùn)練模型(258詞)的三倍,但人類專家認(rèn)為這些冗長的回答缺乏重點且難以閱讀。
研究團(tuán)隊還深入分析了不同訓(xùn)練方法產(chǎn)生的差異。使用PrefBERT訓(xùn)練的模型展現(xiàn)出了兩個主要優(yōu)勢:更好的指令遵循能力和更自然的語調(diào)流暢度。當(dāng)面對有具體約束的指令(如"用兩句話解釋")時,基礎(chǔ)模型經(jīng)常無法遵守這些限制,而PrefBERT訓(xùn)練的模型能夠準(zhǔn)確遵循。同時,PrefBERT訓(xùn)練的模型還能產(chǎn)生更加流暢、連貫的回答,避免了基礎(chǔ)模型那種機械拼湊的感覺。
有趣的是,研究發(fā)現(xiàn)PrefBERT訓(xùn)練的模型更傾向于使用結(jié)構(gòu)化的輸出格式,如Markdown標(biāo)記。這種結(jié)構(gòu)化不僅提高了可讀性,也顯示了模型對內(nèi)容組織的更深理解。相比之下,使用傳統(tǒng)指標(biāo)訓(xùn)練的模型往往產(chǎn)生通用化的回答,有時還會出現(xiàn)嚴(yán)重的重復(fù)問題。
與傳統(tǒng)的監(jiān)督微調(diào)方法相比,GRPO結(jié)合PrefBERT的訓(xùn)練方式顯示出明顯優(yōu)勢。監(jiān)督微調(diào)的模型往往產(chǎn)生模糊、過于簡化的回答,有時甚至?xí)乇軉栴}。而使用強大獎勵信號訓(xùn)練的GRPO模型能夠更好地利用模型的內(nèi)在能力,產(chǎn)生更高質(zhì)量的回答。
這項研究的意義遠(yuǎn)不止于技術(shù)層面的突破。它為AI系統(tǒng)如何學(xué)習(xí)人類偏好提供了新的思路,特別是在那些沒有標(biāo)準(zhǔn)答案的開放性任務(wù)中。這種方法可能會被應(yīng)用到創(chuàng)意寫作、研究設(shè)計、開放性數(shù)學(xué)問題等多個領(lǐng)域。
當(dāng)然,這項研究也有其局限性。研究團(tuán)隊坦承,他們沒有嘗試使用更大規(guī)模的語言模型作為獎勵提供者,主要是由于計算資源的限制。更大的評價模型可能提供更可靠、語義上更準(zhǔn)確的獎勵信號,但也會顯著增加GPU內(nèi)存使用和訓(xùn)練時間。
此外,研究團(tuán)隊使用的訓(xùn)練數(shù)據(jù)相對較小——PrefBERT只使用了1.9萬個樣本進(jìn)行訓(xùn)練,而對比的通用獎勵模型使用了8萬個樣本。這種規(guī)模差異可能影響了不同方法的公平比較。
展望未來,這項研究為AI訓(xùn)練開辟了新的方向。研究團(tuán)隊建議,未來的工作可以擴(kuò)展到更多樣化的開放性生成任務(wù),如創(chuàng)意寫作、創(chuàng)意研究設(shè)計或開放性數(shù)學(xué)問題。同時,開發(fā)更高效、更強大的可驗證獎勵模型也是一個重要方向。
說到底,這項研究解決的是一個根本性問題:如何讓AI不僅能夠生成內(nèi)容,更能生成高質(zhì)量的內(nèi)容。這就像是從教會一個人說話,進(jìn)步到教會他說有價值的話。在AI越來越深入我們生活的今天,這種質(zhì)量導(dǎo)向的訓(xùn)練方法可能會根本性地改變我們與AI交互的體驗,讓AI助手變得真正智能、真正有用。
Q&A
Q1:PrefBERT是什么?它能做什么? A:PrefBERT是馬里蘭大學(xué)團(tuán)隊開發(fā)的AI文章質(zhì)量評價系統(tǒng),專門用來判斷AI生成文章的好壞。它通過學(xué)習(xí)人類專家的評分標(biāo)準(zhǔn),能夠像有經(jīng)驗的語文老師一樣評判文章質(zhì)量,而不是簡單地比較字?jǐn)?shù)或詞匯相似度。
Q2:為什么傳統(tǒng)的AI評價方法不好用? A:傳統(tǒng)方法就像讓一個從未讀過書的人評判文章優(yōu)劣,只能機械地比較詞匯重復(fù)率或句子相似度,完全無法理解文章的真正價值。面對質(zhì)量差異很大的兩篇文章,傳統(tǒng)方法居然會給出幾乎相同的分?jǐn)?shù),根本起不到指導(dǎo)作用。
Q3:使用PrefBERT訓(xùn)練的AI有什么特別之處? A:使用PrefBERT訓(xùn)練的AI模型能寫出更高質(zhì)量的文章,表現(xiàn)在兩個方面:一是更好地遵循具體指令要求,二是語言更自然流暢。即使是較小的模型也能達(dá)到接近大型模型的質(zhì)量水平,而且避免了冗長廢話的問題。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊承諾開源全部代碼,推動技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗證有效性。
清華大學(xué)研究團(tuán)隊首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊通過創(chuàng)新的多智能體強化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。