這項(xiàng)由復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)學(xué)院劉曉然、劉志庚等研究人員與上海創(chuàng)新研究院、上海AI實(shí)驗(yàn)室合作完成的研究發(fā)表于2025年6月,論文編號(hào)為arXiv:2506.14429v1。感興趣的讀者可以通過該論文編號(hào)在arXiv平臺(tái)上訪問完整研究內(nèi)容。
近年來,人工智能界出現(xiàn)了一種全新的語言模型架構(gòu)——擴(kuò)散大語言模型,它就像是傳統(tǒng)自回歸模型的"孿生兄弟",但工作原理卻截然不同。傳統(tǒng)的GPT類模型就像一個(gè)只能從左到右逐字寫作的作家,而擴(kuò)散模型更像一個(gè)可以同時(shí)考慮整個(gè)句子、反復(fù)修改潤色的編輯。然而,這種新型模型在處理超長文本時(shí)的能力一直是個(gè)未解之謎。
當(dāng)我們給傳統(tǒng)語言模型輸入超過其訓(xùn)練長度的文本時(shí),就像讓一個(gè)只習(xí)慣寫短篇小說的作家突然去創(chuàng)作長篇巨著,結(jié)果往往是"力不從心"——要么完全崩潰,要么胡言亂語。但研究團(tuán)隊(duì)在測試擴(kuò)散模型時(shí)卻發(fā)現(xiàn)了一個(gè)令人驚訝的現(xiàn)象:這些模型不僅沒有崩潰,反而展現(xiàn)出了一種獨(dú)特的"局部透視"能力。
具體來說,當(dāng)研究人員將一條關(guān)鍵信息(比如"小明的生日是3月15日")藏在一篇超長文檔的某個(gè)位置,然后讓模型去尋找時(shí),傳統(tǒng)模型在文檔超過其能力范圍后就徹底"失明"了。但擴(kuò)散模型卻能在最近的一段文字窗口內(nèi)準(zhǔn)確找到信息,就像擁有一個(gè)會(huì)移動(dòng)的"聚光燈",雖然看不到全局,但能清晰照亮局部區(qū)域。
更神奇的是,擴(kuò)散模型在處理超長文本時(shí),其困惑度(衡量模型理解文本難度的指標(biāo))保持得異常穩(wěn)定,而傳統(tǒng)模型的困惑度會(huì)急劇飆升。這就好比讓兩個(gè)人閱讀一本越來越厚的書,傳統(tǒng)模型讀到后面會(huì)越來越糊涂,而擴(kuò)散模型卻能始終保持清醒的頭腦。
基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)深入挖掘了這種現(xiàn)象背后的數(shù)學(xué)原理,發(fā)現(xiàn)這與模型中的位置編碼機(jī)制密切相關(guān)。位置編碼就像是給文本中每個(gè)詞語標(biāo)注的"門牌號(hào)",告訴模型哪個(gè)詞在前,哪個(gè)詞在后。傳統(tǒng)模型在訓(xùn)練時(shí)只能看到從0號(hào)開始的連續(xù)門牌號(hào),而擴(kuò)散模型由于其雙向注意力機(jī)制,能同時(shí)看到正負(fù)兩個(gè)方向的門牌號(hào),這讓它對(duì)位置信息有了更全面的理解。
研究團(tuán)隊(duì)將這種現(xiàn)象比作學(xué)習(xí)地圖。傳統(tǒng)模型就像只學(xué)過從市中心出發(fā)路線的司機(jī),一旦超出熟悉范圍就會(huì)迷路。而擴(kuò)散模型更像學(xué)過整個(gè)城市布局的司機(jī),即使到了陌生區(qū)域,也能憑借對(duì)路網(wǎng)結(jié)構(gòu)的整體把握找到方向。
在理解了這一機(jī)制后,研究團(tuán)隊(duì)開發(fā)了一套名為"LongLLaDA"的技術(shù)方案。這套方案就像給模型戴上了一副"變焦鏡頭",通過調(diào)整位置編碼的縮放比例,讓原本只能處理4000字的模型成功擴(kuò)展到24000字,實(shí)現(xiàn)了6倍的能力提升,而且無需任何額外訓(xùn)練。
這種技術(shù)的工作原理可以用調(diào)音師調(diào)琴來類比。每個(gè)位置就像琴弦的不同頻率,原本模型只熟悉某個(gè)頻率范圍內(nèi)的"音符"。通過巧妙調(diào)整這些頻率的比例關(guān)系,研究團(tuán)隊(duì)讓模型能夠"聽懂"更廣范圍內(nèi)的"音樂",從而處理更長的文本。
在具體的應(yīng)用測試中,研究團(tuán)隊(duì)設(shè)計(jì)了多種任務(wù)來驗(yàn)證擴(kuò)散模型的長文本能力。在"大海撈針"任務(wù)中,就是在一篇很長的文章里藏一個(gè)特定信息,然后看模型能否找到。結(jié)果顯示,傳統(tǒng)模型在超出能力范圍后完全失效,準(zhǔn)確率降為零。而擴(kuò)散模型雖然不能在整篇文檔中搜索,但能在最近的文本段落中保持近乎完美的搜索能力。
更有趣的是,研究團(tuán)隊(duì)還發(fā)現(xiàn)擴(kuò)散模型的這種能力會(huì)受到其"思考步數(shù)"的影響。就像人在仔細(xì)思考時(shí)需要更多時(shí)間一樣,當(dāng)給擴(kuò)散模型更多的推理步驟時(shí),它的長文本處理能力也會(huì)相應(yīng)提升。從1步到16步的遞增過程中,模型的表現(xiàn)持續(xù)改善。
在更復(fù)雜的綜合測試中,研究團(tuán)隊(duì)比較了擴(kuò)散模型和傳統(tǒng)模型在不同類型長文本任務(wù)上的表現(xiàn)。結(jié)果呈現(xiàn)出有趣的分化現(xiàn)象:在信息檢索類任務(wù)上,兩種模型表現(xiàn)相當(dāng);在需要匯總整合信息的任務(wù)上,傳統(tǒng)模型略勝一籌;但在問答類任務(wù)上,擴(kuò)散模型展現(xiàn)出了明顯優(yōu)勢。
這種能力差異就像不同類型的閱讀理解專家。傳統(tǒng)模型更像擅長寫摘要和總結(jié)的編輯,能夠統(tǒng)觀全局抓住要點(diǎn)。而擴(kuò)散模型更像善于深度解析和回答問題的分析師,能夠在局部范圍內(nèi)進(jìn)行精準(zhǔn)的信息提取和推理。
研究團(tuán)隊(duì)通過可視化技術(shù)進(jìn)一步驗(yàn)證了他們的理論。他們將模型內(nèi)部的注意力狀態(tài)投射到二維平面上,就像給模型的"大腦活動(dòng)"拍X光片。結(jié)果清晰顯示,傳統(tǒng)模型在處理超長文本時(shí)出現(xiàn)了明顯的"認(rèn)知斷層"——正常長度和超長文本的處理模式完全不同。而擴(kuò)散模型的"大腦活動(dòng)"則保持了高度一致性,沒有出現(xiàn)這種斷層現(xiàn)象。
這一發(fā)現(xiàn)不僅在理論上具有重要意義,在實(shí)際應(yīng)用中也開辟了新的可能性。比如在處理法律文檔、學(xué)術(shù)論文、技術(shù)手冊等超長文本時(shí),擴(kuò)散模型的這種"局部精準(zhǔn)"能力可能比傳統(tǒng)模型的"全局模糊"更加實(shí)用。雖然它看不到全貌,但在需要精確回答具體問題時(shí),這種能力反而更有價(jià)值。
研究過程中,團(tuán)隊(duì)還意外發(fā)現(xiàn)了擴(kuò)散模型長文本能力的一些有趣限制。當(dāng)文本長度超過一定閾值后,模型會(huì)出現(xiàn)類似傳統(tǒng)模型的"中間遺忘"現(xiàn)象——對(duì)文檔開頭和結(jié)尾的信息記憶清晰,但對(duì)中間部分相對(duì)模糊。這就像讀一本厚書時(shí),我們往往對(duì)開頭結(jié)尾印象深刻,中間章節(jié)卻容易忘記。
更重要的是,這項(xiàng)研究首次系統(tǒng)性地證明了擴(kuò)散模型在長文本處理方面的獨(dú)特優(yōu)勢和局限性。以往人們主要關(guān)注這類模型在生成質(zhì)量、推理能力等方面的表現(xiàn),對(duì)其長文本處理能力缺乏深入了解。這次研究填補(bǔ)了這一空白,為未來的模型設(shè)計(jì)和應(yīng)用提供了重要參考。
從技術(shù)發(fā)展角度看,這項(xiàng)研究揭示了一個(gè)重要趨勢:不同架構(gòu)的語言模型可能各有所長,未來的AI系統(tǒng)可能需要根據(jù)具體任務(wù)選擇最適合的模型類型。就像工具箱里需要配備不同功能的工具一樣,AI領(lǐng)域也需要多樣化的模型來應(yīng)對(duì)不同場景的需求。
研究團(tuán)隊(duì)的實(shí)驗(yàn)還表明,傳統(tǒng)的模型評(píng)估方法可能需要更新。以往主要關(guān)注模型在標(biāo)準(zhǔn)長度文本上的表現(xiàn),但隨著實(shí)際應(yīng)用中長文本需求的增加,如何評(píng)估和優(yōu)化模型的長文本能力變得越來越重要。這項(xiàng)研究提供的測試方法和評(píng)估框架,為整個(gè)領(lǐng)域建立了新的標(biāo)準(zhǔn)。
特別值得注意的是,這種無需訓(xùn)練的擴(kuò)展方法大大降低了技術(shù)應(yīng)用的門檻。傳統(tǒng)的長文本能力提升往往需要重新訓(xùn)練模型,成本高昂且耗時(shí)漫長。而LongLLaDA技術(shù)就像給現(xiàn)有模型安裝了一個(gè)"即插即用"的擴(kuò)展器,既經(jīng)濟(jì)又高效。
說到底,這項(xiàng)研究就像是給AI領(lǐng)域帶來了一個(gè)全新的視角。它告訴我們,擴(kuò)散模型這個(gè)相對(duì)較新的技術(shù)路線,在長文本處理方面有著獨(dú)特的天賦。雖然它不能像傳統(tǒng)模型那樣"一覽眾山小",但它的"局部透視"能力在很多實(shí)際應(yīng)用中可能更加實(shí)用。
這個(gè)發(fā)現(xiàn)對(duì)普通人意味著什么呢?隨著這類技術(shù)的成熟和普及,我們可能很快就能看到更強(qiáng)大的AI助手,它們能夠更好地處理長篇文檔、幫助我們從海量信息中精準(zhǔn)提取所需內(nèi)容。無論是學(xué)生寫論文需要查閱大量文獻(xiàn),還是律師處理復(fù)雜法律條文,亦或是醫(yī)生分析詳細(xì)病歷,這種技術(shù)都可能帶來顯著的效率提升。
更令人期待的是,這項(xiàng)研究開啟了擴(kuò)散模型長文本能力研究的大門。隨著更多研究者的加入和技術(shù)的不斷完善,我們有理由相信,未來的AI系統(tǒng)將能夠更好地理解和處理人類的長篇表達(dá),讓人機(jī)交互變得更加自然和高效。
當(dāng)然,這項(xiàng)研究也提醒我們,AI技術(shù)的發(fā)展往往充滿意外和驚喜。正如研究團(tuán)隊(duì)最初也沒有預(yù)料到擴(kuò)散模型會(huì)有如此獨(dú)特的長文本處理特性一樣,科學(xué)探索的魅力就在于不斷發(fā)現(xiàn)新的可能性。對(duì)于那些想要深入了解技術(shù)細(xì)節(jié)的讀者,完整的研究論文已在arXiv平臺(tái)發(fā)布,編號(hào)為2506.14429v1,其中包含了詳細(xì)的實(shí)驗(yàn)數(shù)據(jù)和技術(shù)實(shí)現(xiàn)方案。
Q&A
Q1:擴(kuò)散大語言模型的"局部透視"能力是什么意思? A:這是指擴(kuò)散模型在處理超長文本時(shí),雖然不能像傳統(tǒng)模型那樣統(tǒng)觀全局,但能在最近的一段文字窗口內(nèi)精準(zhǔn)找到和處理信息,就像擁有一個(gè)會(huì)移動(dòng)的聚光燈,能清晰照亮局部區(qū)域。這種能力讓它在超出訓(xùn)練長度的文本中仍能保持相對(duì)穩(wěn)定的性能。
Q2:LongLLaDA技術(shù)會(huì)不會(huì)需要重新訓(xùn)練模型? A:不需要。LongLLaDA是一種"即插即用"的技術(shù),通過調(diào)整位置編碼的縮放比例來擴(kuò)展模型能力,無需任何額外訓(xùn)練。研究顯示這種方法能讓原本只處理4000字的模型擴(kuò)展到24000字,實(shí)現(xiàn)6倍提升,既經(jīng)濟(jì)又高效。
Q3:擴(kuò)散模型在長文本任務(wù)上有什么優(yōu)勢和局限? A:優(yōu)勢是在信息檢索和問答任務(wù)上表現(xiàn)優(yōu)秀,且處理超長文本時(shí)保持穩(wěn)定的困惑度。局限是在需要匯總整合全文信息的任務(wù)上不如傳統(tǒng)模型,且當(dāng)文本過長時(shí)會(huì)出現(xiàn)"中間遺忘"現(xiàn)象,對(duì)文檔中間部分的記憶相對(duì)模糊。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。