這項(xiàng)由復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)學(xué)院劉曉然、劉志庚等研究人員與上海創(chuàng)新研究院、上海AI實(shí)驗(yàn)室合作完成的研究發(fā)表于2025年6月,論文編號(hào)為arXiv:2506.14429v1。感興趣的讀者可以通過(guò)該論文編號(hào)在arXiv平臺(tái)上訪問(wèn)完整研究?jī)?nèi)容。
近年來(lái),人工智能界出現(xiàn)了一種全新的語(yǔ)言模型架構(gòu)——擴(kuò)散大語(yǔ)言模型,它就像是傳統(tǒng)自回歸模型的"孿生兄弟",但工作原理卻截然不同。傳統(tǒng)的GPT類(lèi)模型就像一個(gè)只能從左到右逐字寫(xiě)作的作家,而擴(kuò)散模型更像一個(gè)可以同時(shí)考慮整個(gè)句子、反復(fù)修改潤(rùn)色的編輯。然而,這種新型模型在處理超長(zhǎng)文本時(shí)的能力一直是個(gè)未解之謎。
當(dāng)我們給傳統(tǒng)語(yǔ)言模型輸入超過(guò)其訓(xùn)練長(zhǎng)度的文本時(shí),就像讓一個(gè)只習(xí)慣寫(xiě)短篇小說(shuō)的作家突然去創(chuàng)作長(zhǎng)篇巨著,結(jié)果往往是"力不從心"——要么完全崩潰,要么胡言亂語(yǔ)。但研究團(tuán)隊(duì)在測(cè)試擴(kuò)散模型時(shí)卻發(fā)現(xiàn)了一個(gè)令人驚訝的現(xiàn)象:這些模型不僅沒(méi)有崩潰,反而展現(xiàn)出了一種獨(dú)特的"局部透視"能力。
具體來(lái)說(shuō),當(dāng)研究人員將一條關(guān)鍵信息(比如"小明的生日是3月15日")藏在一篇超長(zhǎng)文檔的某個(gè)位置,然后讓模型去尋找時(shí),傳統(tǒng)模型在文檔超過(guò)其能力范圍后就徹底"失明"了。但擴(kuò)散模型卻能在最近的一段文字窗口內(nèi)準(zhǔn)確找到信息,就像擁有一個(gè)會(huì)移動(dòng)的"聚光燈",雖然看不到全局,但能清晰照亮局部區(qū)域。
更神奇的是,擴(kuò)散模型在處理超長(zhǎng)文本時(shí),其困惑度(衡量模型理解文本難度的指標(biāo))保持得異常穩(wěn)定,而傳統(tǒng)模型的困惑度會(huì)急劇飆升。這就好比讓兩個(gè)人閱讀一本越來(lái)越厚的書(shū),傳統(tǒng)模型讀到后面會(huì)越來(lái)越糊涂,而擴(kuò)散模型卻能始終保持清醒的頭腦。
基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)深入挖掘了這種現(xiàn)象背后的數(shù)學(xué)原理,發(fā)現(xiàn)這與模型中的位置編碼機(jī)制密切相關(guān)。位置編碼就像是給文本中每個(gè)詞語(yǔ)標(biāo)注的"門(mén)牌號(hào)",告訴模型哪個(gè)詞在前,哪個(gè)詞在后。傳統(tǒng)模型在訓(xùn)練時(shí)只能看到從0號(hào)開(kāi)始的連續(xù)門(mén)牌號(hào),而擴(kuò)散模型由于其雙向注意力機(jī)制,能同時(shí)看到正負(fù)兩個(gè)方向的門(mén)牌號(hào),這讓它對(duì)位置信息有了更全面的理解。
研究團(tuán)隊(duì)將這種現(xiàn)象比作學(xué)習(xí)地圖。傳統(tǒng)模型就像只學(xué)過(guò)從市中心出發(fā)路線的司機(jī),一旦超出熟悉范圍就會(huì)迷路。而擴(kuò)散模型更像學(xué)過(guò)整個(gè)城市布局的司機(jī),即使到了陌生區(qū)域,也能憑借對(duì)路網(wǎng)結(jié)構(gòu)的整體把握找到方向。
在理解了這一機(jī)制后,研究團(tuán)隊(duì)開(kāi)發(fā)了一套名為"LongLLaDA"的技術(shù)方案。這套方案就像給模型戴上了一副"變焦鏡頭",通過(guò)調(diào)整位置編碼的縮放比例,讓原本只能處理4000字的模型成功擴(kuò)展到24000字,實(shí)現(xiàn)了6倍的能力提升,而且無(wú)需任何額外訓(xùn)練。
這種技術(shù)的工作原理可以用調(diào)音師調(diào)琴來(lái)類(lèi)比。每個(gè)位置就像琴弦的不同頻率,原本模型只熟悉某個(gè)頻率范圍內(nèi)的"音符"。通過(guò)巧妙調(diào)整這些頻率的比例關(guān)系,研究團(tuán)隊(duì)讓模型能夠"聽(tīng)懂"更廣范圍內(nèi)的"音樂(lè)",從而處理更長(zhǎng)的文本。
在具體的應(yīng)用測(cè)試中,研究團(tuán)隊(duì)設(shè)計(jì)了多種任務(wù)來(lái)驗(yàn)證擴(kuò)散模型的長(zhǎng)文本能力。在"大海撈針"任務(wù)中,就是在一篇很長(zhǎng)的文章里藏一個(gè)特定信息,然后看模型能否找到。結(jié)果顯示,傳統(tǒng)模型在超出能力范圍后完全失效,準(zhǔn)確率降為零。而擴(kuò)散模型雖然不能在整篇文檔中搜索,但能在最近的文本段落中保持近乎完美的搜索能力。
更有趣的是,研究團(tuán)隊(duì)還發(fā)現(xiàn)擴(kuò)散模型的這種能力會(huì)受到其"思考步數(shù)"的影響。就像人在仔細(xì)思考時(shí)需要更多時(shí)間一樣,當(dāng)給擴(kuò)散模型更多的推理步驟時(shí),它的長(zhǎng)文本處理能力也會(huì)相應(yīng)提升。從1步到16步的遞增過(guò)程中,模型的表現(xiàn)持續(xù)改善。
在更復(fù)雜的綜合測(cè)試中,研究團(tuán)隊(duì)比較了擴(kuò)散模型和傳統(tǒng)模型在不同類(lèi)型長(zhǎng)文本任務(wù)上的表現(xiàn)。結(jié)果呈現(xiàn)出有趣的分化現(xiàn)象:在信息檢索類(lèi)任務(wù)上,兩種模型表現(xiàn)相當(dāng);在需要匯總整合信息的任務(wù)上,傳統(tǒng)模型略勝一籌;但在問(wèn)答類(lèi)任務(wù)上,擴(kuò)散模型展現(xiàn)出了明顯優(yōu)勢(shì)。
這種能力差異就像不同類(lèi)型的閱讀理解專(zhuān)家。傳統(tǒng)模型更像擅長(zhǎng)寫(xiě)摘要和總結(jié)的編輯,能夠統(tǒng)觀全局抓住要點(diǎn)。而擴(kuò)散模型更像善于深度解析和回答問(wèn)題的分析師,能夠在局部范圍內(nèi)進(jìn)行精準(zhǔn)的信息提取和推理。
研究團(tuán)隊(duì)通過(guò)可視化技術(shù)進(jìn)一步驗(yàn)證了他們的理論。他們將模型內(nèi)部的注意力狀態(tài)投射到二維平面上,就像給模型的"大腦活動(dòng)"拍X光片。結(jié)果清晰顯示,傳統(tǒng)模型在處理超長(zhǎng)文本時(shí)出現(xiàn)了明顯的"認(rèn)知斷層"——正常長(zhǎng)度和超長(zhǎng)文本的處理模式完全不同。而擴(kuò)散模型的"大腦活動(dòng)"則保持了高度一致性,沒(méi)有出現(xiàn)這種斷層現(xiàn)象。
這一發(fā)現(xiàn)不僅在理論上具有重要意義,在實(shí)際應(yīng)用中也開(kāi)辟了新的可能性。比如在處理法律文檔、學(xué)術(shù)論文、技術(shù)手冊(cè)等超長(zhǎng)文本時(shí),擴(kuò)散模型的這種"局部精準(zhǔn)"能力可能比傳統(tǒng)模型的"全局模糊"更加實(shí)用。雖然它看不到全貌,但在需要精確回答具體問(wèn)題時(shí),這種能力反而更有價(jià)值。
研究過(guò)程中,團(tuán)隊(duì)還意外發(fā)現(xiàn)了擴(kuò)散模型長(zhǎng)文本能力的一些有趣限制。當(dāng)文本長(zhǎng)度超過(guò)一定閾值后,模型會(huì)出現(xiàn)類(lèi)似傳統(tǒng)模型的"中間遺忘"現(xiàn)象——對(duì)文檔開(kāi)頭和結(jié)尾的信息記憶清晰,但對(duì)中間部分相對(duì)模糊。這就像讀一本厚書(shū)時(shí),我們往往對(duì)開(kāi)頭結(jié)尾印象深刻,中間章節(jié)卻容易忘記。
更重要的是,這項(xiàng)研究首次系統(tǒng)性地證明了擴(kuò)散模型在長(zhǎng)文本處理方面的獨(dú)特優(yōu)勢(shì)和局限性。以往人們主要關(guān)注這類(lèi)模型在生成質(zhì)量、推理能力等方面的表現(xiàn),對(duì)其長(zhǎng)文本處理能力缺乏深入了解。這次研究填補(bǔ)了這一空白,為未來(lái)的模型設(shè)計(jì)和應(yīng)用提供了重要參考。
從技術(shù)發(fā)展角度看,這項(xiàng)研究揭示了一個(gè)重要趨勢(shì):不同架構(gòu)的語(yǔ)言模型可能各有所長(zhǎng),未來(lái)的AI系統(tǒng)可能需要根據(jù)具體任務(wù)選擇最適合的模型類(lèi)型。就像工具箱里需要配備不同功能的工具一樣,AI領(lǐng)域也需要多樣化的模型來(lái)應(yīng)對(duì)不同場(chǎng)景的需求。
研究團(tuán)隊(duì)的實(shí)驗(yàn)還表明,傳統(tǒng)的模型評(píng)估方法可能需要更新。以往主要關(guān)注模型在標(biāo)準(zhǔn)長(zhǎng)度文本上的表現(xiàn),但隨著實(shí)際應(yīng)用中長(zhǎng)文本需求的增加,如何評(píng)估和優(yōu)化模型的長(zhǎng)文本能力變得越來(lái)越重要。這項(xiàng)研究提供的測(cè)試方法和評(píng)估框架,為整個(gè)領(lǐng)域建立了新的標(biāo)準(zhǔn)。
特別值得注意的是,這種無(wú)需訓(xùn)練的擴(kuò)展方法大大降低了技術(shù)應(yīng)用的門(mén)檻。傳統(tǒng)的長(zhǎng)文本能力提升往往需要重新訓(xùn)練模型,成本高昂且耗時(shí)漫長(zhǎng)。而LongLLaDA技術(shù)就像給現(xiàn)有模型安裝了一個(gè)"即插即用"的擴(kuò)展器,既經(jīng)濟(jì)又高效。
說(shuō)到底,這項(xiàng)研究就像是給AI領(lǐng)域帶來(lái)了一個(gè)全新的視角。它告訴我們,擴(kuò)散模型這個(gè)相對(duì)較新的技術(shù)路線,在長(zhǎng)文本處理方面有著獨(dú)特的天賦。雖然它不能像傳統(tǒng)模型那樣"一覽眾山小",但它的"局部透視"能力在很多實(shí)際應(yīng)用中可能更加實(shí)用。
這個(gè)發(fā)現(xiàn)對(duì)普通人意味著什么呢?隨著這類(lèi)技術(shù)的成熟和普及,我們可能很快就能看到更強(qiáng)大的AI助手,它們能夠更好地處理長(zhǎng)篇文檔、幫助我們從海量信息中精準(zhǔn)提取所需內(nèi)容。無(wú)論是學(xué)生寫(xiě)論文需要查閱大量文獻(xiàn),還是律師處理復(fù)雜法律條文,亦或是醫(yī)生分析詳細(xì)病歷,這種技術(shù)都可能帶來(lái)顯著的效率提升。
更令人期待的是,這項(xiàng)研究開(kāi)啟了擴(kuò)散模型長(zhǎng)文本能力研究的大門(mén)。隨著更多研究者的加入和技術(shù)的不斷完善,我們有理由相信,未來(lái)的AI系統(tǒng)將能夠更好地理解和處理人類(lèi)的長(zhǎng)篇表達(dá),讓人機(jī)交互變得更加自然和高效。
當(dāng)然,這項(xiàng)研究也提醒我們,AI技術(shù)的發(fā)展往往充滿(mǎn)意外和驚喜。正如研究團(tuán)隊(duì)最初也沒(méi)有預(yù)料到擴(kuò)散模型會(huì)有如此獨(dú)特的長(zhǎng)文本處理特性一樣,科學(xué)探索的魅力就在于不斷發(fā)現(xiàn)新的可能性。對(duì)于那些想要深入了解技術(shù)細(xì)節(jié)的讀者,完整的研究論文已在arXiv平臺(tái)發(fā)布,編號(hào)為2506.14429v1,其中包含了詳細(xì)的實(shí)驗(yàn)數(shù)據(jù)和技術(shù)實(shí)現(xiàn)方案。
Q&A
Q1:擴(kuò)散大語(yǔ)言模型的"局部透視"能力是什么意思? A:這是指擴(kuò)散模型在處理超長(zhǎng)文本時(shí),雖然不能像傳統(tǒng)模型那樣統(tǒng)觀全局,但能在最近的一段文字窗口內(nèi)精準(zhǔn)找到和處理信息,就像擁有一個(gè)會(huì)移動(dòng)的聚光燈,能清晰照亮局部區(qū)域。這種能力讓它在超出訓(xùn)練長(zhǎng)度的文本中仍能保持相對(duì)穩(wěn)定的性能。
Q2:LongLLaDA技術(shù)會(huì)不會(huì)需要重新訓(xùn)練模型? A:不需要。LongLLaDA是一種"即插即用"的技術(shù),通過(guò)調(diào)整位置編碼的縮放比例來(lái)擴(kuò)展模型能力,無(wú)需任何額外訓(xùn)練。研究顯示這種方法能讓原本只處理4000字的模型擴(kuò)展到24000字,實(shí)現(xiàn)6倍提升,既經(jīng)濟(jì)又高效。
Q3:擴(kuò)散模型在長(zhǎng)文本任務(wù)上有什么優(yōu)勢(shì)和局限? A:優(yōu)勢(shì)是在信息檢索和問(wèn)答任務(wù)上表現(xiàn)優(yōu)秀,且處理超長(zhǎng)文本時(shí)保持穩(wěn)定的困惑度。局限是在需要匯總整合全文信息的任務(wù)上不如傳統(tǒng)模型,且當(dāng)文本過(guò)長(zhǎng)時(shí)會(huì)出現(xiàn)"中間遺忘"現(xiàn)象,對(duì)文檔中間部分的記憶相對(duì)模糊。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問(wèn)題。通過(guò)創(chuàng)新的多查詢(xún)交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類(lèi)性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開(kāi)源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了CLAIMSPECT系統(tǒng),通過(guò)層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類(lèi)一樣理解和表達(dá)情感。該系統(tǒng)通過(guò)多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來(lái)革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過(guò)創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過(guò)游戲競(jìng)爭(zhēng)能發(fā)展出類(lèi)人思維能力,在邏輯推理、創(chuàng)造性解決問(wèn)題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來(lái)AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過(guò)模擬人類(lèi)學(xué)習(xí)過(guò)程培養(yǎng)真正智能AI的新路徑。