在人工智能領(lǐng)域,如何讓計(jì)算機(jī)理解人類語(yǔ)言一直是個(gè)復(fù)雜難題。就像人類閱讀需要先識(shí)別字母、再組成單詞、最后理解句意一樣,傳統(tǒng)的AI語(yǔ)言模型也需要先把文本切分成一個(gè)個(gè)"詞匯單位"(叫做tokens),然后才能開始理解。這項(xiàng)由Meta公司的研究團(tuán)隊(duì)聯(lián)合法國(guó)國(guó)家信息與自動(dòng)化研究所以及魯昂諾曼底國(guó)立應(yīng)用科學(xué)學(xué)院共同完成的研究,于2025年6月發(fā)表在計(jì)算機(jī)科學(xué)預(yù)印本平臺(tái)arXiv上(論文編號(hào):arXiv:2506.14761v1),徹底顛覆了這種傳統(tǒng)做法。感興趣的讀者可以通過https://github.com/facebookresearch/lingua/tree/main/apps/aunet訪問研究代碼。
這篇論文的第一作者是來自Meta公司的Mathurin Videau和Badr Youbi Idrissi,他們與來自法國(guó)多個(gè)研究機(jī)構(gòu)的科學(xué)家們一起,開發(fā)了一個(gè)名為"自回歸U-Net"(Autoregressive U-Net,簡(jiǎn)稱AU-Net)的全新架構(gòu)。這個(gè)系統(tǒng)最令人驚嘆的地方在于,它完全跳過了傳統(tǒng)的分詞步驟,直接從最基礎(chǔ)的字節(jié)開始理解語(yǔ)言,就像一個(gè)天才的孩子能夠直接從字母組合中理解整個(gè)句子的含義一樣。
想象一下這樣的場(chǎng)景:傳統(tǒng)的AI就像一個(gè)嚴(yán)格按照食譜做菜的廚師,必須先把所有食材按照固定的方式切好、分類,然后才能開始烹飪。而AU-Net更像是一個(gè)經(jīng)驗(yàn)豐富的大廚,能夠直接從最原始的食材開始,在烹飪過程中靈活地決定如何處理每一樣材料,最終做出更加精致的菜肴。這種革命性的改變不僅讓AI更加靈活,還解決了許多長(zhǎng)期存在的技術(shù)難題。
研究團(tuán)隊(duì)面臨的核心挑戰(zhàn)是這樣的:傳統(tǒng)方法需要事先決定如何把文本切分成詞匯單位,這就像在閱讀之前就必須決定每個(gè)句子應(yīng)該在哪里停頓一樣。這種固定的切分方式帶來了很多問題。比如說,當(dāng)遇到新語(yǔ)言或者生僻詞匯時(shí),系統(tǒng)就會(huì)顯得手足無(wú)措,就像一個(gè)只會(huì)按照固定食譜做菜的廚師,突然遇到了從未見過的食材一樣。
研究團(tuán)隊(duì)的解決方案巧妙地借鑒了醫(yī)學(xué)圖像處理中的U-Net架構(gòu),創(chuàng)造出了一個(gè)能夠在多個(gè)層次同時(shí)理解語(yǔ)言的系統(tǒng)。這個(gè)系統(tǒng)的工作原理可以比作一個(gè)智能的放大鏡:它首先從最細(xì)微的字節(jié)級(jí)別開始觀察,就像用放大鏡看清每一個(gè)字母的細(xì)節(jié);然后逐漸拉遠(yuǎn)視角,看到單詞、詞組,最后看到整個(gè)句子的結(jié)構(gòu)。更神奇的是,這個(gè)過程是雙向的——當(dāng)系統(tǒng)理解了整體結(jié)構(gòu)后,又會(huì)把這種高層次的理解反饋回去,幫助更好地理解那些細(xì)微的細(xì)節(jié)。
具體來說,AU-Net的工作過程就像一個(gè)經(jīng)驗(yàn)豐富的編輯在處理文章一樣。第一階段,它仔細(xì)閱讀每一個(gè)字母和符號(hào),確保沒有遺漏任何細(xì)節(jié)。第二階段,它開始識(shí)別單詞的邊界,理解哪些字母組合在一起形成有意義的詞匯。第三階段,它把注意力轉(zhuǎn)向詞組和短語(yǔ),理解詞匯之間的關(guān)系。第四階段,它從更宏觀的角度理解整個(gè)句子甚至段落的含義。然后,這個(gè)過程會(huì)反向進(jìn)行,高層次的理解會(huì)幫助修正和完善低層次的細(xì)節(jié)理解。
這種分層處理的妙處在于,不同層次負(fù)責(zé)不同的任務(wù)。就像一個(gè)建筑師在設(shè)計(jì)房子時(shí),需要同時(shí)考慮整體布局、房間安排和具體的裝修細(xì)節(jié)一樣,AU-Net的深層網(wǎng)絡(luò)負(fù)責(zé)理解語(yǔ)言的整體語(yǔ)義和邏輯結(jié)構(gòu),而淺層網(wǎng)絡(luò)則專注于處理拼寫、標(biāo)點(diǎn)符號(hào)等具體細(xì)節(jié)。這種分工合作讓整個(gè)系統(tǒng)既能把握大局,又不會(huì)遺漏重要的細(xì)節(jié)。
為了驗(yàn)證這個(gè)新系統(tǒng)的效果,研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的實(shí)驗(yàn)。他們使用了一個(gè)包含4萬(wàn)億個(gè)訓(xùn)練詞匯的數(shù)據(jù)集DCLM,這個(gè)數(shù)據(jù)集主要包含英語(yǔ)內(nèi)容,涵蓋了自然語(yǔ)言理解的各個(gè)方面。實(shí)驗(yàn)結(jié)果令人印象深刻:在相同的計(jì)算資源條件下,AU-Net的表現(xiàn)與傳統(tǒng)的強(qiáng)力基準(zhǔn)系統(tǒng)不相上下,而在某些任務(wù)上甚至表現(xiàn)更好。
特別值得注意的是,當(dāng)研究團(tuán)隊(duì)增加系統(tǒng)的層次深度時(shí),性能出現(xiàn)了持續(xù)的提升趨勢(shì)。AU-Net-2(兩層系統(tǒng))已經(jīng)能夠匹配傳統(tǒng)方法的表現(xiàn),而AU-Net-3(三層系統(tǒng))和AU-Net-4(四層系統(tǒng))在多個(gè)測(cè)試任務(wù)中表現(xiàn)更加出色。在常識(shí)推理任務(wù)中,四層系統(tǒng)的準(zhǔn)確率達(dá)到了73.7%,比傳統(tǒng)方法的70.2%有顯著提升。在數(shù)學(xué)推理任務(wù)中,四層系統(tǒng)的表現(xiàn)也從傳統(tǒng)方法的4.4%提升到了5.3%。
這種性能提升的背后,是系統(tǒng)設(shè)計(jì)的巧妙之處。研究團(tuán)隊(duì)發(fā)現(xiàn),更深層的網(wǎng)絡(luò)結(jié)構(gòu)自然地學(xué)會(huì)了預(yù)測(cè)更遠(yuǎn)的未來內(nèi)容。比如說,在最深層,系統(tǒng)需要預(yù)測(cè)接下來的幾個(gè)詞匯,而在較淺層,系統(tǒng)只需要預(yù)測(cè)下一個(gè)字符。這種設(shè)計(jì)讓深層網(wǎng)絡(luò)專注于理解語(yǔ)言的語(yǔ)義結(jié)構(gòu),而淺層網(wǎng)絡(luò)專注于處理具體的語(yǔ)法和拼寫細(xì)節(jié)。
AU-Net的另一個(gè)重大優(yōu)勢(shì)體現(xiàn)在多語(yǔ)言處理能力上。傳統(tǒng)的分詞方法往往偏向于訓(xùn)練數(shù)據(jù)中的主要語(yǔ)言,對(duì)于低資源語(yǔ)言的處理能力有限。而AU-Net由于直接從字節(jié)入手,能夠更好地處理各種語(yǔ)言,特別是那些在訓(xùn)練數(shù)據(jù)中出現(xiàn)較少的語(yǔ)言。
在多語(yǔ)言測(cè)試中,AU-Net展現(xiàn)出了令人驚喜的跨語(yǔ)言遷移能力。在德語(yǔ)、荷蘭語(yǔ)、瑞典語(yǔ)等日耳曼語(yǔ)族的語(yǔ)言中,AU-Net平均提升了3分左右。在意大利語(yǔ)、西班牙語(yǔ)、葡萄牙語(yǔ)、法語(yǔ)等羅曼語(yǔ)族的語(yǔ)言中,提升幅度更大,平均達(dá)到了4分。這種提升說明,字節(jié)級(jí)的處理方式能夠更好地捕捉不同語(yǔ)言之間共享的語(yǔ)言特征,特別是那些使用相同字母系統(tǒng)的語(yǔ)言家族。
研究團(tuán)隊(duì)還特別測(cè)試了AU-Net在字符級(jí)操作任務(wù)上的表現(xiàn)。在CUTE基準(zhǔn)測(cè)試中,這個(gè)系統(tǒng)在拼寫檢查和反向拼寫等需要精確字符操作的任務(wù)上表現(xiàn)出色。比如在拼寫任務(wù)中,AU-Net的準(zhǔn)確率達(dá)到了97.3%,顯著超過傳統(tǒng)方法的91.5%。在反向拼寫任務(wù)中,AU-Net的準(zhǔn)確率為91.7%,而傳統(tǒng)方法只有80.6%。這種優(yōu)勢(shì)來源于AU-Net對(duì)字符級(jí)信息的直接訪問能力。
系統(tǒng)的實(shí)際運(yùn)行效率也是研究團(tuán)隊(duì)關(guān)注的重點(diǎn)。雖然AU-Net需要處理更長(zhǎng)的字節(jié)序列,但通過巧妙的架構(gòu)設(shè)計(jì)和計(jì)算優(yōu)化,它的訓(xùn)練速度仍然保持在可接受的范圍內(nèi)。在H100 GPU上,AU-Net-2的訓(xùn)練速度為每秒225k字節(jié),AU-Net-3為每秒180k字節(jié),AU-Net-4為每秒155k字節(jié)。雖然比傳統(tǒng)的BPE方法稍慢,但考慮到性能的提升,這種速度交換是值得的。
研究團(tuán)隊(duì)還深入分析了不同架構(gòu)配置對(duì)性能的影響。他們發(fā)現(xiàn),在保持總計(jì)算量相同的情況下,將更多的計(jì)算資源分配給深層網(wǎng)絡(luò)能夠獲得更好的效果。具體來說,當(dāng)75%的網(wǎng)絡(luò)層數(shù)分配給最深層時(shí),系統(tǒng)表現(xiàn)最佳。這個(gè)發(fā)現(xiàn)進(jìn)一步驗(yàn)證了分層處理策略的有效性:復(fù)雜的語(yǔ)義理解確實(shí)需要更多的計(jì)算資源。
為了確保研究結(jié)果的可靠性,團(tuán)隊(duì)還進(jìn)行了詳細(xì)的縮放定律分析。他們訓(xùn)練了一系列不同規(guī)模的模型,從1500萬(wàn)參數(shù)到53億參數(shù)不等,覆蓋了從1e19到1e22 FLOPs的計(jì)算范圍。結(jié)果顯示,AU-Net的性能隨著計(jì)算資源的增加呈現(xiàn)出穩(wěn)定的提升趨勢(shì),這種趨勢(shì)與傳統(tǒng)方法類似,說明這種新架構(gòu)具有良好的可擴(kuò)展性。
在實(shí)際應(yīng)用方面,AU-Net展現(xiàn)出了廣闊的前景。由于它不依賴固定的詞匯表,這個(gè)系統(tǒng)理論上可以處理無(wú)限多樣的文本內(nèi)容,包括新造詞、網(wǎng)絡(luò)用語(yǔ)、專業(yè)術(shù)語(yǔ)等。這種靈活性在處理社交媒體內(nèi)容、技術(shù)文檔或者創(chuàng)意寫作時(shí)特別有價(jià)值。
研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前方案的局限性。首先,AU-Net主要在英語(yǔ)為主的數(shù)據(jù)集上訓(xùn)練,對(duì)于中文、阿拉伯文等不使用空格分隔詞匯的語(yǔ)言,當(dāng)前的分割策略需要進(jìn)一步改進(jìn)。其次,隨著網(wǎng)絡(luò)層數(shù)的增加,分布式訓(xùn)練的復(fù)雜性也在增加,這對(duì)實(shí)際部署提出了挑戰(zhàn)。
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)本身。它代表了AI語(yǔ)言理解領(lǐng)域的一個(gè)重要轉(zhuǎn)向:從依賴人為設(shè)計(jì)的預(yù)處理步驟,轉(zhuǎn)向讓模型自主學(xué)習(xí)如何理解語(yǔ)言的結(jié)構(gòu)。這種轉(zhuǎn)變就像從手工制作轉(zhuǎn)向自動(dòng)化生產(chǎn)一樣,不僅提高了效率,還開創(chuàng)了新的可能性。
研究團(tuán)隊(duì)在論文中提到,他們希望這項(xiàng)工作能夠啟發(fā)更多研究者探索端到端的語(yǔ)言理解方法。與傳統(tǒng)的分而治之策略不同,AU-Net證明了統(tǒng)一的架構(gòu)也能夠有效處理語(yǔ)言理解的多個(gè)層面,這為未來的研究指明了新的方向。
從更廣闊的視角來看,這項(xiàng)研究反映了AI發(fā)展的一個(gè)重要趨勢(shì):系統(tǒng)變得越來越智能,越來越能夠自主處理復(fù)雜任務(wù),而不需要人類的過多干預(yù)。就像自動(dòng)駕駛汽車不再需要人類司機(jī)一樣,AU-Net讓語(yǔ)言模型不再需要預(yù)先設(shè)計(jì)的分詞系統(tǒng),而是能夠自主學(xué)習(xí)如何理解語(yǔ)言。
對(duì)于普通用戶來說,這項(xiàng)技術(shù)的進(jìn)步意味著未來的AI助手將能夠更好地理解各種語(yǔ)言和方言,更準(zhǔn)確地處理拼寫錯(cuò)誤和非標(biāo)準(zhǔn)表達(dá),也能夠更好地適應(yīng)不斷變化的語(yǔ)言習(xí)慣。無(wú)論是聊天機(jī)器人、翻譯軟件還是智能寫作助手,都將因?yàn)檫@種技術(shù)進(jìn)步而變得更加智能和實(shí)用。
展望未來,研究團(tuán)隊(duì)表示他們將繼續(xù)優(yōu)化這個(gè)架構(gòu),特別是在處理非拉丁字母語(yǔ)言方面。他們也在探索如何讓分割策略變得完全可學(xué)習(xí),這樣系統(tǒng)就能夠自動(dòng)適應(yīng)不同的語(yǔ)言特點(diǎn),而不需要人工設(shè)計(jì)特定的規(guī)則。
說到底,AU-Net的成功證明了一個(gè)重要觀點(diǎn):有時(shí)候最優(yōu)雅的解決方案不是增加更多的規(guī)則和限制,而是給系統(tǒng)更多的自由度,讓它自己學(xué)會(huì)如何處理復(fù)雜的任務(wù)。正如這個(gè)系統(tǒng)從最基礎(chǔ)的字節(jié)開始,逐步構(gòu)建起對(duì)語(yǔ)言的深度理解一樣,AI的發(fā)展也許正在從依賴人類設(shè)計(jì)的規(guī)則,轉(zhuǎn)向更加自主和智能的學(xué)習(xí)方式。這種轉(zhuǎn)變不僅讓技術(shù)變得更加強(qiáng)大,也讓我們對(duì)AI的未來充滿了更多期待。研究的完整細(xì)節(jié)和代碼已經(jīng)開源,感興趣的研究者和開發(fā)者都可以在GitHub上找到相關(guān)資源,繼續(xù)推進(jìn)這個(gè)令人興奮的研究方向。
Q&A
Q1:AU-Net和傳統(tǒng)語(yǔ)言模型有什么本質(zhì)區(qū)別? A:傳統(tǒng)語(yǔ)言模型需要先用分詞器把文本切成固定的詞匯單位再理解,就像必須按固定食譜切菜的廚師。而AU-Net直接從字節(jié)開始理解,像經(jīng)驗(yàn)豐富的大廚能靈活處理原始食材,這讓它能更好地處理新詞匯、拼寫錯(cuò)誤和多種語(yǔ)言。
Q2:AU-Net會(huì)不會(huì)完全取代現(xiàn)有的語(yǔ)言模型? A:目前不會(huì)完全取代。AU-Net在某些任務(wù)上確實(shí)表現(xiàn)更好,特別是字符級(jí)操作和多語(yǔ)言處理,但傳統(tǒng)方法在某些應(yīng)用場(chǎng)景下仍有優(yōu)勢(shì)。未來可能會(huì)出現(xiàn)混合方案,針對(duì)不同任務(wù)選擇最適合的方法。
Q3:普通用戶什么時(shí)候能用到AU-Net技術(shù)? A:AU-Net目前還在研究階段,代碼已經(jīng)開源供研究者使用。要成為普通用戶能直接使用的產(chǎn)品,還需要進(jìn)一步優(yōu)化和工程化。不過這項(xiàng)技術(shù)的突破為未來更智能的AI助手、翻譯工具和寫作軟件奠定了基礎(chǔ)。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測(cè)"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測(cè)試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭(zhēng)議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭(zhēng)議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭(zhēng)議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國(guó)際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競(jìng)爭(zhēng)能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。