人工智能領(lǐng)域長(zhǎng)期面臨著一個(gè)看似不可調(diào)和的矛盾:生成模型擅長(zhǎng)創(chuàng)造內(nèi)容,分類模型專精識(shí)別任務(wù),而表示學(xué)習(xí)模型則致力于理解數(shù)據(jù)本質(zhì)。這些不同的AI能力就像是各司其職的專業(yè)工匠,每個(gè)都有自己的工具和方法,彼此之間似乎無(wú)法融合。然而,微軟研究院的林子楠博士領(lǐng)導(dǎo)的國(guó)際研究團(tuán)隊(duì)最近發(fā)表了一項(xiàng)突破性研究,徹底改變了這種局面。
這項(xiàng)由微軟研究院(美國(guó)雷德蒙德)、清華大學(xué)、三星英國(guó)研發(fā)中心聯(lián)合完成的研究發(fā)表于2025年神經(jīng)信息處理系統(tǒng)大會(huì)(NeurIPS 2025),題為《潛在分區(qū)網(wǎng)絡(luò):生成建模、表示學(xué)習(xí)和分類的統(tǒng)一原理》。研究團(tuán)隊(duì)包括微軟研究院的林子楠博士和葉卡寧博士,清華大學(xué)的劉恩澍和寧雪菲博士,以及三星英國(guó)研發(fā)中心的朱俊毅博士。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)https://github.com/microsoft/latent-zoning-networks訪問(wèn)完整代碼和訓(xùn)練模型。
傳統(tǒng)的AI系統(tǒng)就像是一個(gè)大工廠里的不同車間:圖像生成車間使用擴(kuò)散模型制造逼真圖片,分類車間用交叉熵?fù)p失函數(shù)進(jìn)行物體識(shí)別,而表示學(xué)習(xí)車間則依靠對(duì)比學(xué)習(xí)提取特征。這些車間各自為政,使用完全不同的工具和流程,導(dǎo)致企業(yè)需要維護(hù)多套復(fù)雜的生產(chǎn)線。更糟糕的是,這些車間之間無(wú)法有效協(xié)作,明明都在處理同樣的原材料(數(shù)據(jù)),卻無(wú)法分享經(jīng)驗(yàn)和知識(shí)。
研究團(tuán)隊(duì)提出的潛在分區(qū)網(wǎng)絡(luò)(Latent Zoning Network,簡(jiǎn)稱LZN)就像是設(shè)計(jì)了一個(gè)革命性的統(tǒng)一工廠。在這個(gè)工廠的核心,有一個(gè)神奇的"共享倉(cāng)庫(kù)"——潛在空間,它遵循簡(jiǎn)單的高斯分布。這個(gè)倉(cāng)庫(kù)被巧妙地劃分成許多"專屬區(qū)域",每個(gè)區(qū)域?qū)?yīng)著特定的數(shù)據(jù)樣本。不同類型的數(shù)據(jù)(圖像、文本、標(biāo)簽)都有自己的"編碼器"門(mén)崗,負(fù)責(zé)將數(shù)據(jù)映射到相應(yīng)的區(qū)域,同時(shí)配備"解碼器"出口,將潛在表示轉(zhuǎn)換回原始數(shù)據(jù)。
這種設(shè)計(jì)的巧妙之處在于,所有的AI任務(wù)都可以理解為在這個(gè)共享倉(cāng)庫(kù)中的不同"運(yùn)輸路線"。當(dāng)需要生成圖像時(shí),系統(tǒng)從高斯分布中隨機(jī)抽取一個(gè)位置,然后通過(guò)圖像解碼器"出口"產(chǎn)生圖片。進(jìn)行圖像分類時(shí),則是讓圖片通過(guò)圖像編碼器"入口"進(jìn)入倉(cāng)庫(kù),再?gòu)臉?biāo)簽解碼器"出口"輸出分類結(jié)果。表示學(xué)習(xí)任務(wù)則直接使用編碼器產(chǎn)生的潛在表示。這種設(shè)計(jì)讓原本獨(dú)立的任務(wù)能夠在同一個(gè)框架下協(xié)同工作,就像是在統(tǒng)一的交通網(wǎng)絡(luò)中規(guī)劃不同的出行路線。
整個(gè)系統(tǒng)的運(yùn)作依賴兩個(gè)核心機(jī)制。第一個(gè)是"潛在計(jì)算",這個(gè)過(guò)程就像是精確的GPS定位系統(tǒng)。當(dāng)輸入一批數(shù)據(jù)樣本時(shí),系統(tǒng)首先為每個(gè)樣本計(jì)算"錨點(diǎn)"位置,然后使用流匹配(Flow Matching)技術(shù)將這些點(diǎn)映射到潛在空間中的不同區(qū)域。這種技術(shù)確保了兩個(gè)關(guān)鍵特性:整個(gè)潛在空間遵循高斯分布(便于生成任務(wù)),同時(shí)不同樣本的潛在區(qū)域保持分離(避免信息混淆)。
第二個(gè)機(jī)制是"潛在對(duì)齊",這是解決跨模態(tài)任務(wù)的關(guān)鍵。當(dāng)系統(tǒng)需要處理來(lái)自不同數(shù)據(jù)類型的信息時(shí),比如讓"貓"這個(gè)標(biāo)簽對(duì)應(yīng)所有貓的圖像,就需要確保標(biāo)簽的潛在區(qū)域能夠覆蓋所有相關(guān)圖像的潛在區(qū)域。這個(gè)對(duì)齊過(guò)程面臨著一個(gè)技術(shù)挑戰(zhàn):傳統(tǒng)的離散分配過(guò)程不可微分,無(wú)法直接優(yōu)化。研究團(tuán)隊(duì)巧妙地設(shè)計(jì)了一個(gè)"軟近似"方法,通過(guò)在流匹配過(guò)程中引入概率分配,將硬性的離散分配轉(zhuǎn)換為可微分的連續(xù)優(yōu)化問(wèn)題。
為了驗(yàn)證這個(gè)統(tǒng)一框架的有效性,研究團(tuán)隊(duì)設(shè)計(jì)了三個(gè)層次遞進(jìn)的實(shí)驗(yàn)場(chǎng)景。第一個(gè)層次是"增強(qiáng)現(xiàn)有任務(wù)",他們將LZN潛在表示作為額外信息輸入到當(dāng)前最先進(jìn)的生成模型中。令人驚喜的是,僅僅添加這個(gè)額外輸入就顯著提升了圖像生成質(zhì)量。在CIFAR10數(shù)據(jù)集上,生成圖像的FID分?jǐn)?shù)從2.76改善到2.59,相當(dāng)于將條件生成和無(wú)條件生成之間的質(zhì)量差距縮小了59%。
第二個(gè)層次是"獨(dú)立解決任務(wù)",研究團(tuán)隊(duì)用LZN完全替代傳統(tǒng)的對(duì)比學(xué)習(xí)方法來(lái)進(jìn)行無(wú)監(jiān)督表示學(xué)習(xí)。這個(gè)實(shí)驗(yàn)特別有意義,因?yàn)樗C明了LZN不需要依賴其他方法就能獨(dú)當(dāng)一面。在ImageNet數(shù)據(jù)集的線性分類測(cè)試中,LZN的表現(xiàn)超越了經(jīng)典的MoCo方法9.3%,也略勝SimCLR方法0.2%。這個(gè)結(jié)果證明,僅僅通過(guò)潛在對(duì)齊機(jī)制,不需要傳統(tǒng)的對(duì)比損失函數(shù)或大規(guī)模負(fù)樣本,LZN就能學(xué)習(xí)到高質(zhì)量的圖像表示。
最高層次的實(shí)驗(yàn)是"同時(shí)解決多任務(wù)",這真正展現(xiàn)了統(tǒng)一框架的威力。研究團(tuán)隊(duì)配置了圖像和標(biāo)簽的編碼器-解碼器對(duì),讓LZN在單一框架內(nèi)同時(shí)處理類別條件的圖像生成和圖像分類任務(wù)。結(jié)果顯示,這種聯(lián)合訓(xùn)練不僅在兩個(gè)任務(wù)上都達(dá)到了卓越性能,更重要的是,多任務(wù)的協(xié)同效應(yīng)讓每個(gè)單獨(dú)任務(wù)的表現(xiàn)都超越了獨(dú)立訓(xùn)練的效果。這證實(shí)了研究團(tuán)隊(duì)的核心假設(shè):看似不同的機(jī)器學(xué)習(xí)任務(wù)實(shí)際上可以相互促進(jìn),共享表示能夠帶來(lái)意想不到的性能提升。
從技術(shù)實(shí)現(xiàn)的角度來(lái)看,LZN的訓(xùn)練過(guò)程涉及復(fù)雜的微分幾何計(jì)算,特別是需要對(duì)流匹配軌跡進(jìn)行反向傳播。為了解決計(jì)算效率問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了多項(xiàng)優(yōu)化技術(shù)。他們使用小批量近似來(lái)降低內(nèi)存消耗,設(shè)計(jì)了自定義梯度檢查點(diǎn)機(jī)制,并且實(shí)現(xiàn)了潛在并行計(jì)算來(lái)支持多GPU訓(xùn)練。這些工程優(yōu)化使得LZN能夠擴(kuò)展到大規(guī)模數(shù)據(jù)集和復(fù)雜模型。
值得注意的是,LZN在推理階段往往與現(xiàn)有方法一樣高效。對(duì)于圖像生成任務(wù),系統(tǒng)直接從高斯先驗(yàn)中采樣潛在變量,無(wú)需計(jì)算復(fù)雜的潛在區(qū)域。對(duì)于表示學(xué)習(xí)任務(wù),研究發(fā)現(xiàn)去除最后的投影層反而能提升性能,這意味著可以直接使用編碼器輸出,避免昂貴的潛在計(jì)算過(guò)程。
這項(xiàng)研究的意義遠(yuǎn)超技術(shù)本身。在實(shí)際應(yīng)用中,許多AI系統(tǒng)需要同時(shí)具備生成、理解和分類能力。比如智能客服系統(tǒng)需要理解用戶輸入、生成合適回復(fù)、并對(duì)對(duì)話進(jìn)行分類管理。傳統(tǒng)方法需要組合多個(gè)獨(dú)立模型,不僅增加了系統(tǒng)復(fù)雜度,還可能產(chǎn)生不一致的行為。LZN提供了一個(gè)優(yōu)雅的解決方案,讓這些能力在統(tǒng)一框架下協(xié)調(diào)工作。
研究團(tuán)隊(duì)也坦誠(chéng)地討論了當(dāng)前的局限性。LZN的訓(xùn)練計(jì)算成本相對(duì)較高,主要因?yàn)榱髌ヅ溥^(guò)程的二次復(fù)雜度。雖然他們開(kāi)發(fā)了多項(xiàng)優(yōu)化技術(shù),但在超大規(guī)模數(shù)據(jù)集上的擴(kuò)展性仍需進(jìn)一步驗(yàn)證。此外,目前的實(shí)驗(yàn)主要集中在圖像領(lǐng)域,多模態(tài)和多任務(wù)的擴(kuò)展還有很大探索空間。不過(guò),研究團(tuán)隊(duì)指出,LZN訓(xùn)練中的計(jì)算模式與大語(yǔ)言模型訓(xùn)練存在有趣的相似性,這暗示著可以借鑒LLM訓(xùn)練的優(yōu)化經(jīng)驗(yàn)來(lái)進(jìn)一步提升LZN的效率。
展望未來(lái),這項(xiàng)研究開(kāi)啟了機(jī)器學(xué)習(xí)統(tǒng)一框架的新篇章。隨著更多編碼器-解碼器對(duì)的加入,LZN支持的任務(wù)組合將呈幾何級(jí)數(shù)增長(zhǎng)。這種設(shè)計(jì)哲學(xué)可能影響下一代AI系統(tǒng)的架構(gòu),從根本上改變我們構(gòu)建和部署機(jī)器學(xué)習(xí)模型的方式。最終,我們可能會(huì)看到真正通用的AI系統(tǒng),它們不再是針對(duì)特定任務(wù)的專用工具,而是能夠靈活適應(yīng)各種需求的智能平臺(tái)。
Q&A
Q1:潛在分區(qū)網(wǎng)絡(luò)(LZN)是什么?它與傳統(tǒng)AI模型有什么不同?
A:LZN是微軟研究院開(kāi)發(fā)的統(tǒng)一AI框架,它最大的不同在于用一個(gè)共享的"潛在空間倉(cāng)庫(kù)"連接了生成、分類和表示學(xué)習(xí)三大AI任務(wù)。傳統(tǒng)方法需要三套完全不同的模型和訓(xùn)練方法,而LZN讓這些任務(wù)在同一框架下協(xié)同工作,就像在統(tǒng)一的交通網(wǎng)絡(luò)中規(guī)劃不同路線。
Q2:LZN在實(shí)際應(yīng)用中表現(xiàn)如何?真的比傳統(tǒng)方法更好嗎?
A:實(shí)驗(yàn)結(jié)果相當(dāng)令人鼓舞。在圖像生成方面,LZN將FID分?jǐn)?shù)從2.76改善到2.59,縮小了條件生成和無(wú)條件生成59%的質(zhì)量差距。在表示學(xué)習(xí)上,它超越了經(jīng)典的MoCo方法9.3%。最重要的是,LZN能同時(shí)處理多個(gè)任務(wù),且多任務(wù)協(xié)同訓(xùn)練的效果比單獨(dú)訓(xùn)練每個(gè)任務(wù)都要好。
Q3:LZN技術(shù)什么時(shí)候能在實(shí)際產(chǎn)品中使用?普通人能體驗(yàn)到嗎?
A:LZN目前還在研究階段,研究團(tuán)隊(duì)已經(jīng)在GitHub上開(kāi)源了代碼和訓(xùn)練模型。雖然直接的消費(fèi)級(jí)產(chǎn)品還需要時(shí)間,但這種統(tǒng)一框架的思想可能很快會(huì)影響各種AI應(yīng)用的底層架構(gòu)。未來(lái)的智能助手、內(nèi)容創(chuàng)作工具和推薦系統(tǒng)都可能受益于這種多任務(wù)協(xié)同的設(shè)計(jì)理念。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。