這項由MIT(麻省理工學(xué)院)、豐田研究院等機(jī)構(gòu)的研究人員共同完成的研究發(fā)表于2025年9月,論文題目為《圖像擴(kuò)散模型中的局部性來自數(shù)據(jù)統(tǒng)計》。感興趣的讀者可以通過arXiv:2509.09672v1訪問完整論文,研究網(wǎng)站為https://locality.lukoianov.com。
當(dāng)我們觀察AI繪畫時,會發(fā)現(xiàn)一個有趣現(xiàn)象:AI似乎具有某種"局部思維"——在畫一只眼睛時,它主要關(guān)注眼睛周圍的區(qū)域,而不會被畫面另一端的帽子所干擾。長期以來,科學(xué)家們認(rèn)為這種現(xiàn)象源于卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)特性,就像戴著一副只能看到小范圍的眼鏡一樣,AI天生就被限制只能關(guān)注局部區(qū)域。
然而,MIT的研究團(tuán)隊通過深入分析發(fā)現(xiàn),事實并非如此簡單。他們的研究表明,AI的這種"局部思維"實際上來源于訓(xùn)練數(shù)據(jù)中像素之間的相關(guān)性,而不是網(wǎng)絡(luò)架構(gòu)本身的限制。這就像是一個人學(xué)會了繪畫技巧,不是因為眼鏡的限制,而是因為通過觀察大量畫作領(lǐng)悟到了"相鄰區(qū)域往往具有相似特征"這一規(guī)律。
這個發(fā)現(xiàn)顛覆了我們對AI繪畫機(jī)制的傳統(tǒng)認(rèn)知。研究團(tuán)隊發(fā)現(xiàn),即使是沒有明顯"局部限制"的Transformer架構(gòu)(類似于具有全視野的網(wǎng)絡(luò)結(jié)構(gòu)),在處理圖像時也會自然而然地學(xué)會關(guān)注局部區(qū)域,因為訓(xùn)練數(shù)據(jù)本身就蘊(yùn)含著這樣的統(tǒng)計規(guī)律。
為了驗證這一理論,研究人員進(jìn)行了一個巧妙的實驗。他們在CIFAR-10數(shù)據(jù)集中的每張圖片上都添加了一個W形狀的微妙圖案,這個圖案幾乎不影響圖片的視覺效果,但改變了像素間的統(tǒng)計關(guān)系。結(jié)果令人驚訝:訓(xùn)練出的AI模型真的學(xué)會了W形狀的"注意模式"——在處理圖片時會特別關(guān)注W形區(qū)域,即使這些區(qū)域在視覺上并不重要。這就像給一位畫家看了太多帶有特定水印的畫作,最終畫家也會不自覺地在相應(yīng)位置投入更多注意力。
研究團(tuán)隊進(jìn)一步分析了不同類型的數(shù)據(jù)集,發(fā)現(xiàn)了有趣的規(guī)律。在CIFAR-10這類包含各種自然場景的數(shù)據(jù)集中,AI確實會形成相對規(guī)整的局部關(guān)注模式,因為自然圖像中相鄰像素往往具有相似的顏色和紋理。但在CelebA-HQ這類人臉數(shù)據(jù)集中,情況就大不相同了。由于人臉具有固定的結(jié)構(gòu)——眼睛總是在特定位置,鼻子和嘴巴也有相對固定的分布,AI學(xué)到的關(guān)注模式變得非常具體和非局部化。當(dāng)AI在處理一只眼睛時,它可能會同時關(guān)注另一只眼睛的位置,因為數(shù)據(jù)告訴它這兩個區(qū)域是高度相關(guān)的。
這一發(fā)現(xiàn)的實際意義遠(yuǎn)超理論層面。研究團(tuán)隊基于這個洞察開發(fā)了一個新的分析方法,能夠直接從數(shù)據(jù)統(tǒng)計特性中推算出AI應(yīng)該關(guān)注的區(qū)域模式。他們發(fā)現(xiàn),當(dāng)把這種從數(shù)據(jù)中"計算"出來的關(guān)注模式應(yīng)用到理論模型中時,效果甚至超過了之前基于網(wǎng)絡(luò)結(jié)構(gòu)分析的方法。這就像是找到了一個更直接的路徑來理解AI的"思維過程"——不是去分析復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),而是直接分析它學(xué)習(xí)的素材。
更令人意外的是,研究發(fā)現(xiàn)即便是最簡單的線性濾波器(一種非常基礎(chǔ)的圖像處理方法,被稱為維納濾波器)在某些情況下的表現(xiàn)竟然接近甚至超過了復(fù)雜的深度學(xué)習(xí)模型。這說明在某些任務(wù)中,AI模型的核心工作機(jī)制實際上可以用更簡單的數(shù)學(xué)工具來解釋和實現(xiàn)。這就像發(fā)現(xiàn)某些看似需要高超技藝的烹飪,實際上用簡單的家常做法也能達(dá)到相似的效果。
研究團(tuán)隊還深入探討了AI圖像生成中的一個核心問題:為什么訓(xùn)練好的AI模型能夠生成新的、從未見過的圖像,而不是簡單地復(fù)制訓(xùn)練數(shù)據(jù)中的現(xiàn)有圖片。他們發(fā)現(xiàn),這與AI模型的"容錯機(jī)制"有關(guān)。當(dāng)AI處理一張略有噪聲或變化的輸入時,它會傾向于保持那些在訓(xùn)練數(shù)據(jù)中信噪比較高的特征,而對信噪比較低的部分進(jìn)行平滑處理。這種"選擇性保留"機(jī)制讓AI既能保持圖像的核心特征,又能產(chǎn)生新的變化。
從技術(shù)實現(xiàn)的角度來看,這項研究提供了一種更加高效和可解釋的AI圖像處理方法。傳統(tǒng)的做法是訓(xùn)練一個龐大的神經(jīng)網(wǎng)絡(luò),然后試圖分析它學(xué)到了什么。而新方法則是直接分析數(shù)據(jù)的統(tǒng)計特性,從中推導(dǎo)出最優(yōu)的處理策略,再將這個策略應(yīng)用到模型中。這種方法不僅更加透明可解釋,在某些情況下效率也更高。
對于不同類型的數(shù)據(jù)集,這種基于數(shù)據(jù)統(tǒng)計的方法展現(xiàn)出了很好的適應(yīng)性。在處理多樣化自然圖像時,它學(xué)會了平移不變的局部模式;在處理結(jié)構(gòu)化的人臉圖像時,它學(xué)會了非局部但高度特化的關(guān)注模式;在處理手寫數(shù)字等簡單圖像時,它又能夠適應(yīng)相應(yīng)的特征分布。這種靈活性是之前基于固定網(wǎng)絡(luò)結(jié)構(gòu)的方法難以達(dá)到的。
研究成果在多個標(biāo)準(zhǔn)數(shù)據(jù)集上都得到了驗證,包括CIFAR-10、CelebA-HQ、AFHQv2、MNIST和Fashion-MNIST。實驗結(jié)果顯示,新方法在預(yù)測訓(xùn)練好的擴(kuò)散模型行為方面,準(zhǔn)確性超過了所有現(xiàn)有的理論方法。特別是在處理人臉等結(jié)構(gòu)化數(shù)據(jù)時,傳統(tǒng)的局部塊方法會導(dǎo)致重要特征(如眼部細(xì)節(jié))的丟失,而新方法則能更好地保持這些關(guān)鍵特征。
這項研究還揭示了一個更深層的問題:我們對AI"智能"的理解可能需要重新審視。過去我們傾向于將AI的能力歸因于復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),但這項研究表明,很多看似復(fù)雜的行為實際上是數(shù)據(jù)本身特性的直接反映。AI并不是在"發(fā)明"新的處理策略,而是在"發(fā)現(xiàn)"數(shù)據(jù)中本就存在的統(tǒng)計規(guī)律。
從實際應(yīng)用的角度來看,這一發(fā)現(xiàn)為AI模型的設(shè)計和優(yōu)化提供了新思路。與其盲目地增加網(wǎng)絡(luò)復(fù)雜度,不如更仔細(xì)地分析和設(shè)計訓(xùn)練數(shù)據(jù),確保數(shù)據(jù)中包含我們希望AI學(xué)習(xí)的正確統(tǒng)計關(guān)系。這種方法可能會帶來更高效、更可控的AI系統(tǒng)。
研究團(tuán)隊通過大量實驗驗證了他們的理論。他們比較了不同架構(gòu)的神經(jīng)網(wǎng)絡(luò)(包括U-Net和Transformer),發(fā)現(xiàn)盡管這些架構(gòu)在設(shè)計理念上截然不同,但它們學(xué)到的注意力模式卻驚人地相似,這進(jìn)一步證實了這些模式確實來源于數(shù)據(jù)而非架構(gòu)。
對于AI發(fā)展的未來方向,這項研究提出了一些重要啟示。首先,我們可能需要將更多注意力從網(wǎng)絡(luò)結(jié)構(gòu)的創(chuàng)新轉(zhuǎn)向數(shù)據(jù)質(zhì)量和數(shù)據(jù)統(tǒng)計特性的理解。其次,這為開發(fā)更加可解釋、可控的AI系統(tǒng)提供了理論基礎(chǔ)。最后,這也暗示我們可能可以用更簡單、更高效的方法實現(xiàn)某些現(xiàn)在需要復(fù)雜深度學(xué)習(xí)模型才能完成的任務(wù)。
當(dāng)然,這項研究也有其局限性。研究主要關(guān)注的是相對簡單的圖像架構(gòu),對于更復(fù)雜的現(xiàn)代AI系統(tǒng)是否完全適用還需要進(jìn)一步驗證。另外,研究假設(shè)局部性模式在不同輸入圖像間是恒定的,但實際的神經(jīng)網(wǎng)絡(luò)可能會根據(jù)輸入內(nèi)容動態(tài)調(diào)整其注意力模式。這些都是未來研究需要探索的方向。
說到底,這項來自MIT的研究為我們理解AI的工作機(jī)制提供了一個全新的視角。它告訴我們,AI的"智能"可能比我們想象的更簡單——它們主要是在學(xué)習(xí)和反映數(shù)據(jù)中本就存在的模式,而不是創(chuàng)造全新的處理策略。這種認(rèn)識不僅有助于我們開發(fā)更好的AI系統(tǒng),也讓我們對人工智能的本質(zhì)有了更深刻的理解。
歸根結(jié)底,這個發(fā)現(xiàn)提醒我們,數(shù)據(jù)質(zhì)量和數(shù)據(jù)特性在AI系統(tǒng)中的重要性可能被長期低估了。未來的AI發(fā)展,可能需要我們將同等甚至更多的注意力放在數(shù)據(jù)的設(shè)計和理解上,而不僅僅是算法的優(yōu)化。這為整個AI領(lǐng)域的發(fā)展提供了一個新的思考框架,有興趣的讀者可以通過前面提到的論文鏈接深入了解這項重要研究的技術(shù)細(xì)節(jié)。
Q&A
Q1:擴(kuò)散模型的局部性真的來自數(shù)據(jù)統(tǒng)計而不是網(wǎng)絡(luò)架構(gòu)嗎?
A:是的,MIT研究團(tuán)隊通過實驗證明了這一點(diǎn)。他們發(fā)現(xiàn)即使是沒有局部性限制的Transformer架構(gòu)也會學(xué)到類似的局部注意力模式,而且通過在數(shù)據(jù)中添加特定模式(如W形狀),可以讓AI學(xué)會相應(yīng)的注意力模式,這說明局部性確實來源于訓(xùn)練數(shù)據(jù)的像素相關(guān)性。
Q2:這個發(fā)現(xiàn)對AI圖像生成技術(shù)有什么實際影響?
A:這個發(fā)現(xiàn)提供了一種更高效和可解釋的AI圖像處理方法。研究團(tuán)隊開發(fā)的基于數(shù)據(jù)統(tǒng)計的分析方法在預(yù)測AI行為方面比傳統(tǒng)方法更準(zhǔn)確,特別是在處理人臉等結(jié)構(gòu)化數(shù)據(jù)時能更好地保持關(guān)鍵特征,為開發(fā)更可控的AI系統(tǒng)提供了理論基礎(chǔ)。
Q3:維納濾波器這種簡單方法真的能接近深度學(xué)習(xí)模型的效果嗎?
A:在某些情況下確實如此。研究發(fā)現(xiàn),簡單的線性維納濾波器在一些任務(wù)中的表現(xiàn)竟然接近甚至超過了復(fù)雜的深度學(xué)習(xí)模型。這表明某些看似需要復(fù)雜AI的任務(wù),實際上可以用更簡單的數(shù)學(xué)工具來解釋和實現(xiàn),為AI系統(tǒng)的優(yōu)化提供了新思路。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。