這項(xiàng)令人矚目的研究來自哈爾濱工業(yè)大學(xué)深圳校區(qū)、武漢大學(xué)人工智能學(xué)院以及南洋理工大學(xué)的聯(lián)合研究團(tuán)隊(duì),主要研究人員包括李鴻宇、陳朝峰、李曉明和陸光明。該研究于2025年9月發(fā)表在計(jì)算機(jī)視覺頂級會議上,感興趣的讀者可以通過GitHub項(xiàng)目頁面https://github.com/hitlhy715/2DGS-inpaint獲取完整的研究資料和代碼。
當(dāng)我們翻看老照片時,經(jīng)常會遇到一些令人沮喪的情況:珍貴的家庭合影因?yàn)槟甏眠h(yuǎn)而出現(xiàn)破損,重要文檔的關(guān)鍵部分被污漬遮擋,或者剛拍好的風(fēng)景照卻被路人不經(jīng)意地遮住了最美的部分。傳統(tǒng)的圖片修復(fù)就像用顏料在畫布上補(bǔ)色一樣,需要藝術(shù)家憑借經(jīng)驗(yàn)和技巧來填補(bǔ)缺失的部分,但這種方法往往難以保證修復(fù)后的圖片既自然又連貫。
研究團(tuán)隊(duì)注意到,我們的眼睛感知世界是連續(xù)的、流暢的,但數(shù)字圖片卻是由一個個獨(dú)立的像素點(diǎn)組成的。這就好比我們用拼圖塊來表現(xiàn)一幅完整的畫面,每個像素就是一個拼圖片?,F(xiàn)有的圖片修復(fù)技術(shù)就像是在缺失的拼圖位置上硬生生地插入新的拼圖塊,雖然能填補(bǔ)空白,但往往會在邊界處產(chǎn)生不自然的跳躍感。
為了解決這個根本性問題,研究團(tuán)隊(duì)提出了一種全新的思路:既然人眼感知的是連續(xù)的世界,為什么不讓計(jì)算機(jī)也用連續(xù)的方式來理解和修復(fù)圖片呢?他們借鑒了一種名為"高斯涂抹"的技術(shù)。這種技術(shù)原本用于3D場景的建模,就像用無數(shù)個柔和的光斑來描繪一個立體空間一樣。研究團(tuán)隊(duì)巧妙地將這個概念應(yīng)用到2D圖片處理中,讓計(jì)算機(jī)不再把圖片看作是硬邦邦的像素格子,而是看作由無數(shù)個柔和、重疊的光斑組成的連續(xù)畫面。
這種方法的巧妙之處在于,每個"光斑"都有自己的位置、大小、顏色和透明度,它們相互重疊、相互融合,形成最終的圖像效果。當(dāng)圖片的某個部分缺失時,計(jì)算機(jī)可以通過調(diào)整附近光斑的參數(shù),讓它們自然地?cái)U(kuò)散和融合,從而無縫地填補(bǔ)空白區(qū)域。這就像水彩畫中顏料的自然暈染一樣,邊界處不會有生硬的分割線,而是漸變過渡的。
然而,這種方法也帶來了新的挑戰(zhàn)。如果要用足夠多的"光斑"來精確描述一張高清圖片,計(jì)算量會變得非常龐大,就像要用數(shù)百萬個小刷子同時作畫一樣。為了解決這個問題,研究團(tuán)隊(duì)想出了一個聰明的"分塊處理"策略。他們將大圖片切割成許多小塊,就像把一幅大壁畫分解成多個小畫板,每個小畫板可以獨(dú)立處理,最后再巧妙地拼接在一起。
這種分塊策略有點(diǎn)像團(tuán)隊(duì)協(xié)作做項(xiàng)目:每個人負(fù)責(zé)自己的部分,但大家需要確保整體協(xié)調(diào)一致。為了避免各個小塊之間出現(xiàn)接縫,研究團(tuán)隊(duì)設(shè)計(jì)了一種"重疊融合"的方法。每個小塊在處理時都會稍微擴(kuò)大一些邊界,與相鄰區(qū)塊有所重疊,然后在拼接時對重疊部分進(jìn)行平滑過渡。這就像裁縫在縫制衣服時會留出縫邊,確保整件衣服的線條流暢自然。
但是,僅僅有技術(shù)上的連續(xù)性還不夠,修復(fù)出來的內(nèi)容還必須在語義上說得通。比如,如果一張海灘照片的沙灘部分缺失了,修復(fù)系統(tǒng)不能胡亂填充成草地或者建筑物,而應(yīng)該合理地補(bǔ)充沙灘紋理。這就需要系統(tǒng)具備"理解"圖片內(nèi)容的能力。
研究團(tuán)隊(duì)發(fā)現(xiàn),有一種名為DINO的人工智能模型特別擅長理解圖片的語義內(nèi)容。DINO就像一個經(jīng)驗(yàn)豐富的藝術(shù)鑒賞家,即使只看到畫作的一部分,也能推斷出整幅作品的主題和風(fēng)格。研究團(tuán)隊(duì)進(jìn)行了大量實(shí)驗(yàn),發(fā)現(xiàn)當(dāng)圖片的缺失部分比較小時,DINO仍能準(zhǔn)確理解圖片的整體語義;但當(dāng)缺失部分很大時,DINO的理解能力會有所下降。
為了增強(qiáng)DINO在大面積缺失情況下的理解能力,研究團(tuán)隊(duì)設(shè)計(jì)了一個"語義適應(yīng)模塊"。這個模塊就像一個智能的翻譯器,能夠?qū)⒉煌暾麍D片中的模糊語義信息轉(zhuǎn)化為清晰、準(zhǔn)確的語義指導(dǎo)。通過這種方式,即使面對大片缺失的圖片,系統(tǒng)也能維持對整體語義的準(zhǔn)確把握。
整個修復(fù)過程就像一個精心設(shè)計(jì)的流水線:首先,不完整的圖片被輸入到一個編碼器中,這個編碼器就像一個細(xì)心的觀察員,仔細(xì)分析圖片的每個細(xì)節(jié),并將這些信息轉(zhuǎn)化為一系列"光斑"參數(shù)。同時,DINO模型和語義適應(yīng)模塊協(xié)作,為修復(fù)過程提供語義指導(dǎo),確保補(bǔ)充的內(nèi)容在邏輯上合理。然后,這些"光斑"參數(shù)被送入到渲染器中,渲染器就像一個技藝精湛的畫家,根據(jù)參數(shù)重新繪制出完整的圖片。
在訓(xùn)練這個系統(tǒng)時,研究團(tuán)隊(duì)采用了多重標(biāo)準(zhǔn)來評估修復(fù)質(zhì)量。除了要求修復(fù)后的圖片在視覺上接近原圖,還要求在感知質(zhì)量上符合人眼的審美習(xí)慣,同時確保修復(fù)內(nèi)容與原圖在語義上保持一致。這就像培養(yǎng)一個全能的修復(fù)師,不僅要有精湛的技藝,還要有良好的藝術(shù)品味和深厚的文化理解。
研究團(tuán)隊(duì)在多個標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了廣泛的測試,包括人臉圖片數(shù)據(jù)庫CelebA-HQ和自然場景數(shù)據(jù)庫Places2。實(shí)驗(yàn)結(jié)果顯示,他們的方法在處理各種類型的圖片缺失時都表現(xiàn)出色。特別是在面部修復(fù)方面,系統(tǒng)能夠很好地保持人物的身份特征和面部結(jié)構(gòu);在自然場景修復(fù)方面,系統(tǒng)能夠重建復(fù)雜的紋理和空間布局。
為了驗(yàn)證各個組件的重要性,研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的對比實(shí)驗(yàn)。他們發(fā)現(xiàn),如果去掉DINO語義指導(dǎo),修復(fù)質(zhì)量會明顯下降,特別是在大面積缺失的情況下;如果用傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)替代高斯涂抹渲染器,不僅修復(fù)質(zhì)量下降,訓(xùn)練過程也變得不穩(wěn)定;如果調(diào)整高斯"光斑"的數(shù)量,會直接影響修復(fù)的精細(xì)程度。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)突破本身。在實(shí)際應(yīng)用方面,這種技術(shù)可以幫助人們修復(fù)珍貴的歷史照片,恢復(fù)因意外損壞的重要文檔,甚至可以用于電影制作中的特效處理。對于普通用戶來說,這意味著我們可能很快就能在手機(jī)上使用更加智能和自然的圖片編輯功能。
從技術(shù)發(fā)展的角度來看,這項(xiàng)研究開創(chuàng)了將3D建模技術(shù)應(yīng)用于2D圖像處理的先河,為圖像處理領(lǐng)域提供了全新的思路。連續(xù)性建模的概念可能會啟發(fā)更多類似的創(chuàng)新應(yīng)用,推動整個計(jì)算機(jī)視覺領(lǐng)域的發(fā)展。
當(dāng)然,這項(xiàng)研究也存在一些局限性。目前的方法主要針對自動修復(fù),缺乏對用戶個性化需求的精確控制。未來的研究方向可能會集中在增強(qiáng)系統(tǒng)的可控性,比如允許用戶通過文本描述或者簡單的草圖來指導(dǎo)修復(fù)過程,使系統(tǒng)能夠更好地滿足不同用戶的特定需求。
說到底,這項(xiàng)研究最令人興奮的地方在于它改變了我們對圖像處理的基本認(rèn)知。從離散的像素拼接轉(zhuǎn)向連續(xù)的光斑融合,不僅在技術(shù)上實(shí)現(xiàn)了突破,更重要的是為未來的圖像處理技術(shù)指明了新的發(fā)展方向。當(dāng)技術(shù)能夠更貼近人類的視覺感知方式時,我們與數(shù)字世界的交互也會變得更加自然和直觀。研究團(tuán)隊(duì)已經(jīng)將相關(guān)代碼開源,感興趣的開發(fā)者可以通過GitHub項(xiàng)目頁面獲取詳細(xì)資料,為這一技術(shù)的進(jìn)一步發(fā)展貢獻(xiàn)力量。
Q&A
Q1:2D高斯涂抹技術(shù)與傳統(tǒng)圖片修復(fù)方法有什么不同?
A:傳統(tǒng)方法像用顏料塊拼接,容易在邊界產(chǎn)生不自然的痕跡。而2D高斯涂抹技術(shù)把圖片看作由無數(shù)個柔和光斑組成,通過光斑的重疊融合來修復(fù)缺失部分,就像水彩畫的自然暈染效果,修復(fù)后的圖片更加連續(xù)自然。
Q2:這種技術(shù)能處理多大面積的圖片缺失?
A:研究顯示該技術(shù)可以處理20%-60%面積的圖片缺失。對于小面積缺失(20%-40%),修復(fù)效果非常好;對于大面積缺失(40%-60%),通過DINO語義指導(dǎo)和適應(yīng)模塊,仍能保持較好的修復(fù)質(zhì)量和語義一致性。
Q3:普通用戶什么時候能用到這項(xiàng)技術(shù)?
A:目前研究團(tuán)隊(duì)已經(jīng)將代碼在GitHub開源,技術(shù)開發(fā)者可以立即使用。對于普通用戶,這項(xiàng)技術(shù)可能很快會集成到手機(jī)照片編輯應(yīng)用或在線圖片處理工具中,讓大家能夠輕松修復(fù)老照片或去除照片中的不需要元素。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價(jià)值。