這項(xiàng)由北京智源人工智能研究院(BAAI)的趙昊研究員領(lǐng)導(dǎo),聯(lián)合北京航空航天大學(xué)、南京大學(xué)、清華大學(xué)、北京師范大學(xué)、日本國立信息學(xué)研究所、北京大學(xué)和香港科技大學(xué)的多位學(xué)者共同完成的重要研究,發(fā)表于2025年6月23日的計(jì)算機(jī)視覺領(lǐng)域頂級(jí)會(huì)議。感興趣的讀者可以通過論文編號(hào)arXiv:2506.18882v1獲取完整研究資料。
在我們的日常生活中,當(dāng)陽光從不同角度照射在一個(gè)蘋果上時(shí),蘋果的明暗會(huì)發(fā)生變化,但蘋果本身的形狀和表面紋理是不變的。人眼能夠輕松地從這些不同光照下的圖像中識(shí)別出蘋果真實(shí)的表面細(xì)節(jié)。然而,讓計(jì)算機(jī)做到這一點(diǎn)卻是一個(gè)極其復(fù)雜的挑戰(zhàn)。這就是攝影測量學(xué)中"光度立體視覺"要解決的核心問題。
傳統(tǒng)的方法就像是給計(jì)算機(jī)配了一副有色眼鏡,只能在特定的照明條件下工作。如果光線稍有變化,這些方法就會(huì)完全失效,就像一個(gè)人突然失明一樣。更要命的是,這些傳統(tǒng)方法需要事先知道光源的確切位置和強(qiáng)度,這在現(xiàn)實(shí)世界中幾乎是不可能的。
研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:當(dāng)他們觀察不同方法提取的圖像特征時(shí),那些表現(xiàn)更好的方法往往能產(chǎn)生更加一致的特征。這就像是優(yōu)秀的廚師總能從不同的食材中提取出相似的味道精華一樣。這個(gè)發(fā)現(xiàn)讓研究團(tuán)隊(duì)意識(shí)到,問題的關(guān)鍵在于如何讓計(jì)算機(jī)學(xué)會(huì)將光照信息和物體表面信息分開處理。
在現(xiàn)實(shí)世界中,當(dāng)我們?cè)诓┪镳^里用手機(jī)從不同角度拍攝一件雕塑時(shí),每張照片都受到不同方向燈光的影響。這些照片中,有些部分明亮,有些部分陰暗,但雕塑本身的形狀是固定不變的。計(jì)算機(jī)面臨的挑戰(zhàn)就是要從這些變化多端的照片中,準(zhǔn)確提取出雕塑真實(shí)的表面細(xì)節(jié)和紋理。
為了解決這個(gè)問題,研究團(tuán)隊(duì)開發(fā)了一套名為LINO-UniPS的全新系統(tǒng)。這個(gè)系統(tǒng)的工作原理就像是配備了三個(gè)不同專長的助手的超級(jí)偵探。第一個(gè)助手專門負(fù)責(zé)識(shí)別環(huán)境光照,第二個(gè)助手專門處理點(diǎn)光源,第三個(gè)助手則負(fù)責(zé)處理定向光源。這三個(gè)助手通過相互協(xié)作,能夠準(zhǔn)確地從復(fù)雜的圖像中分離出光照信息和物體表面信息。
系統(tǒng)的核心創(chuàng)新在于引入了"光照寄存器令牌"的概念。這就像是給每種類型的光源配備了專門的收集器,這些收集器能夠在處理圖像時(shí)自動(dòng)識(shí)別并收集相應(yīng)的光照信息。當(dāng)系統(tǒng)遇到一張新圖像時(shí),這些收集器會(huì)自動(dòng)工作,將光照信息從物體表面信息中分離出來,就像磁鐵能夠?qū)㈣F屑從沙子中分離出來一樣。
在處理圖像細(xì)節(jié)方面,研究團(tuán)隊(duì)采用了小波變換技術(shù)。這種技術(shù)就像是配備了不同焦距鏡頭的相機(jī),能夠同時(shí)捕捉圖像的整體輪廓和精細(xì)紋理。傳統(tǒng)方法在處理圖像時(shí)往往會(huì)丟失一些重要的細(xì)節(jié)信息,就像用粗糙的畫筆作畫會(huì)模糊掉精細(xì)的線條一樣。而小波變換技術(shù)能夠保持這些珍貴的細(xì)節(jié)信息不丟失。
為了訓(xùn)練這個(gè)系統(tǒng),研究團(tuán)隊(duì)還創(chuàng)建了一個(gè)名為PS-Verse的大型數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包含了10萬個(gè)不同復(fù)雜程度的場景,就像是為系統(tǒng)準(zhǔn)備了一個(gè)從簡單到復(fù)雜的漸進(jìn)式訓(xùn)練課程。數(shù)據(jù)集被分為五個(gè)難度等級(jí),從最簡單的幾何形狀到極其復(fù)雜的表面紋理,確保系統(tǒng)能夠逐步掌握各種情況下的處理能力。
特別值得一提的是,研究團(tuán)隊(duì)首次在數(shù)據(jù)生成過程中使用了法線貼圖技術(shù)。這種技術(shù)能夠在不增加幾何復(fù)雜度的情況下,為簡單的三維模型添加極其豐富的表面細(xì)節(jié)。這就像是給一個(gè)平滑的氣球表面畫上復(fù)雜的紋理,從遠(yuǎn)處看起來就像是真的有這些凹凸不平的細(xì)節(jié)一樣。
在具體的技術(shù)實(shí)現(xiàn)上,系統(tǒng)采用了交替注意力機(jī)制。這種機(jī)制讓系統(tǒng)能夠同時(shí)關(guān)注局部細(xì)節(jié)和全局信息,就像一個(gè)經(jīng)驗(yàn)豐富的畫家既能把握整幅畫的構(gòu)圖,又不會(huì)忽略任何一個(gè)細(xì)節(jié)。系統(tǒng)通過四個(gè)層次的注意力處理:首先關(guān)注單張圖像內(nèi)的信息,然后處理不同光照條件下的信息,接著進(jìn)行全局信息整合,最后再次優(yōu)化光照軸向的信息處理。
為了確保系統(tǒng)能夠準(zhǔn)確地識(shí)別不同類型的光源,研究團(tuán)隊(duì)設(shè)計(jì)了一套光源對(duì)齊策略。在訓(xùn)練過程中,系統(tǒng)會(huì)學(xué)習(xí)將收集到的光照信息與已知的光源類型進(jìn)行匹配。這個(gè)過程使用余弦相似度作為監(jiān)督信號(hào),確保系統(tǒng)能夠準(zhǔn)確區(qū)分環(huán)境光、點(diǎn)光源和定向光源的特征。
系統(tǒng)還引入了法線梯度感知損失函數(shù)。這個(gè)函數(shù)的作用是讓系統(tǒng)更加關(guān)注那些幾何變化劇烈的區(qū)域。在這些區(qū)域,表面法線變化很快,包含了豐富的幾何信息。通過這種設(shè)計(jì),系統(tǒng)能夠在重建物體表面時(shí)特別保留這些重要的細(xì)節(jié)信息。
在實(shí)驗(yàn)驗(yàn)證階段,研究團(tuán)隊(duì)在多個(gè)公開數(shù)據(jù)集上測試了新系統(tǒng)的性能。結(jié)果顯示,LINO-UniPS在幾乎所有測試指標(biāo)上都明顯優(yōu)于現(xiàn)有的最先進(jìn)方法。特別是在處理具有復(fù)雜幾何結(jié)構(gòu)的物體時(shí),新系統(tǒng)的優(yōu)勢更加明顯。
在DiLiGenT基準(zhǔn)測試中,新系統(tǒng)在10個(gè)測試對(duì)象中取得了最多的最佳結(jié)果,平均角度誤差降低到了4.74度,相比之前的最佳方法有顯著改善。在LUCES數(shù)據(jù)集上的測試結(jié)果更加令人驚喜,新系統(tǒng)的平均誤差只有9.48度,遠(yuǎn)低于其他競爭方法。
特別有趣的是,研究團(tuán)隊(duì)還測試了一個(gè)簡化版本的系統(tǒng),將復(fù)雜的解碼器替換為簡單的多層感知器。令人驚訝的是,即使使用這樣簡化的解碼器,系統(tǒng)仍然能夠顯著超越其他復(fù)雜的競爭方法。這個(gè)結(jié)果有力地證明了新編碼器設(shè)計(jì)的優(yōu)越性。
在處理真實(shí)世界數(shù)據(jù)時(shí),新系統(tǒng)同樣表現(xiàn)出色。無論是博物館中的文物、日常生活中的物品,還是工業(yè)場景中的機(jī)械零件,系統(tǒng)都能夠準(zhǔn)確重建出細(xì)致的表面細(xì)節(jié)。這種強(qiáng)大的泛化能力使得系統(tǒng)在實(shí)際應(yīng)用中具有巨大的潛力。
研究團(tuán)隊(duì)還特別關(guān)注了系統(tǒng)的計(jì)算效率。雖然引入了全局注意力機(jī)制會(huì)增加一定的計(jì)算負(fù)擔(dān),但相比于一些需要多尺度處理的競爭方法,新系統(tǒng)的推理速度仍然相對(duì)較快。在H100 GPU上處理16張512×512分辨率的圖像只需要大約2秒鐘。
值得注意的是,研究團(tuán)隊(duì)誠實(shí)地指出了系統(tǒng)的一些局限性。對(duì)于一些近似平面但具有精細(xì)凹凸細(xì)節(jié)的物體,系統(tǒng)有時(shí)會(huì)出現(xiàn)表面法線方向判斷錯(cuò)誤的情況。這主要是因?yàn)樵跊]有明確光源信息的情況下,系統(tǒng)難以準(zhǔn)確判斷光線的來源方向。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面的突破。在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)應(yīng)用中,準(zhǔn)確的表面重建是創(chuàng)造逼真虛擬環(huán)境的關(guān)鍵。在文物保護(hù)領(lǐng)域,這種技術(shù)能夠幫助博物館創(chuàng)建文物的高精度數(shù)字副本。在工業(yè)檢測中,精確的表面分析對(duì)于質(zhì)量控制至關(guān)重要。在電影和游戲制作中,這種技術(shù)能夠大大簡化數(shù)字資產(chǎn)的創(chuàng)建流程。
研究團(tuán)隊(duì)的工作還體現(xiàn)了現(xiàn)代人工智能研究的一個(gè)重要趨勢:通過深入理解問題的本質(zhì),設(shè)計(jì)更加智能和高效的解決方案。與簡單地增加模型復(fù)雜度相比,這種方法更加注重解決問題的根本原理,因此能夠取得更加持久和廣泛的成功。
從技術(shù)發(fā)展的角度來看,這項(xiàng)研究為計(jì)算機(jī)視覺領(lǐng)域提供了一個(gè)新的思路:如何更好地處理復(fù)雜的多模態(tài)信息。光照和幾何信息的分離處理不僅適用于光度立體視覺,也可能為其他相關(guān)領(lǐng)域提供借鑒。
說到底,這項(xiàng)研究成功地讓計(jì)算機(jī)獲得了一種類似人眼的能力:能夠從變化的光照中準(zhǔn)確識(shí)別物體的真實(shí)形狀和紋理。這種能力的實(shí)現(xiàn)不僅代表了技術(shù)上的重大進(jìn)步,更為我們打開了通向更智能、更精確的計(jì)算機(jī)視覺系統(tǒng)的大門。未來,當(dāng)我們用手機(jī)掃描一個(gè)物體就能立即獲得其精確的三維模型時(shí),這項(xiàng)研究的價(jià)值將會(huì)得到最好的體現(xiàn)。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過arXiv:2506.18882v1獲取完整的研究論文。
Q&A
Q1:什么是光度立體視覺技術(shù)?它能做什么? A:光度立體視覺是一種讓計(jì)算機(jī)從多張不同光照條件下的照片中重建物體表面細(xì)節(jié)的技術(shù)。就像人眼能從不同角度的光線中看清物體真實(shí)形狀一樣,這種技術(shù)讓計(jì)算機(jī)也具備了這種能力,可以用于文物數(shù)字化、工業(yè)檢測、虛擬現(xiàn)實(shí)等領(lǐng)域。
Q2:LINO-UniPS比傳統(tǒng)方法有什么優(yōu)勢? A:傳統(tǒng)方法需要事先知道光源位置和強(qiáng)度,就像戴著有色眼鏡只能在特定條件下工作。而LINO-UniPS能夠自動(dòng)識(shí)別和分離不同類型的光照信息,在任何光照條件下都能準(zhǔn)確重建物體表面,而且處理細(xì)節(jié)的能力更強(qiáng),誤差更小。
Q3:這項(xiàng)技術(shù)會(huì)在日常生活中如何應(yīng)用? A:未來你可能只需要用手機(jī)從不同角度拍幾張照片,就能立即獲得物體的精確三維模型。這可以用于在線購物的商品展示、文物保護(hù)的數(shù)字存檔、醫(yī)療影像的精確分析,甚至是游戲和電影中逼真場景的快速創(chuàng)建。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評(píng)估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。