這項(xiàng)由同濟(jì)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院的王維達(dá)、何昌勇以及曾金教授團(tuán)隊(duì),聯(lián)合谷歌公司研究人員完成的突破性研究,于2025年6月30日發(fā)表在計(jì)算機(jī)視覺領(lǐng)域的重要期刊arXiv上。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)論文編號(hào)arXiv:2506.23542v1訪問(wèn)完整研究?jī)?nèi)容。
當(dāng)你拿起手機(jī)拍照時(shí),偶爾會(huì)發(fā)現(xiàn)照片有些模糊或者有奇怪的斑點(diǎn),這就是我們常說(shuō)的"噪點(diǎn)"。現(xiàn)在,這個(gè)問(wèn)題在3D相機(jī)的世界里變得更加復(fù)雜。3D相機(jī)不僅要拍攝物體的顏色,還要精確測(cè)量物體的距離,就像給每個(gè)像素都配上了一把"測(cè)距尺"。然而,當(dāng)這些"測(cè)距尺"出現(xiàn)誤差時(shí),整個(gè)3D圖像就會(huì)變得不可靠。
飛行時(shí)間(ToF)3D相機(jī)就像一個(gè)不斷發(fā)射光線并計(jì)算光線往返時(shí)間的"超級(jí)測(cè)距儀"。這種相機(jī)發(fā)射紅外光,當(dāng)光線碰到物體反彈回來(lái)時(shí),相機(jī)通過(guò)計(jì)算光線的飛行時(shí)間來(lái)確定物體的距離。這個(gè)原理很像蝙蝠用超聲波導(dǎo)航,只不過(guò)用的是光而不是聲音。然而,就像在嘈雜環(huán)境中很難聽清聲音一樣,當(dāng)環(huán)境光線復(fù)雜、物體表面反光不均勻或者距離較遠(yuǎn)時(shí),這些"光線信號(hào)"就會(huì)變得不清晰,導(dǎo)致測(cè)距出現(xiàn)誤差。
傳統(tǒng)的解決方案通常只關(guān)注單張圖片的處理,就像只看一張照片來(lái)判斷一個(gè)人的樣貌。但是,3D相機(jī)通常會(huì)連續(xù)拍攝多張圖片形成視頻流,這就為研究團(tuán)隊(duì)提供了一個(gè)絕妙的思路:為什么不利用前后幾張圖片的信息來(lái)幫助當(dāng)前圖片變得更清晰呢?這就像通過(guò)觀察一個(gè)人在不同時(shí)刻的照片來(lái)更準(zhǔn)確地判斷他的真實(shí)樣貌。
研究團(tuán)隊(duì)的核心洞察非常巧妙。他們發(fā)現(xiàn),雖然物體在不同時(shí)刻的深度值(距離信息)會(huì)因?yàn)橄鄼C(jī)移動(dòng)而發(fā)生變化,但物體內(nèi)部各個(gè)點(diǎn)之間的相互關(guān)系卻保持相對(duì)穩(wěn)定。舉個(gè)例子,茶壺的把手和壺身之間的相對(duì)位置關(guān)系,無(wú)論相機(jī)怎么移動(dòng),都基本保持不變。這種穩(wěn)定的關(guān)系可以用"圖結(jié)構(gòu)"來(lái)描述。
什么是圖結(jié)構(gòu)呢?可以把它想象成一張描述朋友關(guān)系的網(wǎng)絡(luò)圖。在這張圖中,每個(gè)人是一個(gè)點(diǎn),朋友關(guān)系用連線表示。在3D圖像中,每個(gè)像素點(diǎn)就像一個(gè)人,而像素點(diǎn)之間的相似性關(guān)系就像朋友關(guān)系。研究團(tuán)隊(duì)發(fā)現(xiàn),這種"像素朋友關(guān)系網(wǎng)"在不同時(shí)刻保持著驚人的相似性,即使具體的深度值發(fā)生了變化。
基于這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)名為GIGA-ToF的智能系統(tǒng)。這個(gè)系統(tǒng)的工作方式可以用修復(fù)古畫來(lái)類比。當(dāng)一幅古畫出現(xiàn)破損時(shí),修復(fù)師不僅會(huì)仔細(xì)觀察破損區(qū)域,還會(huì)參考畫作的其他部分以及類似風(fēng)格的其他畫作。GIGA-ToF系統(tǒng)也是如此,它不僅分析當(dāng)前圖片的問(wèn)題區(qū)域,還會(huì)參考前一幀圖片中相應(yīng)區(qū)域的信息,通過(guò)比較兩幅圖片中的"像素關(guān)系網(wǎng)絡(luò)"來(lái)做出最佳的修復(fù)決策。
這個(gè)過(guò)程分為幾個(gè)巧妙的步驟。首先,系統(tǒng)會(huì)為每一幀圖片構(gòu)建一個(gè)"像素關(guān)系圖",就像為每張照片繪制一份人際關(guān)系圖譜。然后,系統(tǒng)會(huì)尋找前后兩幀圖片中的對(duì)應(yīng)關(guān)系,這個(gè)過(guò)程類似于在兩張不同角度拍攝的合影中找到同一個(gè)人。接下來(lái)是最關(guān)鍵的"圖融合"步驟,系統(tǒng)會(huì)將前一幀的關(guān)系信息巧妙地融合到當(dāng)前幀中,就像將兩份關(guān)系圖譜合并成一份更完整、更可靠的圖譜。
為了確保融合過(guò)程的準(zhǔn)確性,研究團(tuán)隊(duì)引入了"幾何注意力機(jī)制"。這個(gè)機(jī)制就像一個(gè)智能的質(zhì)量檢查員,它會(huì)評(píng)估前一幀圖片中的每個(gè)區(qū)域?qū)Ξ?dāng)前幀的貢獻(xiàn)程度。如果某個(gè)區(qū)域因?yàn)檎趽趸蛘哌\(yùn)動(dòng)變化而變得不可靠,系統(tǒng)就會(huì)降低對(duì)它的依賴程度,轉(zhuǎn)而更多地依賴當(dāng)前幀的信息。
研究團(tuán)隊(duì)還將整個(gè)處理過(guò)程建立在堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)上。他們使用了最大后驗(yàn)概率(MAP)理論,這是一種在不確定環(huán)境中做出最優(yōu)決策的數(shù)學(xué)方法。簡(jiǎn)單來(lái)說(shuō),就像醫(yī)生診斷疾病時(shí)不僅要看癥狀,還要結(jié)合病史和經(jīng)驗(yàn)一樣,系統(tǒng)在處理每個(gè)像素時(shí)不僅考慮當(dāng)前的觀測(cè)數(shù)據(jù),還結(jié)合了對(duì)圖像應(yīng)該具有的平滑性特征的"先驗(yàn)知識(shí)"。
這種數(shù)學(xué)框架的優(yōu)勢(shì)在于,它可以被"展開"成一個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)的形式。這個(gè)過(guò)程就像將一個(gè)復(fù)雜的數(shù)學(xué)公式轉(zhuǎn)換成計(jì)算機(jī)能夠理解和執(zhí)行的程序步驟。通過(guò)這種方式,系統(tǒng)不僅具有強(qiáng)大的性能,還具有很好的可解釋性,研究人員可以清楚地理解系統(tǒng)是如何做出決策的。
為了驗(yàn)證這個(gè)方法的有效性,研究團(tuán)隊(duì)進(jìn)行了大量的實(shí)驗(yàn)。他們首先創(chuàng)建了一個(gè)名為DVToF的合成數(shù)據(jù)集,這個(gè)數(shù)據(jù)集包含了各種場(chǎng)景下的3D視頻序列,就像為系統(tǒng)準(zhǔn)備了一套完整的"練習(xí)題庫(kù)"。在這個(gè)數(shù)據(jù)集上,GIGA-ToF系統(tǒng)展現(xiàn)出了卓越的性能,在平均絕對(duì)誤差方面比現(xiàn)有最好的方法提升了37.9%,在時(shí)間一致性方面提升了13.2%。
更重要的是,研究團(tuán)隊(duì)還在真實(shí)的Kinect v2相機(jī)上測(cè)試了這個(gè)系統(tǒng)。Kinect v2是微軟開發(fā)的一款商用3D相機(jī),廣泛應(yīng)用于游戲、機(jī)器人和增強(qiáng)現(xiàn)實(shí)等領(lǐng)域。測(cè)試結(jié)果顯示,即使系統(tǒng)是在合成數(shù)據(jù)上訓(xùn)練的,它在處理真實(shí)相機(jī)數(shù)據(jù)時(shí)仍然表現(xiàn)出色,這說(shuō)明系統(tǒng)具有很強(qiáng)的泛化能力。
這種泛化能力的秘密在于系統(tǒng)設(shè)計(jì)的"可解釋性"。傳統(tǒng)的深度學(xué)習(xí)系統(tǒng)往往像一個(gè)"黑盒子",輸入數(shù)據(jù)后直接給出結(jié)果,但很難解釋中間的推理過(guò)程。而GIGA-ToF系統(tǒng)由于建立在堅(jiān)實(shí)的數(shù)學(xué)理論基礎(chǔ)上,其每一步操作都有明確的物理或數(shù)學(xué)含義,這使得系統(tǒng)能夠更好地處理訓(xùn)練時(shí)沒有見過(guò)的新情況。
在實(shí)際應(yīng)用中,這項(xiàng)技術(shù)的影響將是深遠(yuǎn)的。在機(jī)器人領(lǐng)域,更精確的3D視覺能力意味著機(jī)器人可以更安全、更精確地進(jìn)行抓取和導(dǎo)航操作。在增強(qiáng)現(xiàn)實(shí)應(yīng)用中,更穩(wěn)定的深度信息可以讓虛擬物體更真實(shí)地融入現(xiàn)實(shí)場(chǎng)景。在自動(dòng)駕駛汽車中,這種技術(shù)可以提供更可靠的環(huán)境感知能力,特別是在光線條件不佳的情況下。
醫(yī)療領(lǐng)域也將從這項(xiàng)技術(shù)中受益。許多醫(yī)療設(shè)備需要精確的3D成像能力,比如手術(shù)導(dǎo)航系統(tǒng)和康復(fù)訓(xùn)練設(shè)備。更清晰、更穩(wěn)定的3D圖像可以幫助醫(yī)生做出更準(zhǔn)確的診斷和治療決策。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的對(duì)比實(shí)驗(yàn),將GIGA-ToF與多種現(xiàn)有方法進(jìn)行了比較。這些方法包括傳統(tǒng)的數(shù)學(xué)建模方法和最新的深度學(xué)習(xí)方法。結(jié)果顯示,GIGA-ToF在幾乎所有評(píng)估指標(biāo)上都取得了最好的成績(jī),同時(shí)保持了合理的計(jì)算復(fù)雜度,這意味著它可以在普通的計(jì)算設(shè)備上實(shí)時(shí)運(yùn)行。
特別值得一提的是,研究團(tuán)隊(duì)對(duì)系統(tǒng)的各個(gè)組成部分都進(jìn)行了細(xì)致的分析,這種分析被稱為"消融實(shí)驗(yàn)"。他們逐一移除系統(tǒng)的不同部分,觀察對(duì)整體性能的影響,就像拆解一臺(tái)精密機(jī)器來(lái)理解每個(gè)零件的作用。結(jié)果顯示,圖融合機(jī)制和幾何注意力機(jī)制都對(duì)系統(tǒng)性能起到了關(guān)鍵作用,驗(yàn)證了設(shè)計(jì)思路的正確性。
在處理不同類型的噪聲時(shí),GIGA-ToF也展現(xiàn)出了強(qiáng)大的適應(yīng)性。研究團(tuán)隊(duì)測(cè)試了系統(tǒng)在面對(duì)邊緣噪聲、隨機(jī)噪聲等不同干擾時(shí)的表現(xiàn),結(jié)果顯示系統(tǒng)都能很好地應(yīng)對(duì)這些挑戰(zhàn)。這種魯棒性對(duì)于實(shí)際應(yīng)用來(lái)說(shuō)至關(guān)重要,因?yàn)檎鎸?shí)環(huán)境中的噪聲往往是復(fù)雜多樣的。
從技術(shù)發(fā)展的角度來(lái)看,這項(xiàng)研究代表了3D視覺處理領(lǐng)域的一個(gè)重要進(jìn)步。它巧妙地結(jié)合了圖信號(hào)處理、深度學(xué)習(xí)和時(shí)序信息融合等多個(gè)前沿技術(shù),為解決3D相機(jī)噪聲問(wèn)題提供了一個(gè)全新的思路。這種跨領(lǐng)域的技術(shù)融合往往能夠帶來(lái)突破性的進(jìn)展,正如這項(xiàng)研究所展現(xiàn)的那樣。
研究團(tuán)隊(duì)也誠(chéng)實(shí)地討論了當(dāng)前方法的局限性。目前的系統(tǒng)主要利用前一幀的信息來(lái)改善當(dāng)前幀,而沒有充分利用更早時(shí)刻的信息。在未來(lái)的工作中,他們計(jì)劃探索如何更有效地利用長(zhǎng)序列的時(shí)間信息,這可能會(huì)進(jìn)一步提升系統(tǒng)的性能。
另一個(gè)有趣的發(fā)現(xiàn)是,系統(tǒng)在處理不同時(shí)間間隔的圖像時(shí)表現(xiàn)出了不同的性能。當(dāng)前后兩幀的時(shí)間間隔較小時(shí),系統(tǒng)能夠獲得最佳的性能,這符合直覺,因?yàn)闀r(shí)間間隔越小,圖像之間的相似性越高。但即使在時(shí)間間隔較大的情況下,系統(tǒng)的性能仍然明顯優(yōu)于單幀處理方法,這進(jìn)一步證明了時(shí)序信息的價(jià)值。
這項(xiàng)研究的成功也得益于團(tuán)隊(duì)成員之間的有效合作。同濟(jì)大學(xué)的研究團(tuán)隊(duì)專注于算法設(shè)計(jì)和理論分析,而谷歌的研究人員則提供了豐富的工程實(shí)踐經(jīng)驗(yàn),這種產(chǎn)學(xué)合作模式為研究的成功奠定了堅(jiān)實(shí)基礎(chǔ)。
說(shuō)到底,這項(xiàng)研究解決的是一個(gè)看似技術(shù)性很強(qiáng)但實(shí)際上與我們?nèi)粘I蠲芮邢嚓P(guān)的問(wèn)題。隨著3D技術(shù)在手機(jī)、游戲設(shè)備、智能家居等消費(fèi)電子產(chǎn)品中的普及,普通用戶將直接受益于這種更精確、更穩(wěn)定的3D感知技術(shù)。當(dāng)你使用手機(jī)的人像模式拍照時(shí),當(dāng)你體驗(yàn)虛擬現(xiàn)實(shí)游戲時(shí),當(dāng)你的掃地機(jī)器人在家中導(dǎo)航時(shí),這種技術(shù)都可能在默默地發(fā)揮作用,讓這些體驗(yàn)變得更加流暢和準(zhǔn)確。
歸根結(jié)底,這項(xiàng)研究展示了科學(xué)研究如何通過(guò)巧妙的洞察和精心的設(shè)計(jì)來(lái)解決實(shí)際問(wèn)題。通過(guò)發(fā)現(xiàn)并利用時(shí)序圖像中的不變關(guān)系,研究團(tuán)隊(duì)不僅解決了3D相機(jī)的噪聲問(wèn)題,還為相關(guān)領(lǐng)域的研究提供了新的思路和方法。有興趣了解更多技術(shù)細(xì)節(jié)的讀者可以通過(guò)arXiv:2506.23542v1訪問(wèn)完整的研究論文,深入了解這項(xiàng)令人印象深刻的技術(shù)突破。
Q&A
Q1:GIGA-ToF技術(shù)是什么?它能解決什么問(wèn)題? A:GIGA-ToF是由同濟(jì)大學(xué)開發(fā)的3D相機(jī)智能降噪技術(shù)。它主要解決飛行時(shí)間(ToF)3D相機(jī)拍攝時(shí)出現(xiàn)的噪點(diǎn)和測(cè)距誤差問(wèn)題,讓3D圖像變得更清晰、更準(zhǔn)確,就像給模糊的3D照片加了一個(gè)超強(qiáng)的"美顏濾鏡"。
Q2:這項(xiàng)技術(shù)會(huì)不會(huì)很快應(yīng)用到我們的手機(jī)相機(jī)中? A:很有可能。隨著手機(jī)3D拍照功能的普及,這種技術(shù)可以讓手機(jī)的人像模式、AR功能和深度測(cè)量更加準(zhǔn)確。不過(guò)具體的商業(yè)化時(shí)間還需要看廠商的技術(shù)整合進(jìn)度。
Q3:GIGA-ToF技術(shù)相比傳統(tǒng)方法有什么優(yōu)勢(shì)? A:最大優(yōu)勢(shì)是同時(shí)利用多張圖片的信息而不是只看單張圖片,并且發(fā)現(xiàn)了圖像間的"不變關(guān)系"。實(shí)驗(yàn)顯示它比現(xiàn)有最好方法的準(zhǔn)確性提升了37.9%,時(shí)間穩(wěn)定性提升了13.2%,而且能很好地處理真實(shí)環(huán)境中的復(fù)雜情況。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。