av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 華中科技大學(xué)團隊打造"照相機快門"神技:兩張照片瞬間生成完整3D人像

華中科技大學(xué)團隊打造"照相機快門"神技:兩張照片瞬間生成完整3D人像

2025-10-10 13:59
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-10 13:59 ? 科技行者

在科幻電影中,我們經(jīng)常看到這樣的場景:只需要輕輕按下快門拍攝幾張照片,電腦就能瞬間生成一個栩栩如生的3D人物模型。如今,這個夢想正在變成現(xiàn)實。華中科技大學(xué)聯(lián)合華為公司和上海交通大學(xué)的研究團隊,在2025年8月發(fā)表了一項突破性研究成果,論文編號為arXiv:2508.14892v1。他們開發(fā)出了一套名為"Snap-Snap"的系統(tǒng),只需要拍攝人體正面和背面兩張照片,就能在190毫秒內(nèi)生成完整的3D人體模型。

這項研究的核心創(chuàng)新在于徹底改變了傳統(tǒng)3D人體重建的復(fù)雜流程。過去,如果你想要創(chuàng)建一個3D數(shù)字人像,要么需要昂貴的專業(yè)設(shè)備和多角度攝像頭陣列,要么需要依賴復(fù)雜的人體先驗?zāi)P?,整個過程不僅成本高昂,而且耗時漫長。研究團隊巧妙地將這個復(fù)雜問題轉(zhuǎn)化為一個"拼圖游戲":雖然你只給了我正面和背面兩塊拼圖,但我能夠通過智能推理把側(cè)面的拼圖也"想象"出來,最終拼出一個完整的3D人體。

研究團隊由華中科技大學(xué)的陸佳、易桃然、吳楚云、劉文予、汪興剛,華為公司的房杰民、田奇,以及上海交通大學(xué)的楊晨、沈偉組成。他們面臨的最大挑戰(zhàn)是如何處理正面和背面照片之間幾乎沒有重疊信息的問題。這就像你要根據(jù)一枚硬幣的正反兩面,推測出它的側(cè)面會是什么樣子。傳統(tǒng)方法在這種極端稀疏的輸入條件下往往失效,而他們創(chuàng)造性地設(shè)計了一套全新的幾何重建模型。

整個Snap-Snap系統(tǒng)的工作原理可以比作一位經(jīng)驗豐富的雕塑家的創(chuàng)作過程。當(dāng)?shù)袼芗铱吹侥L氐恼婧捅趁婧?,他能夠憑借對人體結(jié)構(gòu)的深度理解,推斷出側(cè)面的形狀和細節(jié)。Snap-Snap系統(tǒng)也是如此,它首先通過大量人體數(shù)據(jù)的訓(xùn)練,學(xué)會了人體的基本幾何規(guī)律。當(dāng)輸入兩張照片時,系統(tǒng)會預(yù)測出四個視角的完整點云數(shù)據(jù),包括正面、背面以及左右兩個側(cè)面。

在點云預(yù)測階段,系統(tǒng)采用了重新設(shè)計的幾何重建模型。這個模型基于先進的DUSt3R幾何重建基礎(chǔ)模型,但針對人體重建進行了專門優(yōu)化。系統(tǒng)會為正面和背面視角分別設(shè)置預(yù)測頭,同時額外增加了兩個側(cè)面預(yù)測頭。這些側(cè)面預(yù)測頭的輸入來自正面和背面信息的平均融合,通過訓(xùn)練學(xué)會了如何從有限信息中推斷缺失的幾何結(jié)構(gòu)。為了確保預(yù)測的點云與真實世界坐標(biāo)系對齊,系統(tǒng)還引入了一個可學(xué)習(xí)的縮放參數(shù),自動調(diào)整人體比例。

僅有幾何信息還不夠完整,因為側(cè)面點云缺少顏色信息。研究團隊開發(fā)了一套側(cè)面增強算法來解決這個問題。這個過程就像給黑白照片上色,系統(tǒng)使用最近鄰搜索算法,將正面和背面的顏色信息"轉(zhuǎn)移"到側(cè)面點云上。具體來說,對于每個側(cè)面點,系統(tǒng)會在已知的正面和背面彩色點云中找到距離最近的點,然后將其顏色賦予給側(cè)面點。通過這種方式,系統(tǒng)能夠生成具有完整顏色信息的四視角點云。

最后一個關(guān)鍵步驟是高斯屬性回歸。傳統(tǒng)的點云表示雖然能夠描述幾何形狀,但在渲染質(zhì)量方面存在局限性。為了獲得更好的視覺效果,系統(tǒng)將點云轉(zhuǎn)換為3D高斯表示。每個3D高斯不僅包含位置信息,還包含顏色、不透明度、縮放和旋轉(zhuǎn)等屬性。系統(tǒng)使用一個UNet架構(gòu)的網(wǎng)絡(luò)來回歸這些高斯屬性,輸入包括四個視角的點云和圖像信息,輸出對應(yīng)的高斯參數(shù)。最終,所有視角的高斯被拼接在一起,形成完整的3D人體表示。

在訓(xùn)練過程中,研究團隊采用了兩階段訓(xùn)練策略。第一階段專門訓(xùn)練點云預(yù)測網(wǎng)絡(luò),使用3D點云和2D掩碼作為監(jiān)督信號,確保預(yù)測的點云在幾何上準(zhǔn)確。第二階段訓(xùn)練高斯回歸網(wǎng)絡(luò),通過可微分的渲染過程,使用渲染圖像與真實圖像的差異作為訓(xùn)練信號,優(yōu)化視覺質(zhì)量。這種分階段訓(xùn)練確保了系統(tǒng)在幾何準(zhǔn)確性和視覺質(zhì)量方面都能達到較高水準(zhǔn)。

研究團隊在多個數(shù)據(jù)集上進行了全面評估。在THuman2.0數(shù)據(jù)集上,Snap-Snap在峰值信噪比(PSNR)、結(jié)構(gòu)相似性指數(shù)(SSIM)和感知圖像質(zhì)量(LPIPS)等關(guān)鍵指標(biāo)上都超越了現(xiàn)有方法。特別值得注意的是,即使與使用5個視角的GPS-Gaussian方法相比,Snap-Snap僅用2個視角就取得了更好的重建質(zhì)量。與需要人體先驗?zāi)P偷腉HG方法相比,Snap-Snap不僅在質(zhì)量上占優(yōu),在推理速度上更是實現(xiàn)了數(shù)十倍的提升。

在跨域評估中,系統(tǒng)在2K2K和4D-Dress數(shù)據(jù)集上也表現(xiàn)出色,證明了其良好的泛化能力。研究團隊還專門測試了系統(tǒng)對寬松服裝的處理能力。由于不依賴SMPL-X等人體先驗?zāi)P?,Snap-Snap能夠更好地重建寬松衣物,這是基于人體先驗方法的一個重要局限性。

更令人興奮的是,研究團隊還驗證了系統(tǒng)在實際應(yīng)用中的可行性。他們使用兩部普通手機搭建了簡易的拍攝裝置,證明即使是低成本的移動設(shè)備也能采集到足夠質(zhì)量的數(shù)據(jù)進行重建。這大大降低了3D人體重建的門檻,使普通用戶也能輕松創(chuàng)建自己的3D數(shù)字分身。

在計算效率方面,Snap-Snap展現(xiàn)出了顯著優(yōu)勢。整個重建過程在單張NVIDIA RTX 4090顯卡上只需要190毫秒,其中點云預(yù)測占用91毫秒,高斯回歸需要87毫秒,側(cè)面增強僅需12毫秒。這種毫秒級的推理速度為實時應(yīng)用奠定了基礎(chǔ),使得3D人體重建從實驗室技術(shù)轉(zhuǎn)向?qū)嶋H應(yīng)用成為可能。

研究團隊進行了詳盡的消融實驗來驗證系統(tǒng)各個組件的重要性。實驗表明,側(cè)面預(yù)測頭的引入顯著提升了重建完整性,避免了人體模型出現(xiàn)明顯缺失。側(cè)面增強算法的使用進一步改善了紋理一致性,特別是在側(cè)面區(qū)域的視覺質(zhì)量。基礎(chǔ)幾何重建模型的預(yù)訓(xùn)練權(quán)重也被證明對最終性能至關(guān)重要,體現(xiàn)了利用通用幾何先驗知識的價值。

與單視角重建方法的對比進一步突出了雙視角方案的優(yōu)勢。雖然單視角方法在便利性上更勝一籌,但往往需要依賴生成模型來補充缺失信息,這導(dǎo)致重建結(jié)果的可控性較差。Snap-Snap通過使用正面和背面兩個互補視角,在保持便利性的同時顯著提升了重建質(zhì)量和一致性。

在可擴展性方面,研究團隊發(fā)現(xiàn)隨著訓(xùn)練數(shù)據(jù)量的增加,系統(tǒng)性能還有進一步提升的空間。當(dāng)訓(xùn)練數(shù)據(jù)從426個掃描增加到2992個時,重建質(zhì)量得到了明顯改善,這表明該方法具有良好的數(shù)據(jù)擴展性,未來有望通過更大規(guī)模的數(shù)據(jù)訓(xùn)練獲得更好的效果。

這項研究的意義遠不止技術(shù)突破本身。在虛擬現(xiàn)實和增強現(xiàn)實快速發(fā)展的今天,高質(zhì)量、低成本的3D人體重建技術(shù)將為數(shù)字內(nèi)容創(chuàng)作、游戲開發(fā)、虛擬會議、在線購物試衣等領(lǐng)域帶來革命性變化。普通用戶將能夠輕松創(chuàng)建自己的3D化身,參與到元宇宙等新興數(shù)字生態(tài)中。

從技術(shù)發(fā)展趨勢來看,Snap-Snap代表了3D重建領(lǐng)域向?qū)嵱没~出的重要一步。它成功地在重建質(zhì)量、計算效率和使用便利性之間找到了平衡點,為后續(xù)研究指明了方向。同時,該方法的通用性也為其在其他3D重建任務(wù)中的應(yīng)用提供了可能。

當(dāng)然,目前的系統(tǒng)仍然存在一些改進空間。研究團隊指出,在某些遮擋嚴(yán)重的區(qū)域,如腋下或手臂遮擋的部位,重建結(jié)果可能出現(xiàn)空洞。這主要是由于點云監(jiān)督信號本身的局限性造成的。未來可以考慮引入幾何生成先驗來改善這些問題。

總的來說,Snap-Snap系統(tǒng)展示了人工智能在3D視覺理解方面的巨大潛力。它不僅在技術(shù)上實現(xiàn)了突破,更重要的是為3D數(shù)字內(nèi)容的大眾化創(chuàng)作鋪平了道路。隨著技術(shù)的不斷完善和應(yīng)用的推廣,我們有理由相信,在不久的將來,每個人都能夠輕松擁有自己的3D數(shù)字分身,參與到更加豐富多彩的數(shù)字世界中。

Q&A

Q1:Snap-Snap系統(tǒng)只用兩張照片就能生成3D人像,準(zhǔn)確度如何?

A:Snap-Snap在多個專業(yè)數(shù)據(jù)集上的測試顯示,其重建質(zhì)量甚至超過了使用5個視角的傳統(tǒng)方法。在關(guān)鍵評估指標(biāo)上,包括圖像質(zhì)量、結(jié)構(gòu)相似性等方面都表現(xiàn)優(yōu)異,特別是在處理寬松服裝時效果更佳,因為它不依賴可能不準(zhǔn)確的人體先驗?zāi)P汀?/p>

Q2:普通人能使用Snap-Snap技術(shù)嗎?需要什么設(shè)備?

A:研究團隊已經(jīng)驗證了使用普通手機就能采集到足夠質(zhì)量的數(shù)據(jù)。他們用兩部手機搭建了簡易拍攝裝置,證明低成本移動設(shè)備完全可以滿足需求。整個重建過程只需要190毫秒,為實際應(yīng)用奠定了基礎(chǔ)。

Q3:Snap-Snap與傳統(tǒng)3D人體重建方法相比有什么優(yōu)勢?

A:傳統(tǒng)方法要么需要昂貴的多視角攝像設(shè)備,要么依賴復(fù)雜的人體先驗?zāi)P?,成本高且耗時長。Snap-Snap只需兩張照片就能在毫秒級時間內(nèi)完成重建,大大降低了技術(shù)門檻和使用成本,同時在重建質(zhì)量上還能超越許多傳統(tǒng)方法。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-