這項由清華大學(xué)自動化系王子一、張彥然、周杰和呂建偉教授團隊完成的研究發(fā)表于2025年6月的arXiv預(yù)印本平臺,論文編號為arXiv:2506.09952v1。這項研究首次提出了一個真正"通用"的3D點云預(yù)訓(xùn)練方法UniPre3D,突破了以往方法只能處理特定規(guī)模數(shù)據(jù)的局限。有興趣深入了解的讀者可以通過https://github.com/wangzy22/UniPre3D訪問項目代碼和完整論文。
想象一下,如果你要教一個從未見過世界的孩子認(rèn)識物體,你會怎么做?你可能會先給他看一個蘋果的照片,然后讓他從不同角度觀察真實的蘋果,最后他就能理解什么是"蘋果"。計算機學(xué)習(xí)3D世界的過程其實也很相似,但問題在于,過去的方法就像是用不同的教學(xué)方式分別教孩子認(rèn)識"玩具"和"房子"——對于小物件用一套方法,對于大場景又用另一套完全不同的方法。這就造成了一個尷尬的局面:專門認(rèn)識玩具的"學(xué)生"看到房子就懵了,而專門認(rèn)識房子的"學(xué)生"看到玩具也不知所措。
清華大學(xué)的研究團隊意識到了這個問題的關(guān)鍵所在。在我們的日常生活中,無論是拍攝一個茶杯還是拍攝整個客廳,照片的像素數(shù)量和信息密度都相對接近。但是在3D世界里,一個茶杯可能只包含1000多個點,而一個完整的室內(nèi)場景卻可能包含超過10萬個點——相差上百倍。這就像是要求同一個老師既要教幼兒園的簡單算術(shù),又要教大學(xué)的高等數(shù)學(xué),難度差異實在太大。
現(xiàn)有的3D學(xué)習(xí)方法因此被迫"分工合作"。處理小物件的方法擅長捕捉精細的幾何結(jié)構(gòu),就像顯微鏡一樣能看清楚細節(jié),但面對龐大的場景數(shù)據(jù)就力不從心。而處理大場景的方法善于把握整體關(guān)系,就像望遠鏡一樣能看到全景,但處理小物件時又會丟失重要的細節(jié)信息。更關(guān)鍵的是,目前還沒有一種預(yù)訓(xùn)練方法能夠同時適用于這兩種截然不同的數(shù)據(jù)規(guī)模。
研究團隊的突破性想法是:既然2D圖像不存在這種規(guī)模差異問題,為什么不把3D數(shù)據(jù)"翻譯"成2D圖像來處理呢?就像把復(fù)雜的立體拼圖投影到墻上的影子,然后通過分析這些影子來理解原本的立體結(jié)構(gòu)。他們選擇了一種叫做"3D高斯噴射"的技術(shù)作為這個"翻譯器",這種技術(shù)就像是有一臺神奇的投影儀,能夠把3D點云數(shù)據(jù)變成逼真的2D圖像。
這個想法聽起來簡單,但實現(xiàn)起來卻充滿挑戰(zhàn)。想象你要把一座山的地形圖轉(zhuǎn)換成不同角度的風(fēng)景照片,你需要知道每個位置的高度、顏色、材質(zhì)等信息,還要考慮光照、陰影等因素。3D高斯噴射技術(shù)的巧妙之處在于,它用一系列"高斯原語"來描述3D空間中的每個區(qū)域,每個原語都包含位置、形狀、透明度和顏色等屬性,就像是用無數(shù)個半透明的彩色氣球來重建整個3D世界。
但是僅僅有這個"翻譯器"還不夠。研究團隊發(fā)現(xiàn),對于不同規(guī)模的數(shù)據(jù),需要采用不同的融合策略。對于小物件,比如一把椅子或一個花瓶,由于缺乏顏色信息(通常只有幾何形狀數(shù)據(jù)),他們設(shè)計了"特征融合"策略,就像給黑白照片上色一樣,從預(yù)訓(xùn)練的圖像模型中借用顏色和紋理知識。而對于大場景,比如整個房間或辦公室,由于數(shù)據(jù)過于稀疏和復(fù)雜,他們采用了"點融合"策略,相當(dāng)于在原有的3D點云中添加更多的"虛擬點"來增加密度,讓整個場景變得更加豐富和易于處理。
在具體實現(xiàn)過程中,整個系統(tǒng)就像一個精密的工廠流水線。首先,3D點云數(shù)據(jù)進入"特征提取車間",由專門的骨干網(wǎng)絡(luò)提取基本特征。同時,參考圖像進入"圖像處理車間",由預(yù)訓(xùn)練的圖像模型提取顏色和紋理信息。接下來,這兩路信息在"融合車間"中巧妙結(jié)合,根據(jù)數(shù)據(jù)規(guī)模選擇不同的融合策略。最后,融合后的特征送入"高斯預(yù)測車間",生成描述3D場景的高斯原語參數(shù),再通過"渲染車間"生成最終的2D圖像進行監(jiān)督學(xué)習(xí)。
研究團隊還解決了一個重要的技術(shù)細節(jié):如何建立2D圖像像素和3D點云點之間的對應(yīng)關(guān)系。對于物體級別的數(shù)據(jù),由于缺乏深度信息,他們采用了"從3D到2D"的投影方法,就像用手電筒照射物體在墻上產(chǎn)生影子,然后根據(jù)影子的位置找到對應(yīng)的3D點。而對于場景級別的數(shù)據(jù),由于有真實的深度圖,他們可以直接使用"從2D到3D"的反投影方法,就像通過GPS坐標(biāo)準(zhǔn)確定位地面上的每個位置。
為了驗證這個方法的有效性,研究團隊進行了極其全面的實驗驗證。在物體級別的任務(wù)中,他們選擇了從傳統(tǒng)的Transformer架構(gòu)到最新的Mamba3D等多種不同的骨干網(wǎng)絡(luò)進行測試。在ScanObjectNN數(shù)據(jù)集的分類任務(wù)中,UniPre3D在最具挑戰(zhàn)性的PB_T50_RS分割上達到了87.93%的準(zhǔn)確率,顯著超越了之前的方法。更令人印象深刻的是,即使在已經(jīng)具有很高基線性能的Mamba3D模型上(92.6%),UniPre3D仍然能夠?qū)⑵涮嵘?3.4%,這種持續(xù)的改進能力充分說明了方法的魯棒性。
在場景級別的任務(wù)中,實驗結(jié)果同樣令人振奮。在ScanNet20語義分割任務(wù)中,使用SparseUNet作為骨干網(wǎng)絡(luò)的UniPre3D達到了75.8%的mIoU,超越了大多數(shù)現(xiàn)有的對比學(xué)習(xí)方法。特別值得注意的是,在更具挑戰(zhàn)性的ScanNet200數(shù)據(jù)集上,UniPre3D表現(xiàn)出了卓越的性能,這個數(shù)據(jù)集包含200個類別且呈現(xiàn)長尾分布,對方法的泛化能力提出了極高要求。當(dāng)使用更先進的PointTransformerV3作為骨干網(wǎng)絡(luò)時,UniPre3D將ScanNet200上的性能從35.2%提升到36.0%,這種提升在如此高的基線上尤為珍貴。
研究團隊還進行了詳盡的消融實驗來驗證設(shè)計選擇的合理性。他們發(fā)現(xiàn),對于物體級別的預(yù)訓(xùn)練,在最后一個解碼器層進行特征融合效果最佳,過多的融合層反而會降低性能,這可能是因為模型過度依賴2D特征而限制了3D骨干網(wǎng)絡(luò)的學(xué)習(xí)能力。對于場景級別的預(yù)訓(xùn)練,點融合策略顯著優(yōu)于特征融合策略,這證實了不同規(guī)模數(shù)據(jù)需要不同處理策略的設(shè)計理念。此外,他們還驗證了參考視圖數(shù)量的影響,發(fā)現(xiàn)8個參考視圖是最優(yōu)選擇——太少會使預(yù)訓(xùn)練任務(wù)過于復(fù)雜,太多則會使任務(wù)過于簡單。
從技術(shù)創(chuàng)新的角度來看,UniPre3D的最大突破在于首次實現(xiàn)了真正意義上的"統(tǒng)一"3D預(yù)訓(xùn)練。過去的方法就像是專門的工具,螺絲刀只能擰螺絲,榔頭只能敲釘子。而UniPre3D更像是一把瑞士軍刀,不同的功能模塊可以根據(jù)任務(wù)需求靈活組合使用。這種設(shè)計哲學(xué)的轉(zhuǎn)變意義深遠,它不僅解決了當(dāng)前3D視覺領(lǐng)域的技術(shù)痛點,更為未來的通用人工智能發(fā)展提供了重要思路。
在實際應(yīng)用方面,這項技術(shù)的潛在影響面極其廣泛。在自動駕駛領(lǐng)域,車輛需要同時理解小到路邊的標(biāo)志牌、大到整個道路場景的3D信息,UniPre3D的統(tǒng)一處理能力將大大提升感知系統(tǒng)的效率和準(zhǔn)確性。在機器人技術(shù)中,家用機器人需要能夠識別桌上的杯子,也要能夠理解整個房間的布局,這種跨尺度的理解能力正是UniPre3D所提供的。在虛擬現(xiàn)實和增強現(xiàn)實應(yīng)用中,用戶既需要與小物件進行精細交互,也需要在大場景中自由移動,統(tǒng)一的3D理解能力將帶來更加流暢和自然的用戶體驗。
從方法學(xué)的角度來看,UniPre3D的成功還體現(xiàn)了跨模態(tài)學(xué)習(xí)的強大潛力。通過巧妙地結(jié)合3D幾何信息和2D視覺信息,研究團隊展示了如何讓不同模態(tài)的數(shù)據(jù)相互補充、相互促進。這種思路不僅適用于3D視覺任務(wù),也為其他多模態(tài)學(xué)習(xí)問題提供了寶貴的參考。特別是在當(dāng)前大模型時代,如何有效融合不同類型的數(shù)據(jù)已經(jīng)成為AI發(fā)展的關(guān)鍵問題,UniPre3D的設(shè)計理念具有重要的啟發(fā)意義。
研究團隊還特別關(guān)注了方法的效率問題。相比于之前的一些方法,UniPre3D在保證性能的同時顯著提升了訓(xùn)練效率。使用3D高斯噴射技術(shù)相比于NeRF渲染方法,速度提升了約一倍,這使得大規(guī)模預(yù)訓(xùn)練變得更加實際可行。在物體級別的預(yù)訓(xùn)練中,只需要一張NVIDIA 3090Ti GPU就能完成訓(xùn)練,而場景級別的預(yù)訓(xùn)練也只需要8張GPU,這種相對較低的計算需求使得更多的研究團隊和開發(fā)者能夠使用這項技術(shù)。
值得一提的是,研究團隊在實驗設(shè)計上也體現(xiàn)了科學(xué)研究的嚴(yán)謹(jǐn)性。他們不僅在多個標(biāo)準(zhǔn)數(shù)據(jù)集上進行了測試,還選擇了從經(jīng)典到最新的各種骨干網(wǎng)絡(luò)架構(gòu)進行驗證,確保結(jié)論的普適性。從傳統(tǒng)的PointNet++到最新的Mamba3D,從經(jīng)典的SparseUNet到先進的PointTransformerV3,UniPre3D都能帶來一致的性能提升,這種廣泛的適用性是該方法實用價值的重要體現(xiàn)。
在可視化結(jié)果中,我們可以清楚地看到UniPre3D的學(xué)習(xí)效果。對于物體樣本,即使只有一個參考視圖提供顏色線索,系統(tǒng)也能準(zhǔn)確預(yù)測其他視角的幾何形狀和顏色信息,這說明3D骨干網(wǎng)絡(luò)確實學(xué)會了提取robust的幾何特征。對于場景樣本,雖然渲染輸出相對模糊,但重要的幾何關(guān)系都得到了有效學(xué)習(xí),這對于下游的語義分割和實例分割任務(wù)來說已經(jīng)足夠。
當(dāng)然,這項研究也有一些局限性需要注意。首先,方法仍然需要同時使用點云和圖像數(shù)據(jù),這增加了數(shù)據(jù)收集的復(fù)雜性。其次,雖然提出了針對物體和場景的不同融合策略,但策略選擇仍需要手動決定,這在一定程度上限制了"統(tǒng)一"的程度。此外,該方法目前主要針對物體和場景兩個尺度,對于其他可能的尺度(比如城市級別的超大場景)的適用性還有待進一步驗證。
從長遠發(fā)展來看,UniPre3D代表了3D視覺領(lǐng)域向統(tǒng)一化方向發(fā)展的重要一步。在人工智能向通用智能發(fā)展的大趨勢下,能夠處理多種類型、多種規(guī)模數(shù)據(jù)的統(tǒng)一方法將變得越來越重要。正如人類視覺系統(tǒng)能夠無縫地在不同尺度間切換注意力——從觀察手中的書本到欣賞遠山的景色,未來的AI系統(tǒng)也需要具備這種跨尺度的理解能力。
研究團隊在論文中還提到了一個有趣的觀察:2D圖像領(lǐng)域不存在顯著的尺度差異問題,這啟發(fā)了他們使用圖像作為中間表示來減少3D數(shù)據(jù)的尺度差異。這種"借力打力"的思路體現(xiàn)了科學(xué)研究中的智慧——不是硬碰硬地解決問題,而是巧妙地利用已有的成熟技術(shù)來化解難題。這種方法學(xué)思路對于其他領(lǐng)域的研究也具有啟發(fā)意義。
在技術(shù)實現(xiàn)層面,UniPre3D的成功還得益于對細節(jié)的精心處理。比如在建立2D-3D對應(yīng)關(guān)系時,針對有無深度信息的不同情況采用不同的策略;在損失函數(shù)設(shè)計中,對前景和背景區(qū)域采用不同的權(quán)重;在數(shù)據(jù)增強策略中,根據(jù)參考視圖和渲染視圖的關(guān)系進行限制。這些看似微小的技術(shù)細節(jié),實際上是方法成功的重要保障。
說到底,UniPre3D的成功不僅僅是一個技術(shù)突破,更是一種思維方式的創(chuàng)新。它告訴我們,面對復(fù)雜的現(xiàn)實問題,有時候最好的解決方案不是設(shè)計更復(fù)雜的算法,而是重新審視問題的本質(zhì),找到更巧妙的解決路徑。就像這項研究一樣,通過將3D問題轉(zhuǎn)化為2D問題來解決,既保持了原問題的本質(zhì)特征,又避開了直接處理的技術(shù)難點。
對于3D視覺領(lǐng)域的研究者和從業(yè)者來說,UniPre3D提供了一個全新的研究方向和實用工具。它不僅解決了當(dāng)前的技術(shù)痛點,還為未來的發(fā)展奠定了基礎(chǔ)。我們有理由相信,隨著這類統(tǒng)一方法的不斷發(fā)展和完善,3D人工智能將在更多領(lǐng)域發(fā)揮重要作用,讓機器真正學(xué)會像人類一樣理解和感知我們生活的三維世界。這項由清華大學(xué)團隊完成的研究,無疑為這個目標(biāo)的實現(xiàn)邁出了堅實而重要的一步。有興趣進一步了解技術(shù)細節(jié)的讀者,可以訪問項目主頁https://github.com/wangzy22/UniPre3D獲取完整的代碼和實驗結(jié)果。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。