2025年6月5日,來(lái)自斯坦福大學(xué)的Tao Sun、Liyuan Zhu、Shuran Song、Iro Armeni以及英偉達(dá)研究院的Shengyu Huang共同發(fā)表了一篇題為《矯正點(diǎn)流:通用點(diǎn)云姿態(tài)估計(jì)》的研究論文。這項(xiàng)研究剛剛在arXiv預(yù)印本平臺(tái)(arXiv:2506.05282v1)上發(fā)布,為點(diǎn)云配準(zhǔn)和形狀組裝領(lǐng)域帶來(lái)了重大突破。有興趣深入了解的讀者可以通過(guò)https://rectified-pointflow.github.io/網(wǎng)站訪問(wèn)他們的代碼和模型。
研究背景:為什么我們需要更好的點(diǎn)云姿態(tài)估計(jì)?
想象你有一把散落的拼圖碎片,需要將它們正確拼在一起。在三維世界中,這個(gè)問(wèn)題被稱為"點(diǎn)云姿態(tài)估計(jì)"——確定三維空間中各個(gè)部件的正確位置和方向,以便它們能夠完美地組合在一起。這項(xiàng)技術(shù)在計(jì)算機(jī)視覺(jué)和機(jī)器人領(lǐng)域至關(guān)重要,應(yīng)用廣泛,從簡(jiǎn)單的兩個(gè)物體配準(zhǔn)到復(fù)雜的多部件組裝都離不開它。
傳統(tǒng)上,不同的三維推理任務(wù)——如物體姿態(tài)估計(jì)、部件配準(zhǔn)和形狀組裝——往往各自為政,采用特定任務(wù)的假設(shè)和架構(gòu)。這種分散的研究方法產(chǎn)生了在特定領(lǐng)域表現(xiàn)良好但難以泛化的解決方案。特別是多部件形狀組裝面臨著獨(dú)特的挑戰(zhàn):部件往往具有對(duì)稱性、可互換性或幾何模糊性,導(dǎo)致多種可能的局部配置。
斯坦福和英偉達(dá)的研究團(tuán)隊(duì)提出了一個(gè)全新的視角。他們將問(wèn)題重新構(gòu)想為一個(gè)條件生成任務(wù),開發(fā)了一種名為"矯正點(diǎn)流"(Rectified Point Flow)的方法,將成對(duì)點(diǎn)云配準(zhǔn)和多部件形狀組裝統(tǒng)一到一個(gè)框架中。這種方法不僅能處理部件對(duì)稱性和互換性,還能在不同數(shù)據(jù)集上進(jìn)行聯(lián)合訓(xùn)練,從而學(xué)習(xí)通用的幾何先驗(yàn)知識(shí)。
矯正點(diǎn)流:如何工作?
想象你在操控一個(gè)特殊的磁場(chǎng),這個(gè)磁場(chǎng)能將混亂的粒子(三維點(diǎn))從隨機(jī)位置引導(dǎo)到它們應(yīng)該在的正確位置。矯正點(diǎn)流正是這樣工作的——它學(xué)習(xí)一個(gè)連續(xù)的點(diǎn)流場(chǎng),將噪聲點(diǎn)云逐漸"拉"到正確組裝狀態(tài)。
具體來(lái)說(shuō),該方法包含兩個(gè)關(guān)鍵階段:自監(jiān)督重疊感知點(diǎn)編碼和條件矯正點(diǎn)流。
### 自監(jiān)督重疊感知點(diǎn)編碼:尋找拼圖的連接點(diǎn)
在第一階段,研究團(tuán)隊(duì)訓(xùn)練了一個(gè)編碼器來(lái)識(shí)別不同部件之間的潛在重疊區(qū)域。就像拼圖游戲中,我們會(huì)先尋找邊緣有相似圖案的拼圖塊一樣,這個(gè)編碼器能夠自動(dòng)學(xué)習(xí)哪些點(diǎn)可能與其他部件連接。
這個(gè)過(guò)程是完全自監(jiān)督的——不需要人工標(biāo)注。研究人員設(shè)計(jì)了一個(gè)二分類任務(wù):給定一組未定位的多部件點(diǎn)云,編碼器需要預(yù)測(cè)每個(gè)點(diǎn)是否與其他部件重疊。這種預(yù)訓(xùn)練方式比現(xiàn)有方法更輕量、更可擴(kuò)展,不依賴于水密網(wǎng)格或物理模擬,可以在各種數(shù)據(jù)集上通用。
### 條件矯正點(diǎn)流:將碎片引導(dǎo)到正確位置
第二階段是核心創(chuàng)新點(diǎn)——條件矯正點(diǎn)流。這個(gè)階段將姿態(tài)估計(jì)重新構(gòu)想為生成問(wèn)題:模型學(xué)習(xí)從隨機(jī)高斯噪聲向已組裝對(duì)象點(diǎn)云的運(yùn)動(dòng)。
想象一下,你把所有部件的點(diǎn)云都隨機(jī)散布在空間中,然后學(xué)習(xí)一種"引力場(chǎng)",這個(gè)場(chǎng)能夠?qū)⒚總€(gè)點(diǎn)拉向它在最終組裝狀態(tài)下應(yīng)該在的位置。這個(gè)過(guò)程中,模型隱式地學(xué)習(xí)了部件級(jí)別的變換,實(shí)現(xiàn)了判別式姿態(tài)估計(jì)和生成式形狀組裝的統(tǒng)一。
數(shù)學(xué)上,對(duì)于時(shí)間步t,每個(gè)部件i的點(diǎn)云Xi(t)在t=0時(shí)代表組裝后的對(duì)象,而t=1時(shí)則是獨(dú)立的高斯噪聲。矯正點(diǎn)流定義了一個(gè)在歐幾里德空間中的直線插值流,點(diǎn)從噪聲狀態(tài)流向組裝狀態(tài)。一旦模型預(yù)測(cè)了每個(gè)部件在組裝狀態(tài)下的點(diǎn)云,研究人員使用Procrustes問(wèn)題(通過(guò)SVD求解)來(lái)恢復(fù)每個(gè)部件的姿態(tài)。
### 自然處理對(duì)稱性和互換性
最令人印象深刻的是,矯正點(diǎn)流無(wú)需任何特殊處理就能自然處理部件對(duì)稱性和互換性。傳統(tǒng)方法需要復(fù)雜的對(duì)稱性處理,而矯正點(diǎn)流通過(guò)在歐幾里德空間中學(xué)習(xí)密集點(diǎn)流,天然對(duì)這些問(wèn)題具有魯棒性。
研究人員證明了學(xué)習(xí)目標(biāo)在任何組裝對(duì)稱群的作用下都保持不變。簡(jiǎn)單來(lái)說(shuō),如果兩個(gè)部件完全相同或一個(gè)部件有旋轉(zhuǎn)對(duì)稱性,模型自然會(huì)學(xué)習(xí)到這些特性,不需要顯式標(biāo)記或特殊處理。
實(shí)驗(yàn)驗(yàn)證:矯正點(diǎn)流真的更好嗎?
研究團(tuán)隊(duì)在六個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了廣泛測(cè)試,包括形狀組裝數(shù)據(jù)集(BreakingBad-Everyday、TwoByTwo、PartNet-Assembly和IKEA-Manual)和成對(duì)配準(zhǔn)數(shù)據(jù)集(TUD-L和ModelNet 40)。
結(jié)果令人印象深刻:矯正點(diǎn)流在所有基準(zhǔn)測(cè)試中都超越了現(xiàn)有最先進(jìn)的方法。在多部件組裝任務(wù)中,與最接近的競(jìng)爭(zhēng)對(duì)手GARF相比,矯正點(diǎn)流在旋轉(zhuǎn)誤差和平移誤差上取得了顯著提升。在PartNet-Assembly數(shù)據(jù)集上,部件準(zhǔn)確率從25.7%提高到53.9%,相當(dāng)于翻了一倍多。
在成對(duì)配準(zhǔn)任務(wù)上,即使與專為配準(zhǔn)設(shè)計(jì)的方法(如GeoTransformer和Diff-RPMNet)相比,矯正點(diǎn)流也展現(xiàn)出更高的準(zhǔn)確性和更強(qiáng)的泛化能力。例如,在TUD-L數(shù)據(jù)集上,5°旋轉(zhuǎn)召回率達(dá)到了97.7%,遠(yuǎn)高于競(jìng)爭(zhēng)方法。
### 聯(lián)合訓(xùn)練的驚人效果
研究中一個(gè)特別有趣的發(fā)現(xiàn)是聯(lián)合訓(xùn)練的強(qiáng)大效果。研究團(tuán)隊(duì)將成對(duì)配準(zhǔn)視為兩部件組裝任務(wù)的特例,在所有六個(gè)數(shù)據(jù)集上聯(lián)合訓(xùn)練單個(gè)模型。
這種統(tǒng)一框架使模型能夠在不同數(shù)據(jù)集之間遷移學(xué)習(xí),顯著提高了性能,特別是對(duì)于樣本量小的數(shù)據(jù)集。例如,在TwoByTwo數(shù)據(jù)集上,聯(lián)合訓(xùn)練將旋轉(zhuǎn)誤差從18.7°降低到13.2°(約30%),在BreakingBad數(shù)據(jù)集上從9.6°降低到7.4°(約23%)。
### 自然處理對(duì)稱物體
在IKEA-Manual數(shù)據(jù)集上的實(shí)驗(yàn)特別展示了模型處理對(duì)稱性的能力。研究人員發(fā)現(xiàn),即使只在單一配置上訓(xùn)練,矯正點(diǎn)流也能夠在推理時(shí)生成各種合理的組裝配置。例如,對(duì)于一個(gè)有12個(gè)重復(fù)垂直柱子的架子,模型能夠自然地置換這些柱子,同時(shí)保持非互換的頂部和底部籃子在它們唯一的位置。
技術(shù)細(xì)節(jié)和實(shí)現(xiàn)
研究團(tuán)隊(duì)使用PointTransformerV3作為點(diǎn)云編碼器的骨干網(wǎng)絡(luò),使用Diffusion Transformer (DiT)作為流模型。為了穩(wěn)定注意力計(jì)算,他們?cè)谧⒁饬Σ僮髑皩?duì)每個(gè)頭部的查詢和鍵向量應(yīng)用RMS歸一化。
他們的DiT模型由6個(gè)連續(xù)的DiT塊組成,每塊應(yīng)用兩個(gè)自注意力階段:部件級(jí)注意力用于整合部件感知,全局注意力用于融合所有部件的信息。這種設(shè)計(jì)使模型能夠同時(shí)捕獲部件內(nèi)部的幾何結(jié)構(gòu)和部件之間的關(guān)系。
在推理階段,模型通過(guò)數(shù)值積分預(yù)測(cè)的速度場(chǎng)來(lái)恢復(fù)每個(gè)部件在組裝狀態(tài)下的點(diǎn)云,然后使用SVD求解最優(yōu)姿態(tài)。整個(gè)過(guò)程端到端可訓(xùn)練,計(jì)算效率高。
局限性和未來(lái)方向
盡管矯正點(diǎn)流表現(xiàn)出色,研究人員坦率地指出了一些局限性。首先,當(dāng)前實(shí)驗(yàn)主要針對(duì)以物體為中心的點(diǎn)云,而現(xiàn)實(shí)場(chǎng)景往往涉及混亂環(huán)境和部分觀察。其次,雖然模型能生成多種可行的組裝方案,但有些可能在物理上不具功能性。第三,對(duì)于超過(guò)一定幾何復(fù)雜度的物體,模型性能會(huì)下降。
未來(lái)工作將擴(kuò)展矯正點(diǎn)流以穩(wěn)健處理遮擋,支持場(chǎng)景級(jí)和多體配準(zhǔn),納入物體功能推理,并擴(kuò)展到更大規(guī)模的點(diǎn)云。
結(jié)論:一種統(tǒng)一的視角
矯正點(diǎn)流的核心貢獻(xiàn)在于提供了一種統(tǒng)一的框架,將不同的點(diǎn)云姿態(tài)估計(jì)任務(wù)視為同一問(wèn)題的變體。通過(guò)在歐幾里德空間中學(xué)習(xí)密集點(diǎn)流,它自然地處理了部件對(duì)稱性和互換性,而無(wú)需特殊處理。
這種方法使我們能夠從異構(gòu)數(shù)據(jù)集中學(xué)習(xí)通用的幾何先驗(yàn),從而顯著提高性能。它也開辟了機(jī)器人操作和組裝的新方向,實(shí)現(xiàn)了精確、對(duì)稱感知的運(yùn)動(dòng)規(guī)劃。
對(duì)于研究人員和工程師來(lái)說(shuō),這項(xiàng)工作提供了一個(gè)強(qiáng)大的工具,可以直接從原始掃描中構(gòu)建可靠的三維對(duì)齊和組裝系統(tǒng)——這將惠及機(jī)器人技術(shù)、數(shù)字制造、增強(qiáng)現(xiàn)實(shí)和文化遺產(chǎn)重建等領(lǐng)域。隨著技術(shù)的不斷發(fā)展,我們期待看到矯正點(diǎn)流在更廣泛的應(yīng)用場(chǎng)景中的表現(xiàn)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。