av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 矯正點(diǎn)流:斯坦福大學(xué)和英偉達(dá)聯(lián)合打造的通用點(diǎn)云姿態(tài)估計(jì)新方法

矯正點(diǎn)流:斯坦福大學(xué)和英偉達(dá)聯(lián)合打造的通用點(diǎn)云姿態(tài)估計(jì)新方法

2025-06-09 11:15
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-09 11:15 ? 科技行者

2025年6月5日,來自斯坦福大學(xué)的Tao Sun、Liyuan Zhu、Shuran Song、Iro Armeni以及英偉達(dá)研究院的Shengyu Huang共同發(fā)表了一篇題為《矯正點(diǎn)流:通用點(diǎn)云姿態(tài)估計(jì)》的研究論文。這項(xiàng)研究剛剛在arXiv預(yù)印本平臺(arXiv:2506.05282v1)上發(fā)布,為點(diǎn)云配準(zhǔn)和形狀組裝領(lǐng)域帶來了重大突破。有興趣深入了解的讀者可以通過https://rectified-pointflow.github.io/網(wǎng)站訪問他們的代碼和模型。

研究背景:為什么我們需要更好的點(diǎn)云姿態(tài)估計(jì)?

想象你有一把散落的拼圖碎片,需要將它們正確拼在一起。在三維世界中,這個(gè)問題被稱為"點(diǎn)云姿態(tài)估計(jì)"——確定三維空間中各個(gè)部件的正確位置和方向,以便它們能夠完美地組合在一起。這項(xiàng)技術(shù)在計(jì)算機(jī)視覺和機(jī)器人領(lǐng)域至關(guān)重要,應(yīng)用廣泛,從簡單的兩個(gè)物體配準(zhǔn)到復(fù)雜的多部件組裝都離不開它。

傳統(tǒng)上,不同的三維推理任務(wù)——如物體姿態(tài)估計(jì)、部件配準(zhǔn)和形狀組裝——往往各自為政,采用特定任務(wù)的假設(shè)和架構(gòu)。這種分散的研究方法產(chǎn)生了在特定領(lǐng)域表現(xiàn)良好但難以泛化的解決方案。特別是多部件形狀組裝面臨著獨(dú)特的挑戰(zhàn):部件往往具有對稱性、可互換性或幾何模糊性,導(dǎo)致多種可能的局部配置。

斯坦福和英偉達(dá)的研究團(tuán)隊(duì)提出了一個(gè)全新的視角。他們將問題重新構(gòu)想為一個(gè)條件生成任務(wù),開發(fā)了一種名為"矯正點(diǎn)流"(Rectified Point Flow)的方法,將成對點(diǎn)云配準(zhǔn)和多部件形狀組裝統(tǒng)一到一個(gè)框架中。這種方法不僅能處理部件對稱性和互換性,還能在不同數(shù)據(jù)集上進(jìn)行聯(lián)合訓(xùn)練,從而學(xué)習(xí)通用的幾何先驗(yàn)知識。

矯正點(diǎn)流:如何工作?

想象你在操控一個(gè)特殊的磁場,這個(gè)磁場能將混亂的粒子(三維點(diǎn))從隨機(jī)位置引導(dǎo)到它們應(yīng)該在的正確位置。矯正點(diǎn)流正是這樣工作的——它學(xué)習(xí)一個(gè)連續(xù)的點(diǎn)流場,將噪聲點(diǎn)云逐漸"拉"到正確組裝狀態(tài)。

具體來說,該方法包含兩個(gè)關(guān)鍵階段:自監(jiān)督重疊感知點(diǎn)編碼和條件矯正點(diǎn)流。

### 自監(jiān)督重疊感知點(diǎn)編碼:尋找拼圖的連接點(diǎn)

在第一階段,研究團(tuán)隊(duì)訓(xùn)練了一個(gè)編碼器來識別不同部件之間的潛在重疊區(qū)域。就像拼圖游戲中,我們會(huì)先尋找邊緣有相似圖案的拼圖塊一樣,這個(gè)編碼器能夠自動(dòng)學(xué)習(xí)哪些點(diǎn)可能與其他部件連接。

這個(gè)過程是完全自監(jiān)督的——不需要人工標(biāo)注。研究人員設(shè)計(jì)了一個(gè)二分類任務(wù):給定一組未定位的多部件點(diǎn)云,編碼器需要預(yù)測每個(gè)點(diǎn)是否與其他部件重疊。這種預(yù)訓(xùn)練方式比現(xiàn)有方法更輕量、更可擴(kuò)展,不依賴于水密網(wǎng)格或物理模擬,可以在各種數(shù)據(jù)集上通用。

### 條件矯正點(diǎn)流:將碎片引導(dǎo)到正確位置

第二階段是核心創(chuàng)新點(diǎn)——條件矯正點(diǎn)流。這個(gè)階段將姿態(tài)估計(jì)重新構(gòu)想為生成問題:模型學(xué)習(xí)從隨機(jī)高斯噪聲向已組裝對象點(diǎn)云的運(yùn)動(dòng)。

想象一下,你把所有部件的點(diǎn)云都隨機(jī)散布在空間中,然后學(xué)習(xí)一種"引力場",這個(gè)場能夠?qū)⒚總€(gè)點(diǎn)拉向它在最終組裝狀態(tài)下應(yīng)該在的位置。這個(gè)過程中,模型隱式地學(xué)習(xí)了部件級別的變換,實(shí)現(xiàn)了判別式姿態(tài)估計(jì)和生成式形狀組裝的統(tǒng)一。

數(shù)學(xué)上,對于時(shí)間步t,每個(gè)部件i的點(diǎn)云Xi(t)在t=0時(shí)代表組裝后的對象,而t=1時(shí)則是獨(dú)立的高斯噪聲。矯正點(diǎn)流定義了一個(gè)在歐幾里德空間中的直線插值流,點(diǎn)從噪聲狀態(tài)流向組裝狀態(tài)。一旦模型預(yù)測了每個(gè)部件在組裝狀態(tài)下的點(diǎn)云,研究人員使用Procrustes問題(通過SVD求解)來恢復(fù)每個(gè)部件的姿態(tài)。

### 自然處理對稱性和互換性

最令人印象深刻的是,矯正點(diǎn)流無需任何特殊處理就能自然處理部件對稱性和互換性。傳統(tǒng)方法需要復(fù)雜的對稱性處理,而矯正點(diǎn)流通過在歐幾里德空間中學(xué)習(xí)密集點(diǎn)流,天然對這些問題具有魯棒性。

研究人員證明了學(xué)習(xí)目標(biāo)在任何組裝對稱群的作用下都保持不變。簡單來說,如果兩個(gè)部件完全相同或一個(gè)部件有旋轉(zhuǎn)對稱性,模型自然會(huì)學(xué)習(xí)到這些特性,不需要顯式標(biāo)記或特殊處理。

實(shí)驗(yàn)驗(yàn)證:矯正點(diǎn)流真的更好嗎?

研究團(tuán)隊(duì)在六個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了廣泛測試,包括形狀組裝數(shù)據(jù)集(BreakingBad-Everyday、TwoByTwo、PartNet-Assembly和IKEA-Manual)和成對配準(zhǔn)數(shù)據(jù)集(TUD-L和ModelNet 40)。

結(jié)果令人印象深刻:矯正點(diǎn)流在所有基準(zhǔn)測試中都超越了現(xiàn)有最先進(jìn)的方法。在多部件組裝任務(wù)中,與最接近的競爭對手GARF相比,矯正點(diǎn)流在旋轉(zhuǎn)誤差和平移誤差上取得了顯著提升。在PartNet-Assembly數(shù)據(jù)集上,部件準(zhǔn)確率從25.7%提高到53.9%,相當(dāng)于翻了一倍多。

在成對配準(zhǔn)任務(wù)上,即使與專為配準(zhǔn)設(shè)計(jì)的方法(如GeoTransformer和Diff-RPMNet)相比,矯正點(diǎn)流也展現(xiàn)出更高的準(zhǔn)確性和更強(qiáng)的泛化能力。例如,在TUD-L數(shù)據(jù)集上,5°旋轉(zhuǎn)召回率達(dá)到了97.7%,遠(yuǎn)高于競爭方法。

### 聯(lián)合訓(xùn)練的驚人效果

研究中一個(gè)特別有趣的發(fā)現(xiàn)是聯(lián)合訓(xùn)練的強(qiáng)大效果。研究團(tuán)隊(duì)將成對配準(zhǔn)視為兩部件組裝任務(wù)的特例,在所有六個(gè)數(shù)據(jù)集上聯(lián)合訓(xùn)練單個(gè)模型。

這種統(tǒng)一框架使模型能夠在不同數(shù)據(jù)集之間遷移學(xué)習(xí),顯著提高了性能,特別是對于樣本量小的數(shù)據(jù)集。例如,在TwoByTwo數(shù)據(jù)集上,聯(lián)合訓(xùn)練將旋轉(zhuǎn)誤差從18.7°降低到13.2°(約30%),在BreakingBad數(shù)據(jù)集上從9.6°降低到7.4°(約23%)。

### 自然處理對稱物體

在IKEA-Manual數(shù)據(jù)集上的實(shí)驗(yàn)特別展示了模型處理對稱性的能力。研究人員發(fā)現(xiàn),即使只在單一配置上訓(xùn)練,矯正點(diǎn)流也能夠在推理時(shí)生成各種合理的組裝配置。例如,對于一個(gè)有12個(gè)重復(fù)垂直柱子的架子,模型能夠自然地置換這些柱子,同時(shí)保持非互換的頂部和底部籃子在它們唯一的位置。

技術(shù)細(xì)節(jié)和實(shí)現(xiàn)

研究團(tuán)隊(duì)使用PointTransformerV3作為點(diǎn)云編碼器的骨干網(wǎng)絡(luò),使用Diffusion Transformer (DiT)作為流模型。為了穩(wěn)定注意力計(jì)算,他們在注意力操作前對每個(gè)頭部的查詢和鍵向量應(yīng)用RMS歸一化。

他們的DiT模型由6個(gè)連續(xù)的DiT塊組成,每塊應(yīng)用兩個(gè)自注意力階段:部件級注意力用于整合部件感知,全局注意力用于融合所有部件的信息。這種設(shè)計(jì)使模型能夠同時(shí)捕獲部件內(nèi)部的幾何結(jié)構(gòu)和部件之間的關(guān)系。

在推理階段,模型通過數(shù)值積分預(yù)測的速度場來恢復(fù)每個(gè)部件在組裝狀態(tài)下的點(diǎn)云,然后使用SVD求解最優(yōu)姿態(tài)。整個(gè)過程端到端可訓(xùn)練,計(jì)算效率高。

局限性和未來方向

盡管矯正點(diǎn)流表現(xiàn)出色,研究人員坦率地指出了一些局限性。首先,當(dāng)前實(shí)驗(yàn)主要針對以物體為中心的點(diǎn)云,而現(xiàn)實(shí)場景往往涉及混亂環(huán)境和部分觀察。其次,雖然模型能生成多種可行的組裝方案,但有些可能在物理上不具功能性。第三,對于超過一定幾何復(fù)雜度的物體,模型性能會(huì)下降。

未來工作將擴(kuò)展矯正點(diǎn)流以穩(wěn)健處理遮擋,支持場景級和多體配準(zhǔn),納入物體功能推理,并擴(kuò)展到更大規(guī)模的點(diǎn)云。

結(jié)論:一種統(tǒng)一的視角

矯正點(diǎn)流的核心貢獻(xiàn)在于提供了一種統(tǒng)一的框架,將不同的點(diǎn)云姿態(tài)估計(jì)任務(wù)視為同一問題的變體。通過在歐幾里德空間中學(xué)習(xí)密集點(diǎn)流,它自然地處理了部件對稱性和互換性,而無需特殊處理。

這種方法使我們能夠從異構(gòu)數(shù)據(jù)集中學(xué)習(xí)通用的幾何先驗(yàn),從而顯著提高性能。它也開辟了機(jī)器人操作和組裝的新方向,實(shí)現(xiàn)了精確、對稱感知的運(yùn)動(dòng)規(guī)劃。

對于研究人員和工程師來說,這項(xiàng)工作提供了一個(gè)強(qiáng)大的工具,可以直接從原始掃描中構(gòu)建可靠的三維對齊和組裝系統(tǒng)——這將惠及機(jī)器人技術(shù)、數(shù)字制造、增強(qiáng)現(xiàn)實(shí)和文化遺產(chǎn)重建等領(lǐng)域。隨著技術(shù)的不斷發(fā)展,我們期待看到矯正點(diǎn)流在更廣泛的應(yīng)用場景中的表現(xiàn)。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-