av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 從視頻中學(xué)習(xí)3D世界:香港中文大學(xué)研究團(tuán)隊(duì)用3D視覺幾何先驗(yàn)增強(qiáng)多模態(tài)大語(yǔ)言模型

從視頻中學(xué)習(xí)3D世界:香港中文大學(xué)研究團(tuán)隊(duì)用3D視覺幾何先驗(yàn)增強(qiáng)多模態(tài)大語(yǔ)言模型

2025-06-05 10:28
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-05 10:28 ? 科技行者

論文與研究團(tuán)隊(duì)介紹

2025年5月,香港中文大學(xué)的鄭鐸、黃世佳、李巖洋和王立威發(fā)表了一項(xiàng)創(chuàng)新研究,題為《從視頻中學(xué)習(xí)3D世界:用3D視覺幾何先驗(yàn)增強(qiáng)多模態(tài)大語(yǔ)言模型》(Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors)。這篇研究論文已在arXiv預(yù)印本平臺(tái)上公開(arXiv:2505.24625v1),為多模態(tài)大語(yǔ)言模型在3D場(chǎng)景理解方面帶來(lái)了重大突破。

想象一下,你正在使用一款智能助手,向它展示你家客廳的視頻,并詢問:"如果我把沙發(fā)移到窗戶旁邊,會(huì)不會(huì)擋住走道?"傳統(tǒng)的AI系統(tǒng)可能會(huì)困惑不已,因?yàn)樗鼈內(nèi)狈斫?D空間的能力。然而,香港中文大學(xué)的研究團(tuán)隊(duì)開發(fā)的新技術(shù)可以讓AI助手從普通視頻中理解三維空間關(guān)系,就像人類那樣。

研究背景與挑戰(zhàn)

多模態(tài)大語(yǔ)言模型(MLLMs)近年來(lái)發(fā)展迅速,在圖像和視頻理解方面取得了顯著進(jìn)步。然而,當(dāng)涉及到理解3D空間和物體之間的空間關(guān)系時(shí),這些模型仍然表現(xiàn)不佳。就像一個(gè)人只看照片而沒有立體視覺一樣,傳統(tǒng)MLLMs對(duì)深度、距離和物體之間的相對(duì)位置缺乏準(zhǔn)確感知。

以往的研究嘗試通過(guò)將3D場(chǎng)景解釋為視頻序列來(lái)改善MLLMs的3D理解能力。例如,有些方法會(huì)在視覺特征中注入3D坐標(biāo)信息,或者使用從3D點(diǎn)云重建的鳥瞰圖。但這些方法有一個(gè)共同的限制:它們依賴于密集的3D數(shù)據(jù)輸入(如深度圖和點(diǎn)云圖),而這些數(shù)據(jù)在現(xiàn)實(shí)世界中往往難以獲取。雖然可以直接從圖像估算3D屬性,但這可能引入估計(jì)誤差并降低性能。

研究團(tuán)隊(duì)面臨的核心問題是:"多模態(tài)大語(yǔ)言模型能否直接從視頻中理解3D世界,而不需要任何顯式的3D數(shù)據(jù)輸入?"

研究創(chuàng)新:視頻-3D幾何大語(yǔ)言模型

為了解決這一挑戰(zhàn),研究團(tuán)隊(duì)提出了一種名為"視頻-3D幾何大語(yǔ)言模型"(Video-3D Geometry LLM,簡(jiǎn)稱VG LLM)的新型框架。這一方法的獨(dú)特之處在于,它無(wú)需依賴顯式的3D數(shù)據(jù)輸入,而是直接從普通視頻中學(xué)習(xí)3D幾何信息。

想象一下,我們?nèi)祟愒谟^看視頻時(shí),能夠自然地理解場(chǎng)景中物體的深度、大小和相對(duì)位置。這是因?yàn)槲覀兊拇竽X能夠從連續(xù)幀之間的變化中推斷出3D信息。VG LLM就是模仿這一過(guò)程,它包含了一個(gè)3D視覺幾何編碼器,可以從視頻序列中提取3D先驗(yàn)信息。

具體來(lái)說(shuō),VG LLM的工作原理如下:當(dāng)輸入視頻幀時(shí),這些圖像會(huì)同時(shí)經(jīng)過(guò)兩個(gè)不同的處理通道:一個(gè)是常規(guī)的視覺編碼器,用于提取每個(gè)單獨(dú)圖像的語(yǔ)義特征;另一個(gè)是新集成的3D視覺幾何編碼器,用于捕捉幀間的幾何關(guān)系。這兩個(gè)編碼器提取的特征會(huì)在圖像塊級(jí)別融合,然后傳遞給MLLM主干網(wǎng)絡(luò)。

關(guān)鍵的突破點(diǎn)在于3D視覺幾何編碼器。它是在諸如圖像對(duì)或序列的點(diǎn)圖預(yù)測(cè)等任務(wù)上預(yù)訓(xùn)練的,因此嵌入了強(qiáng)大的3D感知先驗(yàn)知識(shí),能夠捕捉幀間的對(duì)應(yīng)關(guān)系。通過(guò)這種方式,VG LLM可以有效地將3D幾何先驗(yàn)整合到模型中,使其對(duì)視角變換更加魯棒,從而顯著提高空間推理能力。

實(shí)驗(yàn)設(shè)置與評(píng)估

研究團(tuán)隊(duì)在各種3D場(chǎng)景理解和空間推理任務(wù)上進(jìn)行了廣泛的實(shí)驗(yàn),這些任務(wù)都接受視頻作為輸入。為了全面評(píng)估模型性能,他們選擇了多種具有挑戰(zhàn)性的任務(wù):

3D場(chǎng)景理解任務(wù)包括: - 3D視覺定位:在給定語(yǔ)言描述的情況下,找出視頻中特定物體的位置和邊界框 - 3D密集描述:為3D場(chǎng)景中的所有物體生成詳細(xì)描述 - 3D視頻物體檢測(cè):在統(tǒng)一坐標(biāo)系中檢測(cè)整個(gè)視頻中出現(xiàn)的所有物體

空間推理任務(wù)則包括: - VSI-Bench:評(píng)估關(guān)系推理和自我中心-分配中心轉(zhuǎn)換能力 - CV-Bench:評(píng)估2D和3D視覺理解能力 - BLINK:測(cè)試相對(duì)深度、空間推理和多視角推理能力

值得注意的是,研究團(tuán)隊(duì)訓(xùn)練了兩個(gè)不同的模型分別用于3D場(chǎng)景理解和空間推理任務(wù),以確保公平比較。他們的模型基于Qwen2.5-VL-3B,集成了VGGT-1B作為3D幾何編碼器。

實(shí)驗(yàn)結(jié)果與發(fā)現(xiàn)

實(shí)驗(yàn)結(jié)果令人振奮。研究團(tuán)隊(duì)的4B參數(shù)模型在沒有使用任何顯式3D輸入的情況下,不僅超越了許多基于3D輸入的領(lǐng)先模型,甚至在VSI-Bench評(píng)估中超過(guò)了Gemini-1.5-Pro這樣的大型專有模型。

具體來(lái)看,在3D場(chǎng)景理解任務(wù)中:

在3D視覺定位(ScanRefer數(shù)據(jù)集)上,VG LLM在IoU為0.25的閾值下達(dá)到了51.0%的準(zhǔn)確率,超過(guò)了SPAR的48.8%。即使在沒有建議框優(yōu)化的情況下,VG LLM也達(dá)到了34.1%的準(zhǔn)確率,超過(guò)了SPAR的31.9%。

在3D密集描述(Scan2Cap基準(zhǔn))上,盡管沒有使用3D相機(jī)參數(shù)或顯式深度信息,VG LLM仍然取得了74.1的CIDEr得分,超過(guò)了之前最先進(jìn)的LEO模型的72.4分。這表明,VGGT提取的視覺特征中隱含編碼的3D幾何信息足以用于室內(nèi)場(chǎng)景理解。

在3D視頻物體檢測(cè)任務(wù)上,與僅使用Qwen2.5-VL-3B的基線相比,引入視覺幾何信息帶來(lái)了顯著改進(jìn)。特別是,在4幀設(shè)置中,平均召回率大幅提升了14.1個(gè)百分點(diǎn),從32.1%上升到46.2%。這一改進(jìn)歸功于模型增強(qiáng)的自我中心-分配中心轉(zhuǎn)換能力,使其能夠檢索到第一幀中不可見的物體。

在空間推理任務(wù)中:

在VSI-Bench上,VG LLM-4B取得了令人印象深刻的46.1%的平均得分,超過(guò)了Gemini-1.5-Pro的45.4%。在計(jì)數(shù)和房間大小估計(jì)等任務(wù)上,模型表現(xiàn)尤為出色,分別達(dá)到了66.4%和56.3%的準(zhǔn)確率。

在CV-Bench上,VG LLM-4B在3D任務(wù)上取得了91.3%的最高準(zhǔn)確率,展示了其強(qiáng)大的3D理解能力。

在BLINK(空間子集)上,模型在相對(duì)深度任務(wù)上取得了79.8%的最高得分,超過(guò)了GPT-4o的74.2%。

這些結(jié)果揭示了幾個(gè)重要發(fā)現(xiàn):

1. 無(wú)需顯式的密集3D輸入,VG LLM也能超越許多基于3D輸入的模型,證明了其有效的3D幾何理解能力。

2. 通過(guò)在視覺表示中隱式建模幀間對(duì)應(yīng)關(guān)系,模型學(xué)習(xí)了強(qiáng)大的自我中心-分配中心轉(zhuǎn)換能力,在3D視頻物體檢測(cè)上帶來(lái)了顯著改進(jìn)。

3. 在需要復(fù)雜空間推理技能的任務(wù)上,如VSI-Bench,4B參數(shù)的VG LLM獲得了令人印象深刻的46.1%的平均分?jǐn)?shù),甚至超過(guò)了最佳專有模型Gemini-1.5-Pro。

值得一提的是,與SPAR這樣依賴大量訓(xùn)練數(shù)據(jù)(200萬(wàn)樣本)的方法不同,研究團(tuán)隊(duì)的方法只使用了SPAR-7M的3%數(shù)據(jù)就取得了強(qiáng)大的性能,這凸顯了3D幾何建模在MLLMs中的重要性。此外,增強(qiáng)空間理解能力對(duì)通用多模態(tài)性能的影響微乎其微,甚至在BLINK(+4.0)和TempCompassMC(+0.6)等任務(wù)上帶來(lái)了改進(jìn)。

模型架構(gòu)與訓(xùn)練詳情

VG LLM的核心創(chuàng)新在于其架構(gòu)設(shè)計(jì)。傳統(tǒng)的MLLMs在處理視頻時(shí),會(huì)將每一幀作為獨(dú)立的標(biāo)記通過(guò)視覺編碼器處理,這種方式無(wú)法捕捉關(guān)鍵的3D幾何信息,如幀間對(duì)應(yīng)關(guān)系。而VG LLM引入的3D視覺幾何編碼器則能夠彌補(bǔ)這一不足。

具體來(lái)說(shuō),VG LLM的架構(gòu)包含以下組件:

首先是預(yù)處理階段。給定一系列RGB圖像和一個(gè)自然語(yǔ)言問題,傳統(tǒng)MLLM會(huì)使用2D視覺編碼器將這些圖像編碼為圖像標(biāo)記。在VG LLM中,研究團(tuán)隊(duì)選擇了Qwen2.5-VL作為MLLM主干。

其次是3D視覺幾何編碼器。為了在輸入幀中建模3D幾何信息(如幀間對(duì)應(yīng)關(guān)系),團(tuán)隊(duì)采用了一個(gè)3D視覺幾何編碼器從所有輸入圖像中共同提取這些信息。團(tuán)隊(duì)選擇了VGGT作為3D視覺幾何編碼器,因?yàn)樗?D任務(wù)中表現(xiàn)出色。

然后是視覺特征融合。在將特征傳遞給MLLM主干之前,VG LLM會(huì)融合圖像標(biāo)記和3D視覺幾何特征。具體來(lái)說(shuō),它首先將每個(gè)3D視覺幾何特征轉(zhuǎn)換為與圖像標(biāo)記相同形狀的特征,然后生成幾何增強(qiáng)的視覺特征。

最后,這些融合的視覺特征與問題的文本嵌入一起輸入MLLM主干,生成最終響應(yīng)。

在訓(xùn)練方面,研究團(tuán)隊(duì)采用了一種多任務(wù)學(xué)習(xí)方法,結(jié)合了多個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練。對(duì)于3D場(chǎng)景理解,他們使用了ScanRefer、Scan2Cap和從EmbodiedScan構(gòu)建的數(shù)據(jù)集。對(duì)于空間推理,他們使用了SPAR-7M和LLaVA-Video-178K的LLaVA-Hound分割的數(shù)據(jù)。

模型在8個(gè)H100 80G GPU上訓(xùn)練,3D場(chǎng)景理解訓(xùn)練花費(fèi)了8小時(shí),空間推理指令調(diào)優(yōu)花費(fèi)了12小時(shí)。

未來(lái)展望與應(yīng)用前景

這項(xiàng)研究的成功為MLLMs在理解和推理3D空間方面開辟了新的可能性。通過(guò)使MLLMs能夠直接從視頻中理解3D世界,而不需要顯式的3D數(shù)據(jù)輸入,VG LLM大大擴(kuò)展了這些模型的應(yīng)用范圍。

在實(shí)際應(yīng)用中,這項(xiàng)技術(shù)可能對(duì)多個(gè)領(lǐng)域產(chǎn)生深遠(yuǎn)影響:

在室內(nèi)導(dǎo)航機(jī)器人領(lǐng)域,VG LLM可以幫助機(jī)器人理解復(fù)雜的空間指令,如"移動(dòng)到沙發(fā)和咖啡桌之間的空間",無(wú)需依賴昂貴的3D傳感器。

在增強(qiáng)現(xiàn)實(shí)應(yīng)用中,它可以更好地理解用戶周圍的環(huán)境,提供更加直觀和上下文相關(guān)的信息。

在智能家居系統(tǒng)中,它可以通過(guò)理解房間布局和物體之間的空間關(guān)系,提供更智能的控制和自動(dòng)化功能。

在輔助技術(shù)方面,它可以幫助視障人士更好地理解周圍環(huán)境,識(shí)別物體之間的空間關(guān)系。

未來(lái)的研究方向可能包括進(jìn)一步改進(jìn)模型的3D幾何理解能力,擴(kuò)展到更復(fù)雜和動(dòng)態(tài)的場(chǎng)景,以及將這種能力整合到更廣泛的應(yīng)用中。

總結(jié)

香港中文大學(xué)研究團(tuán)隊(duì)開發(fā)的VG LLM代表了多模態(tài)大語(yǔ)言模型在3D場(chǎng)景理解和空間推理方面的重大進(jìn)步。通過(guò)集成3D視覺幾何編碼器,VG LLM能夠直接從視頻中提取3D幾何信息,而不需要顯式的3D數(shù)據(jù)輸入。

實(shí)驗(yàn)結(jié)果表明,VG LLM在各種3D場(chǎng)景理解和空間推理任務(wù)上表現(xiàn)出色,甚至超過(guò)了一些依賴顯式3D輸入的領(lǐng)先模型和大型專有模型。這些結(jié)果凸顯了在MLLMs中建模3D幾何信息的重要性,以及這種方法在提高模型空間理解能力方面的有效性。

隨著這項(xiàng)技術(shù)的進(jìn)一步發(fā)展和應(yīng)用,我們可以期待看到更多能夠自然地理解和交互于3D世界的AI系統(tǒng),從而為各種領(lǐng)域帶來(lái)更智能、更直觀的解決方案。對(duì)于那些希望深入了解這項(xiàng)研究的讀者,可以通過(guò)arXiv:2505.24625v1訪問完整論文,或者訪問項(xiàng)目網(wǎng)站https://lavi-lab.github.io/VG-LLM獲取更多信息。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-