av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 從視頻中學習3D世界:香港中文大學研究團隊用3D視覺幾何先驗增強多模態(tài)大語言模型

從視頻中學習3D世界:香港中文大學研究團隊用3D視覺幾何先驗增強多模態(tài)大語言模型

2025-06-05 10:28
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-05 10:28 ? 科技行者

論文與研究團隊介紹

2025年5月,香港中文大學的鄭鐸、黃世佳、李巖洋和王立威發(fā)表了一項創(chuàng)新研究,題為《從視頻中學習3D世界:用3D視覺幾何先驗增強多模態(tài)大語言模型》(Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors)。這篇研究論文已在arXiv預印本平臺上公開(arXiv:2505.24625v1),為多模態(tài)大語言模型在3D場景理解方面帶來了重大突破。

想象一下,你正在使用一款智能助手,向它展示你家客廳的視頻,并詢問:"如果我把沙發(fā)移到窗戶旁邊,會不會擋住走道?"傳統(tǒng)的AI系統(tǒng)可能會困惑不已,因為它們缺乏理解3D空間的能力。然而,香港中文大學的研究團隊開發(fā)的新技術可以讓AI助手從普通視頻中理解三維空間關系,就像人類那樣。

研究背景與挑戰(zhàn)

多模態(tài)大語言模型(MLLMs)近年來發(fā)展迅速,在圖像和視頻理解方面取得了顯著進步。然而,當涉及到理解3D空間和物體之間的空間關系時,這些模型仍然表現不佳。就像一個人只看照片而沒有立體視覺一樣,傳統(tǒng)MLLMs對深度、距離和物體之間的相對位置缺乏準確感知。

以往的研究嘗試通過將3D場景解釋為視頻序列來改善MLLMs的3D理解能力。例如,有些方法會在視覺特征中注入3D坐標信息,或者使用從3D點云重建的鳥瞰圖。但這些方法有一個共同的限制:它們依賴于密集的3D數據輸入(如深度圖和點云圖),而這些數據在現實世界中往往難以獲取。雖然可以直接從圖像估算3D屬性,但這可能引入估計誤差并降低性能。

研究團隊面臨的核心問題是:"多模態(tài)大語言模型能否直接從視頻中理解3D世界,而不需要任何顯式的3D數據輸入?"

研究創(chuàng)新:視頻-3D幾何大語言模型

為了解決這一挑戰(zhàn),研究團隊提出了一種名為"視頻-3D幾何大語言模型"(Video-3D Geometry LLM,簡稱VG LLM)的新型框架。這一方法的獨特之處在于,它無需依賴顯式的3D數據輸入,而是直接從普通視頻中學習3D幾何信息。

想象一下,我們人類在觀看視頻時,能夠自然地理解場景中物體的深度、大小和相對位置。這是因為我們的大腦能夠從連續(xù)幀之間的變化中推斷出3D信息。VG LLM就是模仿這一過程,它包含了一個3D視覺幾何編碼器,可以從視頻序列中提取3D先驗信息。

具體來說,VG LLM的工作原理如下:當輸入視頻幀時,這些圖像會同時經過兩個不同的處理通道:一個是常規(guī)的視覺編碼器,用于提取每個單獨圖像的語義特征;另一個是新集成的3D視覺幾何編碼器,用于捕捉幀間的幾何關系。這兩個編碼器提取的特征會在圖像塊級別融合,然后傳遞給MLLM主干網絡。

關鍵的突破點在于3D視覺幾何編碼器。它是在諸如圖像對或序列的點圖預測等任務上預訓練的,因此嵌入了強大的3D感知先驗知識,能夠捕捉幀間的對應關系。通過這種方式,VG LLM可以有效地將3D幾何先驗整合到模型中,使其對視角變換更加魯棒,從而顯著提高空間推理能力。

實驗設置與評估

研究團隊在各種3D場景理解和空間推理任務上進行了廣泛的實驗,這些任務都接受視頻作為輸入。為了全面評估模型性能,他們選擇了多種具有挑戰(zhàn)性的任務:

3D場景理解任務包括: - 3D視覺定位:在給定語言描述的情況下,找出視頻中特定物體的位置和邊界框 - 3D密集描述:為3D場景中的所有物體生成詳細描述 - 3D視頻物體檢測:在統(tǒng)一坐標系中檢測整個視頻中出現的所有物體

空間推理任務則包括: - VSI-Bench:評估關系推理和自我中心-分配中心轉換能力 - CV-Bench:評估2D和3D視覺理解能力 - BLINK:測試相對深度、空間推理和多視角推理能力

值得注意的是,研究團隊訓練了兩個不同的模型分別用于3D場景理解和空間推理任務,以確保公平比較。他們的模型基于Qwen2.5-VL-3B,集成了VGGT-1B作為3D幾何編碼器。

實驗結果與發(fā)現

實驗結果令人振奮。研究團隊的4B參數模型在沒有使用任何顯式3D輸入的情況下,不僅超越了許多基于3D輸入的領先模型,甚至在VSI-Bench評估中超過了Gemini-1.5-Pro這樣的大型專有模型。

具體來看,在3D場景理解任務中:

在3D視覺定位(ScanRefer數據集)上,VG LLM在IoU為0.25的閾值下達到了51.0%的準確率,超過了SPAR的48.8%。即使在沒有建議框優(yōu)化的情況下,VG LLM也達到了34.1%的準確率,超過了SPAR的31.9%。

在3D密集描述(Scan2Cap基準)上,盡管沒有使用3D相機參數或顯式深度信息,VG LLM仍然取得了74.1的CIDEr得分,超過了之前最先進的LEO模型的72.4分。這表明,VGGT提取的視覺特征中隱含編碼的3D幾何信息足以用于室內場景理解。

在3D視頻物體檢測任務上,與僅使用Qwen2.5-VL-3B的基線相比,引入視覺幾何信息帶來了顯著改進。特別是,在4幀設置中,平均召回率大幅提升了14.1個百分點,從32.1%上升到46.2%。這一改進歸功于模型增強的自我中心-分配中心轉換能力,使其能夠檢索到第一幀中不可見的物體。

在空間推理任務中:

在VSI-Bench上,VG LLM-4B取得了令人印象深刻的46.1%的平均得分,超過了Gemini-1.5-Pro的45.4%。在計數和房間大小估計等任務上,模型表現尤為出色,分別達到了66.4%和56.3%的準確率。

在CV-Bench上,VG LLM-4B在3D任務上取得了91.3%的最高準確率,展示了其強大的3D理解能力。

在BLINK(空間子集)上,模型在相對深度任務上取得了79.8%的最高得分,超過了GPT-4o的74.2%。

這些結果揭示了幾個重要發(fā)現:

1. 無需顯式的密集3D輸入,VG LLM也能超越許多基于3D輸入的模型,證明了其有效的3D幾何理解能力。

2. 通過在視覺表示中隱式建模幀間對應關系,模型學習了強大的自我中心-分配中心轉換能力,在3D視頻物體檢測上帶來了顯著改進。

3. 在需要復雜空間推理技能的任務上,如VSI-Bench,4B參數的VG LLM獲得了令人印象深刻的46.1%的平均分數,甚至超過了最佳專有模型Gemini-1.5-Pro。

值得一提的是,與SPAR這樣依賴大量訓練數據(200萬樣本)的方法不同,研究團隊的方法只使用了SPAR-7M的3%數據就取得了強大的性能,這凸顯了3D幾何建模在MLLMs中的重要性。此外,增強空間理解能力對通用多模態(tài)性能的影響微乎其微,甚至在BLINK(+4.0)和TempCompassMC(+0.6)等任務上帶來了改進。

模型架構與訓練詳情

VG LLM的核心創(chuàng)新在于其架構設計。傳統(tǒng)的MLLMs在處理視頻時,會將每一幀作為獨立的標記通過視覺編碼器處理,這種方式無法捕捉關鍵的3D幾何信息,如幀間對應關系。而VG LLM引入的3D視覺幾何編碼器則能夠彌補這一不足。

具體來說,VG LLM的架構包含以下組件:

首先是預處理階段。給定一系列RGB圖像和一個自然語言問題,傳統(tǒng)MLLM會使用2D視覺編碼器將這些圖像編碼為圖像標記。在VG LLM中,研究團隊選擇了Qwen2.5-VL作為MLLM主干。

其次是3D視覺幾何編碼器。為了在輸入幀中建模3D幾何信息(如幀間對應關系),團隊采用了一個3D視覺幾何編碼器從所有輸入圖像中共同提取這些信息。團隊選擇了VGGT作為3D視覺幾何編碼器,因為它在3D任務中表現出色。

然后是視覺特征融合。在將特征傳遞給MLLM主干之前,VG LLM會融合圖像標記和3D視覺幾何特征。具體來說,它首先將每個3D視覺幾何特征轉換為與圖像標記相同形狀的特征,然后生成幾何增強的視覺特征。

最后,這些融合的視覺特征與問題的文本嵌入一起輸入MLLM主干,生成最終響應。

在訓練方面,研究團隊采用了一種多任務學習方法,結合了多個數據集進行訓練。對于3D場景理解,他們使用了ScanRefer、Scan2Cap和從EmbodiedScan構建的數據集。對于空間推理,他們使用了SPAR-7M和LLaVA-Video-178K的LLaVA-Hound分割的數據。

模型在8個H100 80G GPU上訓練,3D場景理解訓練花費了8小時,空間推理指令調優(yōu)花費了12小時。

未來展望與應用前景

這項研究的成功為MLLMs在理解和推理3D空間方面開辟了新的可能性。通過使MLLMs能夠直接從視頻中理解3D世界,而不需要顯式的3D數據輸入,VG LLM大大擴展了這些模型的應用范圍。

在實際應用中,這項技術可能對多個領域產生深遠影響:

在室內導航機器人領域,VG LLM可以幫助機器人理解復雜的空間指令,如"移動到沙發(fā)和咖啡桌之間的空間",無需依賴昂貴的3D傳感器。

在增強現實應用中,它可以更好地理解用戶周圍的環(huán)境,提供更加直觀和上下文相關的信息。

在智能家居系統(tǒng)中,它可以通過理解房間布局和物體之間的空間關系,提供更智能的控制和自動化功能。

在輔助技術方面,它可以幫助視障人士更好地理解周圍環(huán)境,識別物體之間的空間關系。

未來的研究方向可能包括進一步改進模型的3D幾何理解能力,擴展到更復雜和動態(tài)的場景,以及將這種能力整合到更廣泛的應用中。

總結

香港中文大學研究團隊開發(fā)的VG LLM代表了多模態(tài)大語言模型在3D場景理解和空間推理方面的重大進步。通過集成3D視覺幾何編碼器,VG LLM能夠直接從視頻中提取3D幾何信息,而不需要顯式的3D數據輸入。

實驗結果表明,VG LLM在各種3D場景理解和空間推理任務上表現出色,甚至超過了一些依賴顯式3D輸入的領先模型和大型專有模型。這些結果凸顯了在MLLMs中建模3D幾何信息的重要性,以及這種方法在提高模型空間理解能力方面的有效性。

隨著這項技術的進一步發(fā)展和應用,我們可以期待看到更多能夠自然地理解和交互于3D世界的AI系統(tǒng),從而為各種領域帶來更智能、更直觀的解決方案。對于那些希望深入了解這項研究的讀者,可以通過arXiv:2505.24625v1訪問完整論文,或者訪問項目網站https://lavi-lab.github.io/VG-LLM獲取更多信息。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-