av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<acronym id="0ganh"><p id="0ganh"></p></acronym>

<sub id="0ganh"></sub>

^{<sub id="0ganh"></sub>}

微信掃一掃，關注公眾號

科技行者
算力行者

見證連接與計算的「力量」

從視頻中學習3D世界：香港中文大學研究團隊用3D視覺幾何先驗增強多模態(tài)大語言模型

3D視覺理解多模態(tài)大語言模型空間推理

從視頻中學習3D世界：香港中文大學研究團隊用3D視覺幾何先驗增強多模態(tài)大語言模型

作者：科技行者

2025-06-05 10:28

分享至：

這項研究由香港中文大學團隊提出了視頻-3D幾何大語言模型(VG LLM)，一種無需依賴顯式3D數據輸入，僅通過普通視頻就能理解3D世界的創(chuàng)新方法。通過集成3D視覺幾何編碼器，該模型能從視頻序列中提取3D先驗信息，顯著提升空間推理能力。實驗表明，該4B參數模型在多項3D場景理解和空間推理任務上超越了現有技術，甚至在VSI-Bench評估中勝過Gemini-1.5-Pro。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-05 10:28 ? 科技行者

論文與研究團隊介紹

2025年5月，香港中文大學的鄭鐸、黃世佳、李巖洋和王立威發(fā)表了一項創(chuàng)新研究，題為《從視頻中學習3D世界：用3D視覺幾何先驗增強多模態(tài)大語言模型》（Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors）。這篇研究論文已在arXiv預印本平臺上公開（arXiv:2505.24625v1），為多模態(tài)大語言模型在3D場景理解方面帶來了重大突破。

想象一下，你正在使用一款智能助手，向它展示你家客廳的視頻，并詢問："如果我把沙發(fā)移到窗戶旁邊，會不會擋住走道？"傳統(tǒng)的AI系統(tǒng)可能會困惑不已，因為它們缺乏理解3D空間的能力。然而，香港中文大學的研究團隊開發(fā)的新技術可以讓AI助手從普通視頻中理解三維空間關系，就像人類那樣。

研究背景與挑戰(zhàn)

多模態(tài)大語言模型（MLLMs）近年來發(fā)展迅速，在圖像和視頻理解方面取得了顯著進步。然而，當涉及到理解3D空間和物體之間的空間關系時，這些模型仍然表現不佳。就像一個人只看照片而沒有立體視覺一樣，傳統(tǒng)MLLMs對深度、距離和物體之間的相對位置缺乏準確感知。

以往的研究嘗試通過將3D場景解釋為視頻序列來改善MLLMs的3D理解能力。例如，有些方法會在視覺特征中注入3D坐標信息，或者使用從3D點云重建的鳥瞰圖。但這些方法有一個共同的限制：它們依賴于密集的3D數據輸入（如深度圖和點云圖），而這些數據在現實世界中往往難以獲取。雖然可以直接從圖像估算3D屬性，但這可能引入估計誤差并降低性能。

研究團隊面臨的核心問題是："多模態(tài)大語言模型能否直接從視頻中理解3D世界，而不需要任何顯式的3D數據輸入？"

研究創(chuàng)新：視頻-3D幾何大語言模型

為了解決這一挑戰(zhàn)，研究團隊提出了一種名為"視頻-3D幾何大語言模型"（Video-3D Geometry LLM，簡稱VG LLM）的新型框架。這一方法的獨特之處在于，它無需依賴顯式的3D數據輸入，而是直接從普通視頻中學習3D幾何信息。

想象一下，我們人類在觀看視頻時，能夠自然地理解場景中物體的深度、大小和相對位置。這是因為我們的大腦能夠從連續(xù)幀之間的變化中推斷出3D信息。VG LLM就是模仿這一過程，它包含了一個3D視覺幾何編碼器，可以從視頻序列中提取3D先驗信息。

具體來說，VG LLM的工作原理如下：當輸入視頻幀時，這些圖像會同時經過兩個不同的處理通道：一個是常規(guī)的視覺編碼器，用于提取每個單獨圖像的語義特征；另一個是新集成的3D視覺幾何編碼器，用于捕捉幀間的幾何關系。這兩個編碼器提取的特征會在圖像塊級別融合，然后傳遞給MLLM主干網絡。

關鍵的突破點在于3D視覺幾何編碼器。它是在諸如圖像對或序列的點圖預測等任務上預訓練的，因此嵌入了強大的3D感知先驗知識，能夠捕捉幀間的對應關系。通過這種方式，VG LLM可以有效地將3D幾何先驗整合到模型中，使其對視角變換更加魯棒，從而顯著提高空間推理能力。

實驗設置與評估

研究團隊在各種3D場景理解和空間推理任務上進行了廣泛的實驗，這些任務都接受視頻作為輸入。為了全面評估模型性能，他們選擇了多種具有挑戰(zhàn)性的任務：

3D場景理解任務包括： - 3D視覺定位：在給定語言描述的情況下，找出視頻中特定物體的位置和邊界框 - 3D密集描述：為3D場景中的所有物體生成詳細描述 - 3D視頻物體檢測：在統(tǒng)一坐標系中檢測整個視頻中出現的所有物體

空間推理任務則包括： - VSI-Bench：評估關系推理和自我中心-分配中心轉換能力 - CV-Bench：評估2D和3D視覺理解能力 - BLINK：測試相對深度、空間推理和多視角推理能力

值得注意的是，研究團隊訓練了兩個不同的模型分別用于3D場景理解和空間推理任務，以確保公平比較。他們的模型基于Qwen2.5-VL-3B，集成了VGGT-1B作為3D幾何編碼器。

實驗結果與發(fā)現

實驗結果令人振奮。研究團隊的4B參數模型在沒有使用任何顯式3D輸入的情況下，不僅超越了許多基于3D輸入的領先模型，甚至在VSI-Bench評估中超過了Gemini-1.5-Pro這樣的大型專有模型。

具體來看，在3D場景理解任務中：

在3D視覺定位（ScanRefer數據集）上，VG LLM在IoU為0.25的閾值下達到了51.0%的準確率，超過了SPAR的48.8%。即使在沒有建議框優(yōu)化的情況下，VG LLM也達到了34.1%的準確率，超過了SPAR的31.9%。

在3D密集描述（Scan2Cap基準）上，盡管沒有使用3D相機參數或顯式深度信息，VG LLM仍然取得了74.1的CIDEr得分，超過了之前最先進的LEO模型的72.4分。這表明，VGGT提取的視覺特征中隱含編碼的3D幾何信息足以用于室內場景理解。

在3D視頻物體檢測任務上，與僅使用Qwen2.5-VL-3B的基線相比，引入視覺幾何信息帶來了顯著改進。特別是，在4幀設置中，平均召回率大幅提升了14.1個百分點，從32.1%上升到46.2%。這一改進歸功于模型增強的自我中心-分配中心轉換能力，使其能夠檢索到第一幀中不可見的物體。

在空間推理任務中：

在VSI-Bench上，VG LLM-4B取得了令人印象深刻的46.1%的平均得分，超過了Gemini-1.5-Pro的45.4%。在計數和房間大小估計等任務上，模型表現尤為出色，分別達到了66.4%和56.3%的準確率。

在CV-Bench上，VG LLM-4B在3D任務上取得了91.3%的最高準確率，展示了其強大的3D理解能力。

在BLINK（空間子集）上，模型在相對深度任務上取得了79.8%的最高得分，超過了GPT-4o的74.2%。

這些結果揭示了幾個重要發(fā)現：

1. 無需顯式的密集3D輸入，VG LLM也能超越許多基于3D輸入的模型，證明了其有效的3D幾何理解能力。

2. 通過在視覺表示中隱式建模幀間對應關系，模型學習了強大的自我中心-分配中心轉換能力，在3D視頻物體檢測上帶來了顯著改進。

3. 在需要復雜空間推理技能的任務上，如VSI-Bench，4B參數的VG LLM獲得了令人印象深刻的46.1%的平均分數，甚至超過了最佳專有模型Gemini-1.5-Pro。

值得一提的是，與SPAR這樣依賴大量訓練數據（200萬樣本）的方法不同，研究團隊的方法只使用了SPAR-7M的3%數據就取得了強大的性能，這凸顯了3D幾何建模在MLLMs中的重要性。此外，增強空間理解能力對通用多模態(tài)性能的影響微乎其微，甚至在BLINK（+4.0）和TempCompassMC（+0.6）等任務上帶來了改進。

模型架構與訓練詳情

VG LLM的核心創(chuàng)新在于其架構設計。傳統(tǒng)的MLLMs在處理視頻時，會將每一幀作為獨立的標記通過視覺編碼器處理，這種方式無法捕捉關鍵的3D幾何信息，如幀間對應關系。而VG LLM引入的3D視覺幾何編碼器則能夠彌補這一不足。

具體來說，VG LLM的架構包含以下組件：

首先是預處理階段。給定一系列RGB圖像和一個自然語言問題，傳統(tǒng)MLLM會使用2D視覺編碼器將這些圖像編碼為圖像標記。在VG LLM中，研究團隊選擇了Qwen2.5-VL作為MLLM主干。

其次是3D視覺幾何編碼器。為了在輸入幀中建模3D幾何信息（如幀間對應關系），團隊采用了一個3D視覺幾何編碼器從所有輸入圖像中共同提取這些信息。團隊選擇了VGGT作為3D視覺幾何編碼器，因為它在3D任務中表現出色。

然后是視覺特征融合。在將特征傳遞給MLLM主干之前，VG LLM會融合圖像標記和3D視覺幾何特征。具體來說，它首先將每個3D視覺幾何特征轉換為與圖像標記相同形狀的特征，然后生成幾何增強的視覺特征。

最后，這些融合的視覺特征與問題的文本嵌入一起輸入MLLM主干，生成最終響應。

在訓練方面，研究團隊采用了一種多任務學習方法，結合了多個數據集進行訓練。對于3D場景理解，他們使用了ScanRefer、Scan2Cap和從EmbodiedScan構建的數據集。對于空間推理，他們使用了SPAR-7M和LLaVA-Video-178K的LLaVA-Hound分割的數據。

模型在8個H100 80G GPU上訓練，3D場景理解訓練花費了8小時，空間推理指令調優(yōu)花費了12小時。

未來展望與應用前景

這項研究的成功為MLLMs在理解和推理3D空間方面開辟了新的可能性。通過使MLLMs能夠直接從視頻中理解3D世界，而不需要顯式的3D數據輸入，VG LLM大大擴展了這些模型的應用范圍。

在實際應用中，這項技術可能對多個領域產生深遠影響：

在室內導航機器人領域，VG LLM可以幫助機器人理解復雜的空間指令，如"移動到沙發(fā)和咖啡桌之間的空間"，無需依賴昂貴的3D傳感器。

在增強現實應用中，它可以更好地理解用戶周圍的環(huán)境，提供更加直觀和上下文相關的信息。

在智能家居系統(tǒng)中，它可以通過理解房間布局和物體之間的空間關系，提供更智能的控制和自動化功能。

在輔助技術方面，它可以幫助視障人士更好地理解周圍環(huán)境，識別物體之間的空間關系。

未來的研究方向可能包括進一步改進模型的3D幾何理解能力，擴展到更復雜和動態(tài)的場景，以及將這種能力整合到更廣泛的應用中。

總結

香港中文大學研究團隊開發(fā)的VG LLM代表了多模態(tài)大語言模型在3D場景理解和空間推理方面的重大進步。通過集成3D視覺幾何編碼器，VG LLM能夠直接從視頻中提取3D幾何信息，而不需要顯式的3D數據輸入。

實驗結果表明，VG LLM在各種3D場景理解和空間推理任務上表現出色，甚至超過了一些依賴顯式3D輸入的領先模型和大型專有模型。這些結果凸顯了在MLLMs中建模3D幾何信息的重要性，以及這種方法在提高模型空間理解能力方面的有效性。

隨著這項技術的進一步發(fā)展和應用，我們可以期待看到更多能夠自然地理解和交互于3D世界的AI系統(tǒng)，從而為各種領域帶來更智能、更直觀的解決方案。對于那些希望深入了解這項研究的讀者，可以通過arXiv:2505.24625v1訪問完整論文，或者訪問項目網站https://lavi-lab.github.io/VG-LLM獲取更多信息。

3D視覺理解多模態(tài)大語言模型空間推理

分享至

0贊

好文章，需要你的鼓勵

推薦文章

計算機視覺
注意力機制
高效算法

2025-06-18 13:07

深度學習也能像人一樣"看重點"？揭秘視覺AI如何學會聰明地觀察世界

這項研究提出了"高效探測"方法，解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制，該方法在減少90%參數的同時實現10倍速度提升，在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現注意力質量與分類性能的強相關性，生成可解釋的注意力圖譜，展現出優(yōu)異的跨域適應性。團隊承諾開源全部代碼，推動技術普及應用。
檢索增強生成
層次化分析
爭議分析

2025-06-18 13:07

伊利諾伊大學新突破：讓機器像法官一樣剖析復雜爭議，不再簡單判"真假"

伊利諾伊大學研究團隊開發(fā)了CLAIMSPECT系統(tǒng)，通過層次化分解復雜爭議、智能檢索相關文獻、多角度收集觀點的方法，將傳統(tǒng)的"真假"判斷轉變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構建爭議話題的分析框架，識別不同觀點及其支撐證據，為科學和政治爭議提供更全面客觀的分析，已在生物醫(yī)學和國際關系領域驗證有效性。
人工智能
情感認知融合網絡
多模態(tài)情感分析

2025-06-18 13:07

清華大學突破性發(fā)現：讓AI像人類一樣理解和表達情感的新方法

清華大學研究團隊首次提出情感認知融合網絡(ECFN)，讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構，在情感識別準確率上比現有最佳系統(tǒng)提升32%，情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限，實現了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模，為醫(yī)療、教育、客服等領域帶來革命性應用前景。
人工智能
多智能體強化學習
新型算法

2025-06-18 11:13

哈佛大學揭秘：AI如何像人類一樣通過"玩游戲"學會復雜推理

哈佛大學研究團隊通過創(chuàng)新的多智能體強化學習方法，讓AI在戰(zhàn)略游戲中學會復雜推理。研究發(fā)現AI通過游戲競爭能發(fā)展出類人思維能力，在邏輯推理、創(chuàng)造性解決問題等方面表現顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領域的應用奠定基礎，展現了通過模擬人類學習過程培養(yǎng)真正智能AI的新路徑。

深度學習也能像人一樣"看重點"？揭秘視覺AI如何學會聰明地觀察世界

深度學習也能像人一樣"看重點"？揭秘視覺AI如何學會聰明地觀察世界

2025-06-18 13:07

伊利諾伊大學新突破：讓機器像法官一樣剖析復雜爭議，不再簡單判"真假"

伊利諾伊大學新突破：讓機器像法官一樣剖析復雜爭議，不再簡單判"真假"

2025-06-18 13:07

清華大學突破性發(fā)現：讓AI像人類一樣理解和表達情感的新方法

清華大學突破性發(fā)現：讓AI像人類一樣理解和表達情感的新方法

2025-06-18 13:07

哈佛大學揭秘：AI如何像人類一樣通過"玩游戲"學會復雜推理

哈佛大學揭秘：AI如何像人類一樣通過"玩游戲"學會復雜推理

2025-06-18 11:13

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網
管理現代化
和訊IT
TechWeb
第三媒體
速途網
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網安備 11010802021500號

北京第二十六維信息技術有限公司（至頂網）版權所有。 | 聯(lián)絡我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網上有害信息舉報專區(qū)：https://www.12377.cn

<sub id="s1kz6"><p id="s1kz6"></p></sub>

^{<thead id="s1kz6"></thead>}