av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 空間智能先行者:清華大學研究團隊打造全新視頻空間理解模型

空間智能先行者:清華大學研究團隊打造全新視頻空間理解模型

2025-06-03 17:40
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-03 17:40 ? 科技行者

在我們每天看視頻的時候,大多數(shù)人都能輕松理解視頻中物體的空間位置關(guān)系。比如,當你看到一段家庭室內(nèi)視頻時,你可以立刻知道"沙發(fā)在電視的左邊"或者"桌子比椅子高"。這種空間理解能力對人類來說非常自然,但對人工智能系統(tǒng)卻是一項巨大挑戰(zhàn)。

2025年5月,清華大學的吳電坤、劉方夫、洪奕馨和段越琦研究團隊在arXiv上發(fā)表了一篇題為《Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence》的研究論文。這項研究旨在提升人工智能系統(tǒng)對視頻中空間關(guān)系的理解能力,讓AI也能像人類一樣,通過觀看普通2D視頻就能理解3D空間布局。

在人工智能和計算機視覺領(lǐng)域,多模態(tài)大語言模型(MLLM)近年來取得了顯著進展,它們能夠理解圖像和文本等多種形式的信息。像Gemini和GPT-4o這樣的商業(yè)模型在處理2D視覺任務(wù)方面表現(xiàn)出色,但它們在空間智能方面——也就是感知、理解和推理3D場景的能力——仍然存在明顯短板。

目前,要讓AI系統(tǒng)具備空間理解能力,通常需要提供額外的3D或2.5D數(shù)據(jù)(如點云、相機參數(shù)或深度圖)。但在現(xiàn)實生活中,我們大多數(shù)時候只能獲取普通的2D視頻。因此,僅通過2D視頻就能實現(xiàn)空間理解的技術(shù)——也就是視覺空間智能——變得尤為重要。

清華大學的研究團隊意識到,現(xiàn)有的視頻大語言模型主要依賴于CLIP范式預訓練的視覺編碼器,這些編碼器擅長捕捉高級語義內(nèi)容,但在只有2D視頻輸入的情況下缺乏結(jié)構(gòu)和空間信息。為了解決這個問題,研究團隊提出了一種名為"Spatial-MLLM"的全新方法,它能顯著提升現(xiàn)有視頻大語言模型的視覺空間智能。

一、Spatial-MLLM:空間理解的創(chuàng)新架構(gòu)

想象一下,你拿到一臺全新的相機,但它沒有能直接測量物體距離的功能。不過,這臺相機有兩個鏡頭:一個專門拍攝物體的外觀和顏色,另一個則善于捕捉物體的形狀和位置關(guān)系。Spatial-MLLM就像這樣一個雙鏡頭系統(tǒng),它通過整合兩種不同類型的視覺信息,幫助AI更好地理解視頻中的空間關(guān)系。

具體來說,Spatial-MLLM采用了一種雙編碼器架構(gòu),包括一個2D視覺編碼器和一個空間編碼器。2D視覺編碼器從現(xiàn)有的視頻大語言模型中繼承而來,專門負責提取視頻中的語義特征,比如識別"這是一張椅子"或"那是一個杯子"。而空間編碼器則來自前饋視覺幾何基礎(chǔ)模型,專門負責提取3D結(jié)構(gòu)特征,幫助理解"椅子在桌子的左邊"或"杯子比盤子高"這樣的空間關(guān)系。

研究團隊使用了一個輕量級的連接器將這兩種特征整合到一起,形成統(tǒng)一的視覺標記,然后輸入到大語言模型中進行推理。這就像一個翻譯官,將兩種不同"語言"的信息整合成統(tǒng)一的理解。

這種雙編碼器設(shè)計的關(guān)鍵優(yōu)勢在于,它不需要任何額外的3D或2.5D數(shù)據(jù)輸入,只需要普通的2D視頻就能實現(xiàn)強大的空間理解和推理能力。

二、空間感知的幀采樣策略

當我們看一段視頻時,并不是每一幀畫面都同等重要。比如,當拍攝者在房間里走動時,有些角度可能顯示了更多的空間信息,而有些角度則可能重復或冗余。

由于顯存限制,視頻大語言模型通常只能處理視頻序列中的有限幀數(shù)。傳統(tǒng)方法通常采用均勻采樣,即等間隔地選擇視頻幀。但這種方法并不理想,因為它可能會錯過關(guān)鍵的空間信息,或者選擇了過多相似的畫面。

Spatial-MLLM提出了一種空間感知的幀采樣策略,它能在推理時選擇那些最具空間信息量的幀。這就像從一本厚書中只選擇最重要的幾頁來讀,但仍能理解整個故事。

具體來說,這個策略首先從視頻中均勻采樣較多幀(比如128幀),然后利用空間編碼器提取這些幀的3D特征,并將它們解碼為體素網(wǎng)格。接下來,幀選擇任務(wù)被重新定義為一個最大覆蓋問題:從這128幀中選擇16幀,使得它們覆蓋的體素總數(shù)最大化。研究團隊使用貪心算法解決這個問題,確保選擇的幀能夠最大程度地覆蓋場景的空間信息。

三、模型訓練與數(shù)據(jù)集構(gòu)建

為了訓練Spatial-MLLM,研究團隊構(gòu)建了一個名為"Spatial-MLLM-120k"的視覺空間問答數(shù)據(jù)集。這個數(shù)據(jù)集包含了約12萬個問答對,涵蓋了各種空間理解和推理任務(wù),如物體計數(shù)、物體大小、房間大小、絕對距離、出現(xiàn)順序、相對距離和相對方向等。

數(shù)據(jù)來源主要有三部分:ScanQA數(shù)據(jù)集的訓練集(占比21.26%)、SQA3D數(shù)據(jù)集(占比21.27%)以及研究團隊自己創(chuàng)建的數(shù)據(jù)(占比57.47%)。所有數(shù)據(jù)都來自ScanNet訓練集中的場景,并且研究團隊特別注意避免數(shù)據(jù)泄露,確保在評估集中使用的場景視頻沒有出現(xiàn)在訓練數(shù)據(jù)中。

訓練過程分為兩個階段。首先是監(jiān)督微調(diào)階段,研究團隊凍結(jié)了2D視覺編碼器和空間編碼器,以保留它們提取豐富語義和結(jié)構(gòu)信息的能力,只訓練連接模塊和大語言模型主干,使模型能夠自適應地融合2D和3D特征,增強其空間理解和推理能力。

第二個階段是強化學習訓練。研究團隊首先進行了一個簡單的冷啟動,幫助模型適應正確的推理格式,然后使用群組相對策略優(yōu)化(GRPO)來增強模型的長鏈思維空間推理能力。在這個階段,研究團隊除了應用于所有任務(wù)類型的格式獎勵外,還引入了任務(wù)相關(guān)的獎勵建模,確保它能準確反映預測答案與真實答案之間的接近程度。

四、實驗結(jié)果與分析

研究團隊在多個基準測試上評估了Spatial-MLLM的性能,包括VSI-Bench、ScanQA和SQA3D。結(jié)果表明,盡管Spatial-MLLM只有4B參數(shù),但它在各種視覺空間理解和推理任務(wù)上都顯著優(yōu)于現(xiàn)有的開源和商業(yè)模型,包括那些參數(shù)量遠大于它的模型(如32B或72B)。

在VSI-Bench基準測試中,Spatial-MLLM的平均準確率達到了48.4%,超過了所有開源和商業(yè)模型,包括Gemini-1.5 Pro(45.4%)和GPT-4o(34.0%)。值得注意的是,Spatial-MLLM只使用了16幀輸入,而Gemini-1.5 Pro則是以1 FPS的速率采樣視頻(在VSI-Bench上平均為85幀)。盡管輸入幀數(shù)顯著較少,Spatial-MLLM仍然取得了3.0%的性能優(yōu)勢。

在ScanQA和SQA3D基準測試中,Spatial-MLLM同樣表現(xiàn)出色。在ScanQA上,它在各項指標上都明顯優(yōu)于所有僅使用視頻輸入的模型,包括BLEU-1(44.4)、METEOR(18.4)和CIDEr(91.8)等。在SQA3D上,Spatial-MLLM的平均EM-1準確率達到了55.9%,EM-R1為58.7%,同樣優(yōu)于其他視頻輸入模型。

研究團隊還進行了消融實驗,驗證了強化學習訓練、Spatial-MLLM架構(gòu)和空間感知幀采樣策略的有效性。結(jié)果表明,盡管只進行了小規(guī)模的GRPO訓練(1,000步),Spatial-MLLM-16仍然獲得了性能提升,表明長鏈思維推理有助于VSI-Bench所需的空間推理能力。

同時,將Qwen2.5-VL-3B和Qwen2.5-VL-7B在Spatial-MLLM-120K數(shù)據(jù)集上進行微調(diào),雖然這兩個模型在微調(diào)后都有所改進,但仍然比Spatial-MLLM-SFT-16表現(xiàn)差,這驗證了雙編碼器架構(gòu)的有效性。

在幀采樣方面,增加采樣幀數(shù)(從8幀到32幀)會提高空間感知幀采樣和均勻采樣的性能。與均勻采樣相比,空間感知幀采樣在相同輸入幀數(shù)的情況下始終表現(xiàn)更佳。

五、Spatial-MLLM的實際應用案例

Spatial-MLLM的空間理解能力在很多實際場景中都有潛在應用。比如,在智能家居系統(tǒng)中,它可以幫助機器人理解"把水杯放在電視旁邊的咖啡桌上"這樣的指令;在自動駕駛中,它可以幫助車輛理解"前方50米左側(cè)有一個行人正在過馬路";在虛擬現(xiàn)實中,它可以增強用戶與虛擬環(huán)境的交互體驗。

研究團隊在論文中展示了一些具體的案例。比如,當被問到"如果我站在沙發(fā)旁邊面對爐子,電視在我的左邊、右邊還是后面?"時,Spatial-MLLM能夠通過分析視頻中的空間關(guān)系,正確回答"電視在右邊"。又如,當詢問"這個房間里有多少把椅子?"時,Spatial-MLLM不僅能給出正確的數(shù)量,還能解釋它是如何識別和計數(shù)這些椅子的。

這些例子表明,Spatial-MLLM不僅具備空間理解能力,還能進行自我驗證和任務(wù)分解,這對于構(gòu)建可靠的AI系統(tǒng)至關(guān)重要。

六、研究局限性與未來展望

盡管Spatial-MLLM在視覺空間理解和推理任務(wù)上取得了顯著進展,但研究團隊也坦誠地指出了一些局限性。首先,還有空間進一步擴大Spatial-MLLM的模型規(guī)模和訓練數(shù)據(jù);其次,目前的研究主要關(guān)注視覺空間智能,未來可以探索如何將空間結(jié)構(gòu)信息整合到更廣泛的視頻理解和推理任務(wù)中。

研究團隊認為,未來的工作可以朝著幾個方向發(fā)展:一是擴大模型規(guī)模和訓練數(shù)據(jù),進一步提升性能;二是探索更高級的特征融合策略,如交叉注意力機制;三是將空間理解能力擴展到更多場景和應用中,如機器人導航、增強現(xiàn)實等。

總的來說,Spatial-MLLM代表了視覺空間智能研究的一個重要進展。它通過創(chuàng)新的雙編碼器架構(gòu)和空間感知幀采樣策略,使AI系統(tǒng)能夠僅通過2D視頻就理解3D空間關(guān)系,這在沒有額外3D或2.5D數(shù)據(jù)的情況下是一個顯著突破。這項研究不僅推動了多模態(tài)大語言模型的技術(shù)邊界,也為未來AI系統(tǒng)在真實世界中的應用奠定了基礎(chǔ)。

如果你對這項研究感興趣,可以訪問項目主頁:https://diankun-wu.github.io/Spatial-MLLM/,獲取更多詳細信息和代碼實現(xiàn)。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-