2025年,中國科學院計算技術研究所的馮偉倫、楊傳光、安竹林等研究人員,與ETH蘇黎世聯(lián)邦理工學院和上海交通大學的學者們合作,發(fā)表了一項名為《量化視覺幾何基礎變換器》的重要研究。這項研究于2025年9月30日發(fā)布在arXiv預印本平臺,編號為arXiv:2509.21302v2,為解決大型3D重建模型的部署難題提供了創(chuàng)新性解決方案。
想象一下,你有一個超級精密的3D相機,能夠僅僅通過拍攝幾張照片就完整還原出一個立體場景。這樣的"魔法"在AI世界里確實存在,它就是被稱為VGGT(視覺幾何基礎變換器)的技術。VGGT就像一位經(jīng)驗豐富的建筑師,能從幾張建筑物的照片中精確推算出整個建筑的3D模型、每個攝像機的位置,甚至追蹤其中每個點的移動軌跡。
但是,這位"建筑師"有個大麻煩:它實在太"臃腫"了。VGGT模型包含12億個參數(shù),就像一本厚達幾萬頁的百科全書,雖然知識淵博,但實在太笨重了,普通的計算機根本無法承載。更要命的是,運行一次就需要消耗巨大的電力和內(nèi)存,就像開動一臺耗電巨大的工廠機器僅僅為了制作一個零件。
中科院的研究團隊意識到,如果不解決這個"減肥"問題,再優(yōu)秀的技術也無法真正走進千家萬戶。他們的目標很明確:在保持VGGT幾乎全部能力的前提下,讓它"瘦身"到可以在普通設備上流暢運行的程度。
經(jīng)過深入研究,團隊發(fā)現(xiàn)了一個有趣的現(xiàn)象。傳統(tǒng)的模型壓縮技術(稱為量化)在處理VGGT時會遇到兩個獨特的挑戰(zhàn)。第一個挑戰(zhàn)就像在一群正常體重的人中突然混入了幾個特別胖的人,整個隊伍的平均體重分布就變得極不均勻。在VGGT中,那些"特別胖的人"是一些特殊的數(shù)據(jù)節(jié)點,叫做相機令牌和注冊令牌,它們的數(shù)值往往比普通圖像數(shù)據(jù)大得多,導致整個模型的數(shù)據(jù)分布變得畸形。
第二個挑戰(zhàn)則更加微妙。3D重建不同于普通的圖像識別任務,它需要處理多個視角的復雜場景。這就像讓AI同時理解同一座建筑從東南西北四個方向拍攝的照片,并且要完全理解它們之間的空間關系。在準備訓練數(shù)據(jù)時,如果選擇的樣本不夠多樣化或者包含了太多"異常"樣本,就會導致模型學習效果大打折扣。
為了解決這些問題,研究團隊提出了一套創(chuàng)新的解決方案,他們稱之為QuantVGGT。這套方案包含兩個核心技術。
第一個技術叫做"雙重平滑精細量化",就像給數(shù)據(jù)做了一次全身按摩和局部調(diào)理。首先,他們使用一種叫做哈達瑪?shù)伦儞Q的數(shù)學工具,這就像用一個特殊的"攪拌器"把那些極端的數(shù)值分散到整個數(shù)據(jù)空間中,讓原本集中在某些位置的極端值變得更加均勻。這個過程就像把一滴濃稠的蜂蜜滴入一杯水中,然后充分攪拌,讓甜味均勻分布到整杯水中,而不是仍然聚集在一個地方。
接下來,他們又進行了一次"局部調(diào)理"。在哈達瑪?shù)伦儞Q之后,數(shù)據(jù)的全局分布雖然變得更均勻了,但不同通道之間仍然存在局部的不平衡。研究團隊設計了一個智能的縮放機制,就像給每個不同的數(shù)據(jù)通道配置了專門的"調(diào)色劑",讓每個通道內(nèi)部的數(shù)值分布都變得更加平滑合理。
第二個核心技術叫做"噪聲過濾多樣化采樣",專門用來解決訓練數(shù)據(jù)選擇的問題。這個過程分為兩個步驟。首先是"噪聲過濾",研究團隊開發(fā)了一套評分系統(tǒng),能夠自動識別并過濾掉那些可能干擾學習的異常樣本。這就像在一堆照片中挑選出拍攝質(zhì)量最好、最有代表性的照片,而不是被那些模糊、曝光異常的照片所干擾。
然后是"多樣化采樣",這一步更加巧妙。研究團隊發(fā)現(xiàn),VGGT有一個特殊的"偏好":它特別擅長理解第一張圖片與后續(xù)圖片之間的關系。基于這個發(fā)現(xiàn),他們設計了一種基于幀間相關性的聚類方法,就像根據(jù)不同場景的特征將照片分類整理,然后從每個類別中均勻選擇樣本,確保訓練數(shù)據(jù)既有足夠的多樣性,又能很好地代表真實世界的各種情況。
為了驗證這套技術的效果,研究團隊進行了大量的實驗測試。他們選擇了兩個主要的測試任務:相機位置估計和點云地圖生成。相機位置估計就像讓AI在看到幾張照片后,準確推算出每張照片的拍攝位置和角度。點云地圖生成則是根據(jù)照片重建出密集的3D點云,就像用無數(shù)個小點重新"畫"出一個立體場景。
在相機位置估計任務中,研究團隊使用了Co3Dv2數(shù)據(jù)集進行測試。結果顯示,在8位精度(W8A8)的設置下,QuantVGGT幾乎完美保持了原始模型的性能,準確率保持在99.9%以上。更令人印象深刻的是,即使在更加激進的4位精度(W4A4)設置下,QuantVGGT仍然能夠保持原始模型98%的性能。相比之下,其他現(xiàn)有的量化方法在4位精度下的性能都出現(xiàn)了顯著下降,比如目前最先進的Quarot方法只能達到81.6的準確率,而QuantVGGT達到了88.2。
在點云地圖生成任務中,研究團隊使用DTU數(shù)據(jù)集進行了測試。令人驚喜的是,在某些指標上,8位精度的QuantVGGT甚至比原始的全精度模型表現(xiàn)更好。在4位精度下,雖然性能有所下降,但仍然遠遠超過其他量化方法。例如,在準確度指標上,Quarot方法只能達到1.593,而QuantVGGT達到了1.282,非常接近原始模型的1.185。
除了性能保持優(yōu)異外,QuantVGGT在實際部署效率方面的表現(xiàn)更加令人振奮。在4位精度設置下,模型的內(nèi)存占用減少了75%(壓縮比達到3.7倍),推理速度提升了2.5倍。這意味著原本需要高端服務器才能運行的模型,現(xiàn)在可以在普通的消費級設備上流暢運行。
為了更深入地理解各個技術組件的貢獻,研究團隊還進行了詳細的消融實驗。他們發(fā)現(xiàn),單獨使用旋轉(zhuǎn)或縮放技術雖然都能帶來一定的改善,但只有將兩者結合使用才能達到最佳效果。在校準數(shù)據(jù)選擇方面,他們比較了隨機采樣、過濾采樣、聚類采樣等不同策略,結果表明他們提出的噪聲過濾多樣化采樣策略不僅能提高平均性能,還能顯著減少結果的波動性,使模型表現(xiàn)更加穩(wěn)定可靠。
研究團隊還特別關注了方法的計算開銷問題。他們發(fā)現(xiàn),相比于簡單的量化方法,QuantVGGT只增加了0.2%的推理延遲,這個額外開銷幾乎可以忽略不計。在校準階段,整個過程只需要大約2.67小時,就能在消費級GPU(如RTX4090)上完成,而額外的內(nèi)存開銷僅為0.02GB。
這項研究的意義遠不止于技術層面的突破。在實際應用中,3D重建技術有著廣泛的應用前景。在虛擬現(xiàn)實和增強現(xiàn)實領域,高效的3D重建能夠讓用戶更快速地創(chuàng)建沉浸式體驗。在自動駕駛汽車中,實時的3D場景理解對于安全導航至關重要。在文物保護和建筑設計領域,精確的3D重建能夠幫助專家更好地分析和記錄重要文化遺產(chǎn)。
從技術發(fā)展的角度來看,QuantVGGT代表了模型壓縮技術在3D視覺領域的重要進展。以往的量化技術主要針對2D圖像處理或自然語言處理任務進行優(yōu)化,而3D重建任務的特殊性要求全新的技術路徑。這項研究首次系統(tǒng)性地分析了大規(guī)模3D重建模型的量化難題,并提出了針對性的解決方案。
值得注意的是,這項研究還具有很強的通用性。雖然實驗主要基于VGGT模型,但所提出的雙重平滑精細量化和噪聲過濾多樣化采樣技術原理上可以應用到其他類似的大規(guī)模3D視覺模型上。隨著3D AI技術的快速發(fā)展,這套方法很可能成為該領域模型壓縮的標準技術路線。
從工程實踐的角度,QuantVGGT的成功也為AI模型的產(chǎn)業(yè)化部署提供了寶貴經(jīng)驗。它證明了通過精心設計的技術手段,可以在幾乎不損失模型能力的前提下,顯著降低部署成本和硬件要求。這對于推動AI技術從實驗室走向?qū)嶋H應用具有重要意義。
不過,這項研究也有一些局限性需要進一步探索。目前的實驗主要集中在特定的數(shù)據(jù)集和任務上,在更廣泛的應用場景中的表現(xiàn)還需要更多驗證。此外,雖然4位量化已經(jīng)實現(xiàn)了很好的效果,但如何進一步降低到2位甚至1位精度,同時保持可接受的性能,仍然是一個開放的研究問題。
研究團隊已經(jīng)將QuantVGGT的代碼開源,發(fā)布在GitHub平臺上,為學術界和工業(yè)界的進一步研究提供了便利。這種開放的研究態(tài)度有助于加速整個領域的技術進步,讓更多研究者能夠在此基礎上開發(fā)出更加優(yōu)秀的解決方案。
說到底,QuantVGGT的成功表明,在AI技術快速發(fā)展的今天,僅僅追求模型性能的極致提升是不夠的,如何讓強大的AI能力真正服務于普通用戶,成為了一個同樣重要的技術挑戰(zhàn)。中科院團隊的這項研究為這個挑戰(zhàn)提供了一個優(yōu)雅的解決方案,讓我們看到了AI技術普及化的更多可能性。有興趣深入了解技術細節(jié)的讀者可以通過arXiv:2509.21302v2查詢完整的研究論文。
Q&A
Q1:QuantVGGT是什么?它解決了什么問題?
A:QuantVGGT是中科院團隊開發(fā)的一種AI模型壓縮技術,專門用于讓龐大的3D重建模型"瘦身"。它解決的核心問題是VGGT這類12億參數(shù)的3D重建AI模型太笨重,普通設備無法運行的問題。通過QuantVGGT技術,可以將模型體積壓縮75%,速度提升2.5倍,同時保持98%的原始性能。
Q2:雙重平滑精細量化技術是如何工作的?
A:雙重平滑精細量化包含兩個步驟。首先使用哈達瑪?shù)伦儞Q進行"全局攪拌",就像把蜂蜜均勻攪拌到水中一樣,將極端數(shù)值分散到整個數(shù)據(jù)空間;然后進行"局部調(diào)理",為每個數(shù)據(jù)通道配置專門的縮放因子,讓每個通道內(nèi)部的數(shù)值分布都變得平滑合理。這樣可以有效解決3D模型中數(shù)據(jù)分布不均的問題。
Q3:這項技術有什么實際應用價值?
A:QuantVGGT讓原本需要高端服務器才能運行的3D重建AI可以在普通消費級設備上流暢運行,這為虛擬現(xiàn)實、增強現(xiàn)實、自動駕駛、文物保護等領域的應用普及鋪平了道路。用戶可以用普通手機或電腦就實現(xiàn)高質(zhì)量的3D場景重建,而不需要昂貴的專業(yè)設備。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。