這項由中國科學(xué)院人工智能學(xué)院的王嘉琮、康子健、王浩晨、姜海勇、肖俊等研究者與字節(jié)跳動的李佳雯、吳泊宏、王雅、冉嬌、梁笑、馮超等團(tuán)隊共同完成的研究發(fā)表于2025年1月。有興趣深入了解的讀者可以通過論文主頁https://huggingface.co/BytedanceDouyinContent/VGR訪問完整信息。
傳統(tǒng)的人工智能就像一個只能通過文字理解世界的學(xué)生。當(dāng)老師給它一張圖片并問問題時,這個AI學(xué)生往往會忽略圖片中的關(guān)鍵細(xì)節(jié),僅憑文字描述就匆忙給出答案。這就好比讓人只聽別人的描述來回答關(guān)于一幅畫的問題,自然容易出錯。
中科院和字節(jié)跳動的研究團(tuán)隊發(fā)現(xiàn)了這個問題的根源?,F(xiàn)有的多模態(tài)AI模型雖然能"看到"圖片,但在推理過程中主要還是依賴語言,就像戴著有色眼鏡看世界一樣,容易產(chǎn)生偏見。特別是在需要仔細(xì)觀察圖片細(xì)節(jié)的任務(wù)中,比如分析復(fù)雜圖表、閱讀文檔或解答科學(xué)問題時,這種"語言偏見"會導(dǎo)致明顯的性能下降。
為了解決這個問題,研究團(tuán)隊開發(fā)了VGR(Visual Grounded Reasoning,視覺錨定推理)系統(tǒng)。這個系統(tǒng)的核心思想很像一個善于觀察的偵探:當(dāng)面對一個案件時,偵探不會僅憑第一印象就下結(jié)論,而是會仔細(xì)檢查現(xiàn)場的每一個關(guān)鍵線索,在需要時重新審視重要證據(jù),然后基于這些實際觀察到的證據(jù)進(jìn)行推理。
VGR的工作原理可以用看醫(yī)生來類比。傳統(tǒng)AI就像一個只聽病人口述癥狀就開藥的醫(yī)生,而VGR則像一個會主動要求看X光片、化驗單等具體檢查結(jié)果的醫(yī)生。當(dāng)VGR遇到需要詳細(xì)分析的問題時,它會主動"放大鏡頭",重點關(guān)注圖片中的關(guān)鍵區(qū)域,就像醫(yī)生會仔細(xì)觀察X光片上的可疑陰影一樣。
一、突破性的"選擇性回放"技術(shù)
VGR最獨特的地方在于它的"選擇性回放"機(jī)制。這就像給AI配備了一個可以隨時調(diào)取的圖片檔案庫。當(dāng)AI在推理過程中需要查看某個特定區(qū)域時,它可以發(fā)出一個特殊信號,系統(tǒng)就會立即提供那個區(qū)域的高清圖像信息。
具體來說,這個過程類似于用手機(jī)看照片。當(dāng)你想看照片中某個人的表情時,你會用手指放大那個區(qū)域。VGR也是如此,當(dāng)它需要分析圖表中的某個數(shù)值或文檔中的某行文字時,會用類似"[坐標(biāo)]"這樣的特殊標(biāo)記來"框選"需要仔細(xì)查看的區(qū)域。
這種設(shè)計的巧妙之處在于效率。傳統(tǒng)方法需要處理整張高分辨率圖片的所有信息,就像要把整本百科全書都背下來才能回答一個問題。而VGR只在需要時才調(diào)取特定區(qū)域的詳細(xì)信息,就像按需查閱百科全書的特定章節(jié),大大提高了處理效率。
研究團(tuán)隊采用了一種"先擴(kuò)展再壓縮"的策略來平衡細(xì)節(jié)保存和計算效率。他們將傳統(tǒng)方法支持的圖片分塊數(shù)量從4個增加到16個,但同時使用壓縮技術(shù)減少了70%的計算量。這就像用更精密的相機(jī)拍攝了更多角度的照片,但通過智能存儲技術(shù)讓文件大小反而更小。
二、革命性的訓(xùn)練數(shù)據(jù)構(gòu)建
要訓(xùn)練這樣一個會"看圖推理"的AI,需要特殊的訓(xùn)練數(shù)據(jù)。這就像教孩子學(xué)習(xí)時,不能只給他們文字練習(xí)題,還需要配有詳細(xì)圖解的習(xí)題冊。
研究團(tuán)隊設(shè)計了一個三階段的數(shù)據(jù)構(gòu)建流程,就像釀酒的過程一樣,每個階段都在提純和改善質(zhì)量。
首先是"冷啟動"階段。團(tuán)隊使用現(xiàn)有的先進(jìn)AI模型Qwen2.5-VL-72B來生成初始訓(xùn)練數(shù)據(jù)。這個過程就像讓一個有經(jīng)驗的老師先出一套示范題目。他們要求這個AI模型不僅要回答問題,還要明確指出圖片中支持其答案的關(guān)鍵區(qū)域,就像要求學(xué)生在考試時不僅寫答案,還要標(biāo)注參考了教科書的哪些頁面。
但是,即使是優(yōu)秀的AI老師也會犯錯。因此,團(tuán)隊設(shè)計了嚴(yán)格的"拒絕采樣"流程來篩選高質(zhì)量數(shù)據(jù)。這個過程就像編輯部審稿一樣,包含三道關(guān)卡:格式驗證確保答案能被正確解析,準(zhǔn)確性驗證檢查答案是否正確,視覺定位驗證確認(rèn)標(biāo)注的圖片區(qū)域是否真的包含相關(guān)信息。
為了進(jìn)一步提高數(shù)據(jù)生成效率,團(tuán)隊訓(xùn)練了專門的"標(biāo)注模型"。這個模型就像培養(yǎng)了一個專門的助教,通過學(xué)習(xí)少量高質(zhì)量樣本,能夠快速生成更多符合要求的訓(xùn)練數(shù)據(jù)。這個標(biāo)注模型的通過率從最初的14%提升到了40%,生成速度也顯著提高。
三、精密的技術(shù)架構(gòu)設(shè)計
VGR的技術(shù)架構(gòu)就像一個精密的瑞士手表,每個組件都經(jīng)過精心設(shè)計和優(yōu)化。
在圖像處理方面,VGR采用了LLaVA的AnyRes方法來處理高分辨率圖像。這就像用拼圖的方式處理大照片:先把整張圖片分成若干小塊,每塊都保持足夠的清晰度,然后再智能地拼接和處理這些信息。
為了讓AI能準(zhǔn)確"框選"需要查看的區(qū)域,研究團(tuán)隊設(shè)計了專門的檢測損失函數(shù)。這就像訓(xùn)練射箭選手一樣,不僅要求他們能射中靶心,還要確保每一箭的精準(zhǔn)度都符合標(biāo)準(zhǔn)。這個函數(shù)結(jié)合了位置精確度和區(qū)域重疊度兩個指標(biāo),確保AI能準(zhǔn)確定位到圖片中的關(guān)鍵信息。
系統(tǒng)還采用了巧妙的特征壓縮策略。對于整體預(yù)覽圖片,使用2×2的壓縮;對于需要細(xì)看的局部區(qū)域,同樣使用2×2壓縮以保持細(xì)節(jié);而對于輔助的高分辨率分塊,則使用4×4壓縮來節(jié)省計算資源。這就像攝影師會根據(jù)不同用途選擇不同的照片分辨率一樣。
四、令人矚目的實驗成果
VGR在多個測試基準(zhǔn)上的表現(xiàn)就像一個優(yōu)秀學(xué)生在各科考試中都名列前茅。在MMStar基準(zhǔn)測試中,VGR比基線模型LLaVA-NeXT提升了4.1分;在AI2D科學(xué)圖表理解任務(wù)中提升了7.1分;在ChartQA圖表問答任務(wù)中更是實現(xiàn)了12.9分的大幅提升。
更令人印象深刻的是,VGR在取得這些成績的同時,只使用了基線模型30%的圖像信息量。這就像一個學(xué)生用更少的復(fù)習(xí)時間卻考出了更好的成績,體現(xiàn)了方法的高效性。
為了驗證系統(tǒng)各個組件的重要性,研究團(tuán)隊進(jìn)行了詳細(xì)的消融實驗。他們發(fā)現(xiàn),視覺定位和推理過程必須同時存在才能發(fā)揮最佳效果,就像烹飪時需要同時掌握火候和調(diào)料一樣,缺一不可。
實驗還顯示,檢測損失函數(shù)對于準(zhǔn)確定位至關(guān)重要。由于坐標(biāo)信息是連續(xù)的數(shù)值,傳統(tǒng)的文本生成方法容易產(chǎn)生量化誤差,而專門的檢測損失能確保坐標(biāo)預(yù)測的精確性。
特征回放機(jī)制的重要性也得到了驗證。僅僅標(biāo)注重要區(qū)域而不提供這些區(qū)域的詳細(xì)視覺信息,性能提升非常有限。這證明了"真正看到細(xì)節(jié)"而不是"知道哪里重要"才是關(guān)鍵。
五、實際應(yīng)用展示
在實際使用中,VGR展現(xiàn)出了令人印象深刻的能力。面對復(fù)雜的圖表分析任務(wù)時,VGR會自動識別需要重點關(guān)注的數(shù)據(jù)點,然后基于這些具體觀察進(jìn)行推理。
比如在分析一個關(guān)于日本和英國經(jīng)濟(jì)貿(mào)易影響的柱狀圖時,VGR首先識別出需要比較的兩個國家的數(shù)據(jù)條,然后準(zhǔn)確提取各自的數(shù)值(日本974百萬美元,英國669百萬美元),最后計算出差值305百萬美元。整個過程就像一個仔細(xì)的會計師在核對賬目一樣條理清晰。
在文檔理解任務(wù)中,VGR能夠準(zhǔn)確定位表格中的特定信息。當(dāng)被問及某個會議的調(diào)查員是誰時,VGR會先找到相關(guān)的表格行,然后精確定位到對應(yīng)的單元格,最終給出準(zhǔn)確答案。
這種能力在科學(xué)圖表理解方面尤為突出。面對生物結(jié)構(gòu)圖時,VGR能夠準(zhǔn)確識別不同層次的標(biāo)注,理解各部分的功能關(guān)系,然后基于這些具體觀察來回答問題。
六、創(chuàng)新意義與局限性
VGR的創(chuàng)新不僅在于技術(shù)實現(xiàn),更在于思路的轉(zhuǎn)變。它首次實現(xiàn)了多模態(tài)推理中的"按需視覺查詢",就像給AI裝上了可以隨時調(diào)焦的智能眼鏡。
這種方法的意義在于真正實現(xiàn)了視覺信息與語言推理的深度融合。傳統(tǒng)方法往往是"先看后想",而VGR實現(xiàn)了"邊看邊想",在推理過程中動態(tài)調(diào)取所需的視覺信息。
當(dāng)然,VGR也有其局限性。目前它主要基于LLaVA架構(gòu),未來可能需要探索更強(qiáng)大的視覺編碼器和語言模型來進(jìn)一步提升性能。研究團(tuán)隊也提到,結(jié)合強(qiáng)化學(xué)習(xí)可能會帶來更大的突破。
另外,VGR目前主要在需要精細(xì)視覺理解的任務(wù)中表現(xiàn)突出,在一些更依賴常識推理的任務(wù)中優(yōu)勢可能不那么明顯。這就像專業(yè)的顯微鏡在觀察細(xì)胞結(jié)構(gòu)時效果卓越,但用來看風(fēng)景可能就顯得大材小用了。
歸根結(jié)底,VGR代表了多模態(tài)AI發(fā)展的一個重要方向:從簡單的"看一眼就判斷"轉(zhuǎn)向"仔細(xì)觀察再推理"。這種轉(zhuǎn)變不僅提高了AI的準(zhǔn)確性,也讓AI的推理過程更加透明和可解釋。當(dāng)AI告訴我們它的答案時,我們也能看到它具體觀察了圖片的哪些部分,這種"可視化推理"為AI的可信度建設(shè)提供了新的可能。
隨著這項技術(shù)的進(jìn)一步發(fā)展和優(yōu)化,我們有理由期待AI在圖像理解和多模態(tài)推理方面能夠達(dá)到更接近人類的水平。對于普通用戶來說,這意味著未來的AI助手將能夠更準(zhǔn)確地幫助我們分析圖表、理解文檔、解答視覺相關(guān)的問題,讓AI真正成為我們可信賴的智能伙伴。有興趣的讀者可以通過項目主頁進(jìn)一步了解這項突破性的研究成果。
Q&A
Q1:VGR是什么?它跟普通AI有什么不同? A:VGR是一種新的AI視覺推理系統(tǒng),最大不同在于它會在推理過程中主動"放大查看"圖片的關(guān)鍵區(qū)域,就像人類看圖時會重點關(guān)注某些細(xì)節(jié)一樣,而不是像傳統(tǒng)AI那樣只粗略看一眼就下結(jié)論。
Q2:VGR會不會讓AI變得更智能? A:是的,特別是在需要仔細(xì)觀察圖片細(xì)節(jié)的任務(wù)上。VGR讓AI的圖表分析能力提升了12.9分,同時只用了傳統(tǒng)方法30%的計算量,這意味著AI能更準(zhǔn)確地理解復(fù)雜圖像。
Q3:普通人能用到VGR嗎?什么時候能普及? A:目前VGR還是研究階段的技術(shù),但未來很可能被整合到各種AI應(yīng)用中。這意味著我們的AI助手將能更好地幫助分析圖表、理解文檔,讓人機(jī)交互更加智能和可靠。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機(jī)制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。