在我們使用智能助手時(shí),你是否曾經(jīng)希望它能準(zhǔn)確理解"找出第二張圖片中能處理第一張圖片中物品的家具"這樣的復(fù)雜指令?或者"找出能保護(hù)人安全著陸的東西"?這類需要跨圖片理解和推理的任務(wù)對(duì)AI來(lái)說(shuō)一直是個(gè)大挑戰(zhàn)。2025年5月,來(lái)自清華大學(xué)深圳國(guó)際研究生院和阿里巴巴AMAP團(tuán)隊(duì)的研究者們?cè)赼rXiv上發(fā)表了一篇題為"UniVG-R1: Reasoning Guided Universal Visual Grounding with Reinforcement Learning"的論文,提出了一種全新的解決方案。
為什么我們需要更智能的視覺(jué)定位技術(shù)?
想象一下,你正在和朋友一起看照片,朋友說(shuō):"看看第一張照片中那個(gè)戴眼鏡的男孩,在第二張照片中找找他在哪里。"這對(duì)我們?nèi)祟悂?lái)說(shuō)很簡(jiǎn)單,但對(duì)AI而言卻是個(gè)巨大挑戰(zhàn)。傳統(tǒng)的視覺(jué)定位(Visual Grounding)技術(shù)主要處理單張圖片中的簡(jiǎn)單指令,如"找出藍(lán)色的襯衫",但在現(xiàn)實(shí)應(yīng)用中,我們常常需要AI理解跨越多張圖片的復(fù)雜隱含指令。
清華和阿里巴巴的研究團(tuán)隊(duì)將這種更實(shí)用、更復(fù)雜的任務(wù)稱為"通用視覺(jué)定位"(Universal Visual Grounding)。它不僅要求AI能夠在圖像中定位物體,還要能夠理解復(fù)雜的語(yǔ)言指令,甚至進(jìn)行跨圖像的推理。
UniVG-R1:融合推理與強(qiáng)化學(xué)習(xí)的突破性方案
研究團(tuán)隊(duì)提出的UniVG-R1模型就像是給AI裝上了一個(gè)特殊的"思考大腦"。這個(gè)模型基于多模態(tài)大語(yǔ)言模型(MLLM),但關(guān)鍵在于它通過(guò)兩個(gè)創(chuàng)新手段大幅增強(qiáng)了模型的推理能力:
首先,研究團(tuán)隊(duì)構(gòu)建了一個(gè)高質(zhì)量的"思維鏈"(Chain-of-Thought,簡(jiǎn)稱CoT)數(shù)據(jù)集。這就像是給AI提供了詳細(xì)的推理路徑指南,告訴它"應(yīng)該怎么一步步思考"。具體來(lái)說(shuō),他們收集了90,000個(gè)樣本,每個(gè)樣本都包含詳細(xì)的推理過(guò)程,指導(dǎo)模型如何從問(wèn)題到答案一步步推理。
其次,他們采用了一種名為"強(qiáng)化學(xué)習(xí)"(Reinforcement Learning)的技術(shù)。這就像是給AI設(shè)置了一個(gè)獎(jiǎng)懲機(jī)制——當(dāng)AI找到正確的推理路徑時(shí)給予獎(jiǎng)勵(lì),引導(dǎo)它逐漸學(xué)會(huì)更好的推理方式。研究者們特別使用了一種稱為"基于規(guī)則的強(qiáng)化學(xué)習(xí)"(rule-based reinforcement learning)的方法,結(jié)合"冷啟動(dòng)數(shù)據(jù)"(cold-start data)來(lái)增強(qiáng)模型的推理能力。
模型訓(xùn)練:兩階段策略讓AI學(xué)會(huì)"像人一樣思考"
UniVG-R1的訓(xùn)練過(guò)程分為兩個(gè)階段,就像是先教會(huì)孩子基本知識(shí),再教他如何活學(xué)活用。
在第一階段,研究團(tuán)隊(duì)使用構(gòu)建的CoT數(shù)據(jù)集進(jìn)行監(jiān)督微調(diào)(Supervised Fine-tuning)。這些數(shù)據(jù)包含詳細(xì)的推理鏈,就像是給AI提供了"解題思路",引導(dǎo)它學(xué)習(xí)如何正確推理。這個(gè)階段主要是讓模型學(xué)會(huì)基本的推理路徑。
在第二階段,研究者們采用了群組相對(duì)策略優(yōu)化(Group Relative Policy Optimization,簡(jiǎn)稱GRPO)算法進(jìn)行強(qiáng)化學(xué)習(xí)。這個(gè)階段就像是讓AI"自己練習(xí)"——模型會(huì)生成多個(gè)可能的推理路徑,然后通過(guò)一個(gè)基于IoU(交并比)的驗(yàn)證獎(jiǎng)勵(lì)函數(shù)來(lái)評(píng)估哪些路徑更好,從而不斷調(diào)整自己的推理策略。
困難感知權(quán)重調(diào)整:讓AI更關(guān)注難題
研究團(tuán)隊(duì)還發(fā)現(xiàn)了GRPO算法中存在一個(gè)"困難偏差"問(wèn)題:隨著訓(xùn)練的進(jìn)行,容易的樣本比例會(huì)增加,而困難樣本的比例會(huì)減少。這就像是學(xué)習(xí)中只關(guān)注簡(jiǎn)單題目而忽略了難題,導(dǎo)致學(xué)習(xí)效率下降。
為了解決這個(gè)問(wèn)題,研究者們提出了一種"困難感知權(quán)重調(diào)整"(difficulty-aware weight adjustment)策略。這個(gè)策略會(huì)根據(jù)樣本的困難程度動(dòng)態(tài)調(diào)整權(quán)重,給予更難的樣本更大的權(quán)重,就像是督促學(xué)生多花時(shí)間在難題上。具體來(lái)說(shuō),他們嘗試了幾種不同的函數(shù)來(lái)量化樣本的困難程度,最終發(fā)現(xiàn)使用exp(1-mIoU)函數(shù)效果最佳。
實(shí)驗(yàn)結(jié)果:性能大幅超越現(xiàn)有技術(shù)
UniVG-R1在多項(xiàng)基準(zhǔn)測(cè)試中都取得了出色的表現(xiàn)。在MIG-Bench基準(zhǔn)測(cè)試上,UniVG-R1比之前最先進(jìn)的Migician模型平均提高了9.1%的性能。而且UniVG-R1在10個(gè)子任務(wù)上都取得了最佳結(jié)果,這包括靜態(tài)差異檢測(cè)、相似性識(shí)別、共同物體識(shí)別等多種任務(wù)類型。
更令人印象深刻的是,UniVG-R1展現(xiàn)了強(qiáng)大的泛化能力。在四個(gè)圖像和視頻推理定位基準(zhǔn)測(cè)試上的零樣本性能平均提高了23.4%。具體來(lái)說(shuō): - 在LISA-Grounding上提高了27.8% - 在LLMSeg-Grounding上提高了15.9% - 在ReVOS-Grounding上提高了20.3% - 在ReasonVOS上提高了25.3%
這些結(jié)果表明,UniVG-R1不僅在特定任務(wù)上表現(xiàn)出色,還能很好地遷移到未見(jiàn)過(guò)的新任務(wù)上,展現(xiàn)了真正的"通用"能力。
模型規(guī)模與效率:小樣本也能有大提升
值得一提的是,UniVG-R1在訓(xùn)練數(shù)據(jù)效率方面也有顯著優(yōu)勢(shì)。Migician模型使用了約120萬(wàn)個(gè)樣本進(jìn)行訓(xùn)練,而UniVG-R1僅使用了10萬(wàn)個(gè)樣本(約為Migician的8.3%),卻取得了更好的性能。這表明推理引導(dǎo)和強(qiáng)化學(xué)習(xí)的結(jié)合可以大幅提高模型的學(xué)習(xí)效率。
研究團(tuán)隊(duì)還在不同規(guī)模的模型上進(jìn)行了實(shí)驗(yàn)。他們發(fā)現(xiàn)即使在較小的Qwen2-VL-2B模型上,強(qiáng)化學(xué)習(xí)也能帶來(lái)顯著的性能提升。這表明該方法對(duì)不同規(guī)模的模型都有效,具有廣泛的適用性。
實(shí)際應(yīng)用:讓AI真正理解我們的意圖
UniVG-R1的出現(xiàn)為人機(jī)交互開辟了新的可能性。想象一下,當(dāng)你對(duì)智能助手說(shuō):"看看第一張照片中那個(gè)有創(chuàng)意的女孩,第二張照片中哪個(gè)物品最能反映她在第一張照片中展示的特點(diǎn)?"UniVG-R1能夠分析女孩手上和臉上的顏料,推斷出她具有創(chuàng)造性特點(diǎn),然后在第二張圖片中找到最相關(guān)的物品——墻上的繪畫,因?yàn)檫@與女孩的創(chuàng)造性特征最相符。
這種能力可以應(yīng)用于多種場(chǎng)景: - 智能購(gòu)物助手:根據(jù)用戶提供的多張參考圖片推薦合適的商品 - 智能搜索引擎:理解復(fù)雜的多圖像查詢意圖 - 智能安防系統(tǒng):根據(jù)復(fù)雜指令在多個(gè)攝像頭畫面中定位目標(biāo) - 自動(dòng)駕駛:理解復(fù)雜的道路場(chǎng)景和指令
未來(lái)展望:走向更通用的人工智能
UniVG-R1的研究成果表明,結(jié)合推理引導(dǎo)和強(qiáng)化學(xué)習(xí)是增強(qiáng)AI復(fù)雜理解能力的有效途徑。這為構(gòu)建更通用、更智能的AI系統(tǒng)提供了新的方向。
未來(lái)的研究可能會(huì)探索如何將這種推理能力擴(kuò)展到更多領(lǐng)域,如視頻理解、3D場(chǎng)景理解等。同時(shí),進(jìn)一步優(yōu)化強(qiáng)化學(xué)習(xí)算法,減少訓(xùn)練資源需求,也是一個(gè)重要的研究方向。
這項(xiàng)研究讓我們離真正理解人類復(fù)雜意圖的AI又近了一步。正如研究團(tuán)隊(duì)所展示的,當(dāng)我們讓AI學(xué)會(huì)"像人類一樣思考"時(shí),它就能更好地理解和滿足我們的需求。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。