av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 推理引導(dǎo)+強(qiáng)化學(xué)習(xí):清華&阿里巴巴推出UniVG-R1,讓AI讀懂復(fù)雜視覺(jué)指令的全新突破

推理引導(dǎo)+強(qiáng)化學(xué)習(xí):清華&阿里巴巴推出UniVG-R1,讓AI讀懂復(fù)雜視覺(jué)指令的全新突破

2025-05-27 13:28
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-27 13:28 ? 科技行者

在我們使用智能助手時(shí),你是否曾經(jīng)希望它能準(zhǔn)確理解"找出第二張圖片中能處理第一張圖片中物品的家具"這樣的復(fù)雜指令?或者"找出能保護(hù)人安全著陸的東西"?這類需要跨圖片理解和推理的任務(wù)對(duì)AI來(lái)說(shuō)一直是個(gè)大挑戰(zhàn)。2025年5月,來(lái)自清華大學(xué)深圳國(guó)際研究生院和阿里巴巴AMAP團(tuán)隊(duì)的研究者們?cè)赼rXiv上發(fā)表了一篇題為"UniVG-R1: Reasoning Guided Universal Visual Grounding with Reinforcement Learning"的論文,提出了一種全新的解決方案。

為什么我們需要更智能的視覺(jué)定位技術(shù)?

想象一下,你正在和朋友一起看照片,朋友說(shuō):"看看第一張照片中那個(gè)戴眼鏡的男孩,在第二張照片中找找他在哪里。"這對(duì)我們?nèi)祟悂?lái)說(shuō)很簡(jiǎn)單,但對(duì)AI而言卻是個(gè)巨大挑戰(zhàn)。傳統(tǒng)的視覺(jué)定位(Visual Grounding)技術(shù)主要處理單張圖片中的簡(jiǎn)單指令,如"找出藍(lán)色的襯衫",但在現(xiàn)實(shí)應(yīng)用中,我們常常需要AI理解跨越多張圖片的復(fù)雜隱含指令。

清華和阿里巴巴的研究團(tuán)隊(duì)將這種更實(shí)用、更復(fù)雜的任務(wù)稱為"通用視覺(jué)定位"(Universal Visual Grounding)。它不僅要求AI能夠在圖像中定位物體,還要能夠理解復(fù)雜的語(yǔ)言指令,甚至進(jìn)行跨圖像的推理。

UniVG-R1:融合推理與強(qiáng)化學(xué)習(xí)的突破性方案

研究團(tuán)隊(duì)提出的UniVG-R1模型就像是給AI裝上了一個(gè)特殊的"思考大腦"。這個(gè)模型基于多模態(tài)大語(yǔ)言模型(MLLM),但關(guān)鍵在于它通過(guò)兩個(gè)創(chuàng)新手段大幅增強(qiáng)了模型的推理能力:

首先,研究團(tuán)隊(duì)構(gòu)建了一個(gè)高質(zhì)量的"思維鏈"(Chain-of-Thought,簡(jiǎn)稱CoT)數(shù)據(jù)集。這就像是給AI提供了詳細(xì)的推理路徑指南,告訴它"應(yīng)該怎么一步步思考"。具體來(lái)說(shuō),他們收集了90,000個(gè)樣本,每個(gè)樣本都包含詳細(xì)的推理過(guò)程,指導(dǎo)模型如何從問(wèn)題到答案一步步推理。

其次,他們采用了一種名為"強(qiáng)化學(xué)習(xí)"(Reinforcement Learning)的技術(shù)。這就像是給AI設(shè)置了一個(gè)獎(jiǎng)懲機(jī)制——當(dāng)AI找到正確的推理路徑時(shí)給予獎(jiǎng)勵(lì),引導(dǎo)它逐漸學(xué)會(huì)更好的推理方式。研究者們特別使用了一種稱為"基于規(guī)則的強(qiáng)化學(xué)習(xí)"(rule-based reinforcement learning)的方法,結(jié)合"冷啟動(dòng)數(shù)據(jù)"(cold-start data)來(lái)增強(qiáng)模型的推理能力。

模型訓(xùn)練:兩階段策略讓AI學(xué)會(huì)"像人一樣思考"

UniVG-R1的訓(xùn)練過(guò)程分為兩個(gè)階段,就像是先教會(huì)孩子基本知識(shí),再教他如何活學(xué)活用。

在第一階段,研究團(tuán)隊(duì)使用構(gòu)建的CoT數(shù)據(jù)集進(jìn)行監(jiān)督微調(diào)(Supervised Fine-tuning)。這些數(shù)據(jù)包含詳細(xì)的推理鏈,就像是給AI提供了"解題思路",引導(dǎo)它學(xué)習(xí)如何正確推理。這個(gè)階段主要是讓模型學(xué)會(huì)基本的推理路徑。

在第二階段,研究者們采用了群組相對(duì)策略優(yōu)化(Group Relative Policy Optimization,簡(jiǎn)稱GRPO)算法進(jìn)行強(qiáng)化學(xué)習(xí)。這個(gè)階段就像是讓AI"自己練習(xí)"——模型會(huì)生成多個(gè)可能的推理路徑,然后通過(guò)一個(gè)基于IoU(交并比)的驗(yàn)證獎(jiǎng)勵(lì)函數(shù)來(lái)評(píng)估哪些路徑更好,從而不斷調(diào)整自己的推理策略。

困難感知權(quán)重調(diào)整:讓AI更關(guān)注難題

研究團(tuán)隊(duì)還發(fā)現(xiàn)了GRPO算法中存在一個(gè)"困難偏差"問(wèn)題:隨著訓(xùn)練的進(jìn)行,容易的樣本比例會(huì)增加,而困難樣本的比例會(huì)減少。這就像是學(xué)習(xí)中只關(guān)注簡(jiǎn)單題目而忽略了難題,導(dǎo)致學(xué)習(xí)效率下降。

為了解決這個(gè)問(wèn)題,研究者們提出了一種"困難感知權(quán)重調(diào)整"(difficulty-aware weight adjustment)策略。這個(gè)策略會(huì)根據(jù)樣本的困難程度動(dòng)態(tài)調(diào)整權(quán)重,給予更難的樣本更大的權(quán)重,就像是督促學(xué)生多花時(shí)間在難題上。具體來(lái)說(shuō),他們嘗試了幾種不同的函數(shù)來(lái)量化樣本的困難程度,最終發(fā)現(xiàn)使用exp(1-mIoU)函數(shù)效果最佳。

實(shí)驗(yàn)結(jié)果:性能大幅超越現(xiàn)有技術(shù)

UniVG-R1在多項(xiàng)基準(zhǔn)測(cè)試中都取得了出色的表現(xiàn)。在MIG-Bench基準(zhǔn)測(cè)試上,UniVG-R1比之前最先進(jìn)的Migician模型平均提高了9.1%的性能。而且UniVG-R1在10個(gè)子任務(wù)上都取得了最佳結(jié)果,這包括靜態(tài)差異檢測(cè)、相似性識(shí)別、共同物體識(shí)別等多種任務(wù)類型。

更令人印象深刻的是,UniVG-R1展現(xiàn)了強(qiáng)大的泛化能力。在四個(gè)圖像和視頻推理定位基準(zhǔn)測(cè)試上的零樣本性能平均提高了23.4%。具體來(lái)說(shuō): - 在LISA-Grounding上提高了27.8% - 在LLMSeg-Grounding上提高了15.9% - 在ReVOS-Grounding上提高了20.3% - 在ReasonVOS上提高了25.3%

這些結(jié)果表明,UniVG-R1不僅在特定任務(wù)上表現(xiàn)出色,還能很好地遷移到未見(jiàn)過(guò)的新任務(wù)上,展現(xiàn)了真正的"通用"能力。

模型規(guī)模與效率:小樣本也能有大提升

值得一提的是,UniVG-R1在訓(xùn)練數(shù)據(jù)效率方面也有顯著優(yōu)勢(shì)。Migician模型使用了約120萬(wàn)個(gè)樣本進(jìn)行訓(xùn)練,而UniVG-R1僅使用了10萬(wàn)個(gè)樣本(約為Migician的8.3%),卻取得了更好的性能。這表明推理引導(dǎo)和強(qiáng)化學(xué)習(xí)的結(jié)合可以大幅提高模型的學(xué)習(xí)效率。

研究團(tuán)隊(duì)還在不同規(guī)模的模型上進(jìn)行了實(shí)驗(yàn)。他們發(fā)現(xiàn)即使在較小的Qwen2-VL-2B模型上,強(qiáng)化學(xué)習(xí)也能帶來(lái)顯著的性能提升。這表明該方法對(duì)不同規(guī)模的模型都有效,具有廣泛的適用性。

實(shí)際應(yīng)用:讓AI真正理解我們的意圖

UniVG-R1的出現(xiàn)為人機(jī)交互開辟了新的可能性。想象一下,當(dāng)你對(duì)智能助手說(shuō):"看看第一張照片中那個(gè)有創(chuàng)意的女孩,第二張照片中哪個(gè)物品最能反映她在第一張照片中展示的特點(diǎn)?"UniVG-R1能夠分析女孩手上和臉上的顏料,推斷出她具有創(chuàng)造性特點(diǎn),然后在第二張圖片中找到最相關(guān)的物品——墻上的繪畫,因?yàn)檫@與女孩的創(chuàng)造性特征最相符。

這種能力可以應(yīng)用于多種場(chǎng)景: - 智能購(gòu)物助手:根據(jù)用戶提供的多張參考圖片推薦合適的商品 - 智能搜索引擎:理解復(fù)雜的多圖像查詢意圖 - 智能安防系統(tǒng):根據(jù)復(fù)雜指令在多個(gè)攝像頭畫面中定位目標(biāo) - 自動(dòng)駕駛:理解復(fù)雜的道路場(chǎng)景和指令

未來(lái)展望:走向更通用的人工智能

UniVG-R1的研究成果表明,結(jié)合推理引導(dǎo)和強(qiáng)化學(xué)習(xí)是增強(qiáng)AI復(fù)雜理解能力的有效途徑。這為構(gòu)建更通用、更智能的AI系統(tǒng)提供了新的方向。

未來(lái)的研究可能會(huì)探索如何將這種推理能力擴(kuò)展到更多領(lǐng)域,如視頻理解、3D場(chǎng)景理解等。同時(shí),進(jìn)一步優(yōu)化強(qiáng)化學(xué)習(xí)算法,減少訓(xùn)練資源需求,也是一個(gè)重要的研究方向。

這項(xiàng)研究讓我們離真正理解人類復(fù)雜意圖的AI又近了一步。正如研究團(tuán)隊(duì)所展示的,當(dāng)我們讓AI學(xué)會(huì)"像人類一樣思考"時(shí),它就能更好地理解和滿足我們的需求。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-