av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<blockquote id="n1cz1"></blockquote>

首頁(yè)
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

推理引導(dǎo)+強(qiáng)化學(xué)習(xí)：清華&阿里巴巴推出UniVG-R1，讓AI讀懂復(fù)雜視覺(jué)指令的全新突破

人工智能多模態(tài)大語(yǔ)言模型視覺(jué)定位

推理引導(dǎo)+強(qiáng)化學(xué)習(xí)：清華&阿里巴巴推出UniVG-R1，讓AI讀懂復(fù)雜視覺(jué)指令的全新突破

作者：科技行者

2025-05-27 13:28

分享至：

清華大學(xué)深圳國(guó)際研究生院與阿里巴巴AMAP團(tuán)隊(duì)合作開發(fā)了UniVG-R1，這是一種基于推理引導(dǎo)的通用視覺(jué)定位模型。研究者通過(guò)構(gòu)建高質(zhì)量思維鏈數(shù)據(jù)集和應(yīng)用強(qiáng)化學(xué)習(xí)技術(shù)，顯著增強(qiáng)了模型處理多圖像復(fù)雜指令的能力。實(shí)驗(yàn)表明，UniVG-R1在MIG-Bench上比現(xiàn)有技術(shù)提升9.1%，并在四個(gè)零樣本測(cè)試基準(zhǔn)上平均提高23.4%的性能，展現(xiàn)出卓越的推理能力和泛化性。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-27 13:28 ? 科技行者

在我們使用智能助手時(shí)，你是否曾經(jīng)希望它能準(zhǔn)確理解"找出第二張圖片中能處理第一張圖片中物品的家具"這樣的復(fù)雜指令？或者"找出能保護(hù)人安全著陸的東西"？這類需要跨圖片理解和推理的任務(wù)對(duì)AI來(lái)說(shuō)一直是個(gè)大挑戰(zhàn)。2025年5月，來(lái)自清華大學(xué)深圳國(guó)際研究生院和阿里巴巴AMAP團(tuán)隊(duì)的研究者們?cè)赼rXiv上發(fā)表了一篇題為"UniVG-R1: Reasoning Guided Universal Visual Grounding with Reinforcement Learning"的論文，提出了一種全新的解決方案。

為什么我們需要更智能的視覺(jué)定位技術(shù)？

想象一下，你正在和朋友一起看照片，朋友說(shuō)："看看第一張照片中那個(gè)戴眼鏡的男孩，在第二張照片中找找他在哪里。"這對(duì)我們?nèi)祟悂?lái)說(shuō)很簡(jiǎn)單，但對(duì)AI而言卻是個(gè)巨大挑戰(zhàn)。傳統(tǒng)的視覺(jué)定位（Visual Grounding）技術(shù)主要處理單張圖片中的簡(jiǎn)單指令，如"找出藍(lán)色的襯衫"，但在現(xiàn)實(shí)應(yīng)用中，我們常常需要AI理解跨越多張圖片的復(fù)雜隱含指令。

清華和阿里巴巴的研究團(tuán)隊(duì)將這種更實(shí)用、更復(fù)雜的任務(wù)稱為"通用視覺(jué)定位"（Universal Visual Grounding）。它不僅要求AI能夠在圖像中定位物體，還要能夠理解復(fù)雜的語(yǔ)言指令，甚至進(jìn)行跨圖像的推理。

UniVG-R1：融合推理與強(qiáng)化學(xué)習(xí)的突破性方案

研究團(tuán)隊(duì)提出的UniVG-R1模型就像是給AI裝上了一個(gè)特殊的"思考大腦"。這個(gè)模型基于多模態(tài)大語(yǔ)言模型（MLLM），但關(guān)鍵在于它通過(guò)兩個(gè)創(chuàng)新手段大幅增強(qiáng)了模型的推理能力：

首先，研究團(tuán)隊(duì)構(gòu)建了一個(gè)高質(zhì)量的"思維鏈"（Chain-of-Thought，簡(jiǎn)稱CoT）數(shù)據(jù)集。這就像是給AI提供了詳細(xì)的推理路徑指南，告訴它"應(yīng)該怎么一步步思考"。具體來(lái)說(shuō)，他們收集了90,000個(gè)樣本，每個(gè)樣本都包含詳細(xì)的推理過(guò)程，指導(dǎo)模型如何從問(wèn)題到答案一步步推理。

其次，他們采用了一種名為"強(qiáng)化學(xué)習(xí)"（Reinforcement Learning）的技術(shù)。這就像是給AI設(shè)置了一個(gè)獎(jiǎng)懲機(jī)制——當(dāng)AI找到正確的推理路徑時(shí)給予獎(jiǎng)勵(lì)，引導(dǎo)它逐漸學(xué)會(huì)更好的推理方式。研究者們特別使用了一種稱為"基于規(guī)則的強(qiáng)化學(xué)習(xí)"（rule-based reinforcement learning）的方法，結(jié)合"冷啟動(dòng)數(shù)據(jù)"（cold-start data）來(lái)增強(qiáng)模型的推理能力。

模型訓(xùn)練：兩階段策略讓AI學(xué)會(huì)"像人一樣思考"

UniVG-R1的訓(xùn)練過(guò)程分為兩個(gè)階段，就像是先教會(huì)孩子基本知識(shí)，再教他如何活學(xué)活用。

在第一階段，研究團(tuán)隊(duì)使用構(gòu)建的CoT數(shù)據(jù)集進(jìn)行監(jiān)督微調(diào)（Supervised Fine-tuning）。這些數(shù)據(jù)包含詳細(xì)的推理鏈，就像是給AI提供了"解題思路"，引導(dǎo)它學(xué)習(xí)如何正確推理。這個(gè)階段主要是讓模型學(xué)會(huì)基本的推理路徑。

在第二階段，研究者們采用了群組相對(duì)策略優(yōu)化（Group Relative Policy Optimization，簡(jiǎn)稱GRPO）算法進(jìn)行強(qiáng)化學(xué)習(xí)。這個(gè)階段就像是讓AI"自己練習(xí)"——模型會(huì)生成多個(gè)可能的推理路徑，然后通過(guò)一個(gè)基于IoU（交并比）的驗(yàn)證獎(jiǎng)勵(lì)函數(shù)來(lái)評(píng)估哪些路徑更好，從而不斷調(diào)整自己的推理策略。

困難感知權(quán)重調(diào)整：讓AI更關(guān)注難題

研究團(tuán)隊(duì)還發(fā)現(xiàn)了GRPO算法中存在一個(gè)"困難偏差"問(wèn)題：隨著訓(xùn)練的進(jìn)行，容易的樣本比例會(huì)增加，而困難樣本的比例會(huì)減少。這就像是學(xué)習(xí)中只關(guān)注簡(jiǎn)單題目而忽略了難題，導(dǎo)致學(xué)習(xí)效率下降。

為了解決這個(gè)問(wèn)題，研究者們提出了一種"困難感知權(quán)重調(diào)整"（difficulty-aware weight adjustment）策略。這個(gè)策略會(huì)根據(jù)樣本的困難程度動(dòng)態(tài)調(diào)整權(quán)重，給予更難的樣本更大的權(quán)重，就像是督促學(xué)生多花時(shí)間在難題上。具體來(lái)說(shuō)，他們嘗試了幾種不同的函數(shù)來(lái)量化樣本的困難程度，最終發(fā)現(xiàn)使用exp(1-mIoU)函數(shù)效果最佳。

實(shí)驗(yàn)結(jié)果：性能大幅超越現(xiàn)有技術(shù)

UniVG-R1在多項(xiàng)基準(zhǔn)測(cè)試中都取得了出色的表現(xiàn)。在MIG-Bench基準(zhǔn)測(cè)試上，UniVG-R1比之前最先進(jìn)的Migician模型平均提高了9.1%的性能。而且UniVG-R1在10個(gè)子任務(wù)上都取得了最佳結(jié)果，這包括靜態(tài)差異檢測(cè)、相似性識(shí)別、共同物體識(shí)別等多種任務(wù)類型。

更令人印象深刻的是，UniVG-R1展現(xiàn)了強(qiáng)大的泛化能力。在四個(gè)圖像和視頻推理定位基準(zhǔn)測(cè)試上的零樣本性能平均提高了23.4%。具體來(lái)說(shuō)： - 在LISA-Grounding上提高了27.8% - 在LLMSeg-Grounding上提高了15.9% - 在ReVOS-Grounding上提高了20.3% - 在ReasonVOS上提高了25.3%

這些結(jié)果表明，UniVG-R1不僅在特定任務(wù)上表現(xiàn)出色，還能很好地遷移到未見(jiàn)過(guò)的新任務(wù)上，展現(xiàn)了真正的"通用"能力。

模型規(guī)模與效率：小樣本也能有大提升

值得一提的是，UniVG-R1在訓(xùn)練數(shù)據(jù)效率方面也有顯著優(yōu)勢(shì)。Migician模型使用了約120萬(wàn)個(gè)樣本進(jìn)行訓(xùn)練，而UniVG-R1僅使用了10萬(wàn)個(gè)樣本（約為Migician的8.3%），卻取得了更好的性能。這表明推理引導(dǎo)和強(qiáng)化學(xué)習(xí)的結(jié)合可以大幅提高模型的學(xué)習(xí)效率。

研究團(tuán)隊(duì)還在不同規(guī)模的模型上進(jìn)行了實(shí)驗(yàn)。他們發(fā)現(xiàn)即使在較小的Qwen2-VL-2B模型上，強(qiáng)化學(xué)習(xí)也能帶來(lái)顯著的性能提升。這表明該方法對(duì)不同規(guī)模的模型都有效，具有廣泛的適用性。

實(shí)際應(yīng)用：讓AI真正理解我們的意圖

UniVG-R1的出現(xiàn)為人機(jī)交互開辟了新的可能性。想象一下，當(dāng)你對(duì)智能助手說(shuō)："看看第一張照片中那個(gè)有創(chuàng)意的女孩，第二張照片中哪個(gè)物品最能反映她在第一張照片中展示的特點(diǎn)？"UniVG-R1能夠分析女孩手上和臉上的顏料，推斷出她具有創(chuàng)造性特點(diǎn)，然后在第二張圖片中找到最相關(guān)的物品——墻上的繪畫，因?yàn)檫@與女孩的創(chuàng)造性特征最相符。

這種能力可以應(yīng)用于多種場(chǎng)景： - 智能購(gòu)物助手：根據(jù)用戶提供的多張參考圖片推薦合適的商品 - 智能搜索引擎：理解復(fù)雜的多圖像查詢意圖 - 智能安防系統(tǒng)：根據(jù)復(fù)雜指令在多個(gè)攝像頭畫面中定位目標(biāo) - 自動(dòng)駕駛：理解復(fù)雜的道路場(chǎng)景和指令

未來(lái)展望：走向更通用的人工智能

UniVG-R1的研究成果表明，結(jié)合推理引導(dǎo)和強(qiáng)化學(xué)習(xí)是增強(qiáng)AI復(fù)雜理解能力的有效途徑。這為構(gòu)建更通用、更智能的AI系統(tǒng)提供了新的方向。

未來(lái)的研究可能會(huì)探索如何將這種推理能力擴(kuò)展到更多領(lǐng)域，如視頻理解、3D場(chǎng)景理解等。同時(shí)，進(jìn)一步優(yōu)化強(qiáng)化學(xué)習(xí)算法，減少訓(xùn)練資源需求，也是一個(gè)重要的研究方向。

這項(xiàng)研究讓我們離真正理解人類復(fù)雜意圖的AI又近了一步。正如研究團(tuán)隊(duì)所展示的，當(dāng)我們讓AI學(xué)會(huì)"像人類一樣思考"時(shí)，它就能更好地理解和滿足我們的需求。

人工智能多模態(tài)大語(yǔ)言模型視覺(jué)定位

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長(zhǎng)度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<abbr id="5bpyi"><li id="5bpyi"></li></abbr>