av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 讓AI看圖"動(dòng)起來(lái)":上海交大與上海人工智能實(shí)驗(yàn)室打造會(huì)搜索會(huì)寫(xiě)代碼的多模態(tài)智能助手

讓AI看圖"動(dòng)起來(lái)":上海交大與上海人工智能實(shí)驗(yàn)室打造會(huì)搜索會(huì)寫(xiě)代碼的多模態(tài)智能助手

2025-05-26 17:50
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-26 17:50 ? 科技行者

在2025年5月20日發(fā)表于arXiv預(yù)印本平臺(tái)(arXiv:2505.14246v1)的一項(xiàng)突破性研究中,上海交通大學(xué)、上海人工智能實(shí)驗(yàn)室和武漢大學(xué)的研究團(tuán)隊(duì)聯(lián)合發(fā)布了一種名為"視覺(jué)智能體強(qiáng)化微調(diào)"(Visual Agentic Reinforcement Fine-Tuning,簡(jiǎn)稱(chēng)Visual-ARFT)的創(chuàng)新方法。這項(xiàng)由劉子裕、臧宇航、鄒宇珊、梁子健、董曉義、曹宇航、段浩東、林達(dá)華和王嘉琦領(lǐng)導(dǎo)的研究,旨在讓大型視覺(jué)-語(yǔ)言模型(LVLMs)獲得類(lèi)似人類(lèi)的主動(dòng)性能力,能夠使用外部工具解決復(fù)雜問(wèn)題。

想象一下,你使用一個(gè)AI助手,它不僅能理解你的問(wèn)題,還能主動(dòng)采取行動(dòng)幫你解決。當(dāng)你向它展示一張模糊或者傾斜的圖片并提問(wèn)時(shí),它不會(huì)簡(jiǎn)單地說(shuō)"看不清",而是會(huì)自動(dòng)寫(xiě)代碼處理這張圖片,調(diào)整亮度、旋轉(zhuǎn)角度,然后再回答你的問(wèn)題。或者,當(dāng)你詢(xún)問(wèn)一張圖片中的歷史建筑與另一個(gè)名勝古跡的關(guān)系時(shí),它會(huì)主動(dòng)上網(wǎng)搜索相關(guān)信息,然后給你一個(gè)詳盡的答案。這就是Visual-ARFT帶來(lái)的能力。

在人工智能領(lǐng)域,最新一代的大型推理模型(如OpenAI的o3)已經(jīng)展示出使用工具的原生能力,比如瀏覽網(wǎng)頁(yè)搜索信息或編寫(xiě)代碼處理圖像。然而,在開(kāi)源社區(qū)中,盡管語(yǔ)言模型的工具使用能力已取得顯著進(jìn)展,但涉及真正"用圖像思考"的多模態(tài)智能體能力及其評(píng)估基準(zhǔn)仍然較少被探索。

研究團(tuán)隊(duì)提出的Visual-ARFT方法,能夠通過(guò)強(qiáng)化學(xué)習(xí)技術(shù),教會(huì)視覺(jué)-語(yǔ)言模型如何像人類(lèi)一樣分析問(wèn)題、制定計(jì)劃、調(diào)用工具并進(jìn)行復(fù)雜推理。這種訓(xùn)練方式不需要大量人工標(biāo)注的數(shù)據(jù),而是通過(guò)一種可驗(yàn)證的獎(jiǎng)勵(lì)信號(hào)來(lái)引導(dǎo)模型學(xué)習(xí),使其在少量示例的基礎(chǔ)上快速掌握新的能力。

為了評(píng)估模型的表現(xiàn),研究者還設(shè)計(jì)了一個(gè)多模態(tài)智能體工具基準(zhǔn)(MAT),包括MAT-Search(搜索任務(wù))和MAT-Coding(編程任務(wù))兩個(gè)測(cè)試集。實(shí)驗(yàn)結(jié)果表明,經(jīng)過(guò)Visual-ARFT訓(xùn)練的模型在這些測(cè)試集上顯著優(yōu)于基線(xiàn)模型,甚至在某些任務(wù)上超越了GPT-4o的表現(xiàn)。

接下來(lái),讓我們深入了解這項(xiàng)研究的核心內(nèi)容,看看研究團(tuán)隊(duì)是如何讓AI模型"活"起來(lái)的。

一、智能體強(qiáng)化學(xué)習(xí):讓AI模型學(xué)會(huì)使用工具的新方法

想象一下教一個(gè)孩子學(xué)習(xí)騎自行車(chē)。你不會(huì)只給他看無(wú)數(shù)騎車(chē)視頻,然后期望他立刻掌握技巧。相反,你會(huì)讓他嘗試騎車(chē),跌倒時(shí)給予指導(dǎo),成功時(shí)給予獎(jiǎng)勵(lì)。Visual-ARFT方法正是采用了類(lèi)似的學(xué)習(xí)機(jī)制。

傳統(tǒng)的AI模型訓(xùn)練主要依賴(lài)監(jiān)督學(xué)習(xí),就像通過(guò)大量標(biāo)記好的范例來(lái)教機(jī)器識(shí)別貓和狗的區(qū)別。但這種方法在教AI使用工具方面存在局限,因?yàn)槿斯?chuàng)建的示例成本高昂且難以覆蓋所有可能場(chǎng)景。強(qiáng)化微調(diào)(Reinforcement Fine-Tuning,RFT)則打開(kāi)了另一扇門(mén):它讓模型通過(guò)嘗試和錯(cuò)誤來(lái)學(xué)習(xí),就像人類(lèi)學(xué)習(xí)新技能一樣。

研究團(tuán)隊(duì)的核心洞察是:通過(guò)可驗(yàn)證的獎(jiǎng)勵(lì)信號(hào)來(lái)引導(dǎo)模型學(xué)習(xí),而不是依賴(lài)復(fù)雜的獎(jiǎng)勵(lì)模型。這種可驗(yàn)證獎(jiǎng)勵(lì)基于簡(jiǎn)單的正確性檢查,例如答案是否匹配、搜索查詢(xún)是否相關(guān)等。這種方法已在DeepSeek-R1等模型中證明有效,現(xiàn)在被研究團(tuán)隊(duì)?wèi)?yīng)用到視覺(jué)領(lǐng)域。

Visual-ARFT訓(xùn)練過(guò)程中,模型面對(duì)一個(gè)視覺(jué)問(wèn)題時(shí),會(huì)學(xué)習(xí)如何思考、調(diào)用工具(如搜索引擎或代碼執(zhí)行環(huán)境),然后解決問(wèn)題。每次嘗試后,模型都會(huì)根據(jù)結(jié)果獲得獎(jiǎng)勵(lì)或懲罰,慢慢調(diào)整自己的策略,提高解決問(wèn)題的能力。

這種訓(xùn)練方式使得模型能夠?qū)W會(huì)在何時(shí)何地使用工具。比如,面對(duì)一張傾斜的圖片時(shí),模型學(xué)會(huì)先調(diào)用代碼工具將圖片旋轉(zhuǎn)到正確角度;面對(duì)需要查找事實(shí)的問(wèn)題時(shí),模型懂得分解問(wèn)題并搜索相關(guān)信息。整個(gè)過(guò)程就像教一個(gè)助手逐步掌握復(fù)雜任務(wù)的解決方法,而不僅僅是記住固定的答案。

二、多模態(tài)智能體工具基準(zhǔn):如何測(cè)試AI的"工具使用"能力

評(píng)估一個(gè)會(huì)使用工具的AI并不容易。這就像測(cè)試一個(gè)實(shí)習(xí)生不僅要看他的知識(shí),還要看他能否靈活運(yùn)用辦公軟件、查詢(xún)數(shù)據(jù)庫(kù)或使用其他專(zhuān)業(yè)工具完成工作。

研究團(tuán)隊(duì)開(kāi)發(fā)的多模態(tài)智能體工具基準(zhǔn)(MAT)正是為了全面評(píng)估模型的工具使用能力而設(shè)計(jì)的。MAT包含兩個(gè)子任務(wù):MAT-Search和MAT-Coding。

MAT-Search專(zhuān)注于測(cè)試模型通過(guò)搜索引擎獲取信息的能力。想象你向AI助手展示一座著名建筑的照片,問(wèn)它:"這座建筑的設(shè)計(jì)師還設(shè)計(jì)了哪些其他著名建筑?"一個(gè)具備搜索能力的AI需要識(shí)別圖中建筑,搜索設(shè)計(jì)師信息,再查找該設(shè)計(jì)師的其他作品,最后整合信息給出答案。MAT-Search包含150個(gè)精心設(shè)計(jì)的多步驟視覺(jué)問(wèn)答示例,需要模型分解問(wèn)題并通過(guò)搜索工具獲取缺失信息。

MAT-Coding則測(cè)試模型處理和分析圖像的能力。比如,給模型展示一張模糊、旋轉(zhuǎn)或只有部分區(qū)域清晰的圖片,然后詢(xún)問(wèn)圖片內(nèi)容。一個(gè)有編碼能力的模型會(huì)先調(diào)用Python代碼處理圖像(如旋轉(zhuǎn)、裁剪、調(diào)整亮度),然后基于處理后的圖像回答問(wèn)題。研究團(tuán)隊(duì)設(shè)計(jì)了200個(gè)測(cè)試樣本,涵蓋各種圖像處理場(chǎng)景。

這些測(cè)試集的設(shè)計(jì)考慮了不同難度等級(jí)。簡(jiǎn)單級(jí)別的任務(wù)可能只需要基本的工具使用,如單一搜索查詢(xún)或簡(jiǎn)單的圖像處理;而困難級(jí)別的任務(wù)則需要多步驟推理和復(fù)雜的工具交互,如多輪搜索或組合圖像處理技術(shù)。

通過(guò)這些測(cè)試集,研究團(tuán)隊(duì)為工具增強(qiáng)型AI模型的評(píng)估提供了一個(gè)標(biāo)準(zhǔn)化框架,使不同模型的性能可以被公平比較。

三、Visual-ARFT的技術(shù)核心:獎(jiǎng)勵(lì)設(shè)計(jì)與訓(xùn)練方法

如果說(shuō)強(qiáng)化學(xué)習(xí)是Visual-ARFT的學(xué)習(xí)框架,那么獎(jiǎng)勵(lì)設(shè)計(jì)則是其成功的關(guān)鍵所在。就像訓(xùn)練狗狗做新動(dòng)作一樣,什么時(shí)候給獎(jiǎng)勵(lì)、給多少獎(jiǎng)勵(lì),直接決定了訓(xùn)練效果。

研究團(tuán)隊(duì)為Visual-ARFT設(shè)計(jì)了兩種主要類(lèi)型的獎(jiǎng)勵(lì):格式獎(jiǎng)勵(lì)和準(zhǔn)確性獎(jiǎng)勵(lì)。

格式獎(jiǎng)勵(lì)確保模型的輸出遵循預(yù)定義的結(jié)構(gòu)。例如,當(dāng)模型需要思考時(shí),它應(yīng)當(dāng)使用""標(biāo)簽;當(dāng)需要搜索信息時(shí),使用""標(biāo)簽;生成代碼時(shí)使用""標(biāo)簽;給出最終答案時(shí)使用""標(biāo)簽。這種標(biāo)準(zhǔn)化格式使模型的推理過(guò)程更加透明,也便于評(píng)估其思考和行動(dòng)的質(zhì)量。

準(zhǔn)確性獎(jiǎng)勵(lì)則根據(jù)不同的輸出類(lèi)型給予不同的評(píng)分標(biāo)準(zhǔn):

對(duì)于最終答案,研究團(tuán)隊(duì)使用F1分?jǐn)?shù)(一種測(cè)量預(yù)測(cè)準(zhǔn)確度的指標(biāo))作為獎(jiǎng)勵(lì),而不是嚴(yán)格的完全匹配。這給予模型更平滑的學(xué)習(xí)信號(hào),允許部分正確的答案也獲得相應(yīng)獎(jiǎng)勵(lì)。

對(duì)于搜索查詢(xún),團(tuán)隊(duì)計(jì)算模型生成的查詢(xún)與標(biāo)準(zhǔn)查詢(xún)之間的語(yǔ)義相似度,這比單純比較詞匯重疊更能捕捉查詢(xún)的真實(shí)意圖。

對(duì)于代碼生成,模型只要生成了可執(zhí)行的代碼塊就會(huì)獲得獎(jiǎng)勵(lì),而不直接監(jiān)督代碼內(nèi)容本身。這種設(shè)計(jì)鼓勵(lì)模型靈活創(chuàng)新,而不是死記硬背固定的代碼模板。

這些獎(jiǎng)勵(lì)共同構(gòu)成了一個(gè)總體獎(jiǎng)勵(lì)函數(shù),引導(dǎo)模型在訓(xùn)練過(guò)程中不斷優(yōu)化其行為。研究團(tuán)隊(duì)還采用了群組相對(duì)策略?xún)?yōu)化(Group Relative Policy Optimization,GRPO)算法進(jìn)行訓(xùn)練,該算法在每次更新時(shí)都會(huì)考慮多個(gè)樣本生成的策略梯度,同時(shí)防止模型偏離原始行為太遠(yuǎn),保持訓(xùn)練穩(wěn)定性。

訓(xùn)練過(guò)程中,對(duì)于搜索任務(wù),研究者使用Serper API作為檢索工具,提供Google搜索引擎的訪(fǎng)問(wèn);對(duì)于編碼任務(wù),則設(shè)置了代碼執(zhí)行環(huán)境來(lái)處理模型生成的Python代碼。整個(gè)訓(xùn)練在8個(gè)GPU上進(jìn)行,每次更新使用8個(gè)采樣生成來(lái)估計(jì)策略梯度。

四、實(shí)驗(yàn)結(jié)果:Visual-ARFT的驚人表現(xiàn)

研究團(tuán)隊(duì)在多個(gè)測(cè)試集上評(píng)估了Visual-ARFT的性能,結(jié)果令人驚喜。就像一個(gè)經(jīng)過(guò)特訓(xùn)的助手,Visual-ARFT展示了卓越的推理能力和工具使用技巧。

首先,在MAT-Coding測(cè)試集上,經(jīng)過(guò)Visual-ARFT訓(xùn)練的Qwen2.5-VL-7B模型相比基線(xiàn)模型有顯著提升:F1分?jǐn)?shù)提高了18.56%,完全匹配(EM)指標(biāo)提高了13.00%。這一提升在困難子集上尤為明顯,表明模型已經(jīng)掌握了處理復(fù)雜圖像識(shí)別任務(wù)的能力。更令人驚訝的是,即使只有3B參數(shù)的模型,經(jīng)過(guò)Visual-ARFT訓(xùn)練后也能在某些任務(wù)上超越GPT-4o的表現(xiàn)。

在MAT-Search測(cè)試集上,7B模型同樣表現(xiàn)出色,F(xiàn)1分?jǐn)?shù)提高了10.28%,EM指標(biāo)提高了8.66%。這些改進(jìn)證明了模型已經(jīng)學(xué)會(huì)如何分解多步驟問(wèn)題,并通過(guò)搜索工具獲取解決問(wèn)題所需的信息。

研究團(tuán)隊(duì)還通過(guò)幾個(gè)具體案例展示了Visual-ARFT的工作過(guò)程。在一個(gè)圖像識(shí)別案例中,模型面對(duì)一個(gè)要求識(shí)別特定坐標(biāo)區(qū)域文本的任務(wù),它首先思考問(wèn)題,然后編寫(xiě)Python代碼裁剪圖像,最后成功識(shí)別出目標(biāo)區(qū)域的文字"FOOD DIRECTORY"。在另一個(gè)案例中,當(dāng)被問(wèn)及一個(gè)關(guān)于品牌名稱(chēng)含義的問(wèn)題時(shí),模型先搜索該品牌的總部所在國(guó)家,然后再查詢(xún)品牌名稱(chēng)在該國(guó)語(yǔ)言中的含義,最終給出了完整準(zhǔn)確的答案。

更令人印象深刻的是,Visual-ARFT在未見(jiàn)過(guò)的多步QA任務(wù)上也表現(xiàn)出色。在2Wiki、HotpotQA等現(xiàn)有多步QA基準(zhǔn)測(cè)試中,Visual-ARFT帶來(lái)了高達(dá)29.3%的F1提升和25.9%的EM提升。這表明模型學(xué)到的能力具有強(qiáng)大的泛化性,能夠應(yīng)用到各種推理任務(wù)中。

比較有趣的是,研究團(tuán)隊(duì)還發(fā)現(xiàn)單純使用傳統(tǒng)方法如檢索增強(qiáng)生成(RAG)或思維鏈(CoT)并不能有效提升模型性能,有時(shí)甚至?xí)?dǎo)致性能下降。這說(shuō)明對(duì)于基礎(chǔ)模型來(lái)說(shuō),直接注入外部信息可能會(huì)導(dǎo)致信息干擾,而經(jīng)過(guò)Visual-ARFT訓(xùn)練的模型則學(xué)會(huì)了如何有選擇地利用外部信息支持復(fù)雜推理。

五、Visual-ARFT的意義與未來(lái)展望

Visual-ARFT的出現(xiàn)就像給AI裝上了一雙能夠操作工具的手和一雙善于觀察的眼睛。這項(xiàng)技術(shù)不僅推動(dòng)了多模態(tài)AI的發(fā)展,還為構(gòu)建更智能、更有用的AI助手鋪平了道路。

從技術(shù)角度看,Visual-ARFT解決了多模態(tài)智能體訓(xùn)練的關(guān)鍵難題:如何教會(huì)視覺(jué)-語(yǔ)言模型使用工具進(jìn)行復(fù)雜推理。傳統(tǒng)的監(jiān)督學(xué)習(xí)方法需要大量標(biāo)注數(shù)據(jù),而Visual-ARFT通過(guò)強(qiáng)化學(xué)習(xí)和可驗(yàn)證獎(jiǎng)勵(lì),只需少量示例就能讓模型掌握新能力。這種數(shù)據(jù)效率對(duì)于構(gòu)建復(fù)雜AI系統(tǒng)至關(guān)重要。

從應(yīng)用角度看,具備工具使用能力的多模態(tài)AI可以在多個(gè)領(lǐng)域發(fā)揮作用。例如,在教育領(lǐng)域,它可以幫助視障學(xué)生理解圖像內(nèi)容;在科學(xué)研究中,它可以自動(dòng)分析實(shí)驗(yàn)圖像并檢索相關(guān)文獻(xiàn);在日常生活中,它可以幫助用戶(hù)處理文檔圖像、識(shí)別產(chǎn)品信息或解答旅游照片中的歷史知識(shí)。

當(dāng)然,像所有技術(shù)一樣,Visual-ARFT也面臨一些局限性。研究團(tuán)隊(duì)指出,當(dāng)前實(shí)現(xiàn)主要集中在搜索和編碼兩種工具上,未來(lái)可以擴(kuò)展到更多類(lèi)型的工具使用。另外,MAT基準(zhǔn)測(cè)試集雖然多樣化,但規(guī)模相對(duì)較小,這可能限制對(duì)模型能力的全面評(píng)估。

展望未來(lái),Visual-ARFT為構(gòu)建更強(qiáng)大的多模態(tài)智能體指明了方向。隨著技術(shù)的發(fā)展,我們可能會(huì)看到更多能夠自主規(guī)劃、推理和使用各種工具的AI系統(tǒng)出現(xiàn),幫助人們解決更復(fù)雜的問(wèn)題。就像研究團(tuán)隊(duì)所說(shuō)的那樣,Visual-ARFT提供了一條"構(gòu)建強(qiáng)大且可泛化的多模態(tài)智能體的有希望的路徑"。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-