av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 香港大學(xué)團(tuán)隊(duì)突破多圖理解難題:讓AI像人類一樣"看懂"圖像之間的細(xì)微差別

香港大學(xué)團(tuán)隊(duì)突破多圖理解難題:讓AI像人類一樣"看懂"圖像之間的細(xì)微差別

2025-07-01 14:16
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-01 14:16 ? 科技行者

這項(xiàng)由香港大學(xué)的陳曦、吳曉陽(yáng)、趙恒爽等研究者,聯(lián)合香港中文大學(xué)、阿里巴巴通義實(shí)驗(yàn)室以及華中科技大學(xué)的團(tuán)隊(duì)完成的研究,發(fā)表于2025年6月的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2506.22434v1)。有興趣深入了解的讀者可以通過(guò)該編號(hào)在arXiv官網(wǎng)訪問(wèn)完整論文。

當(dāng)我們看到一張照片時(shí),我們的大腦能夠輕松地將它與另一張照片進(jìn)行比較,找出其中的相同點(diǎn)和不同點(diǎn)。比如說(shuō),你能很快發(fā)現(xiàn)兩張幾乎一樣的照片中,其中一張多了一只小貓,或者某個(gè)人換了件衣服。但是,當(dāng)前最先進(jìn)的人工智能視覺模型,即使能夠理解單張圖片的內(nèi)容,卻在比較多張圖片時(shí)表現(xiàn)得像個(gè)"視力不好的人"——它們經(jīng)??床怀黾?xì)微的差別,或者完全搞錯(cuò)了圖片之間的關(guān)聯(lián)。

研究團(tuán)隊(duì)通過(guò)大量測(cè)試發(fā)現(xiàn),現(xiàn)有的人工智能模型在處理需要跨圖片比較的任務(wù)時(shí),表現(xiàn)遠(yuǎn)遠(yuǎn)不如人類。舉個(gè)例子,當(dāng)給AI展示三張連續(xù)的視頻截圖,詢問(wèn)攝像頭是如何移動(dòng)的時(shí)候,AI經(jīng)常給出錯(cuò)誤的答案?;蛘弋?dāng)要求AI識(shí)別幾張照片中有多少個(gè)不同的玩具時(shí),它可能會(huì)把同一個(gè)玩具算成不同的,或者把不同的玩具當(dāng)成同一個(gè)。

這個(gè)問(wèn)題的根源在于,雖然現(xiàn)在的AI已經(jīng)具備了很強(qiáng)的單圖理解能力,但它們?nèi)狈σ环N關(guān)鍵的"元認(rèn)知技能"——視覺比較能力。就像一個(gè)人可能認(rèn)識(shí)很多字,但不會(huì)閱讀理解一樣,AI能看懂單張圖片,卻不會(huì)在多張圖片之間建立聯(lián)系和進(jìn)行推理。

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開發(fā)了一個(gè)名為MiCo(Multi-image Contrast,多圖對(duì)比)的訓(xùn)練框架。這個(gè)方法的巧妙之處在于,它不需要人工標(biāo)注大量的問(wèn)答數(shù)據(jù),而是利用圖像本身包含的天然約束作為監(jiān)督信號(hào)。這就像教孩子識(shí)別差異時(shí),不需要給他準(zhǔn)備標(biāo)準(zhǔn)答案,而是讓他通過(guò)觀察和比較自己發(fā)現(xiàn)規(guī)律。

MiCo的核心思想受到了自監(jiān)督學(xué)習(xí)的啟發(fā)。研究團(tuán)隊(duì)構(gòu)建了特殊的圖像三元組:兩張是同一圖像的不同增強(qiáng)版本(比如稍微裁剪或調(diào)整大?。谌龔埵莾?nèi)容相似但實(shí)際不同的圖像。在訓(xùn)練過(guò)程中,AI被要求對(duì)這三張圖片進(jìn)行比較,判斷哪些是相同的,哪些是不同的,并且要生成詳細(xì)的推理過(guò)程來(lái)解釋自己的判斷。

為了確保訓(xùn)練的有效性,研究團(tuán)隊(duì)精心設(shè)計(jì)了數(shù)據(jù)來(lái)源。他們從視頻中提取相隔幾秒的畫面,這些畫面在視覺上非常相似,但包含細(xì)微的變化,比如人物的動(dòng)作或物體的位置發(fā)生了微調(diào)。同時(shí),他們也使用了圖像編輯數(shù)據(jù)集,其中包含"編輯前"和"編輯后"的圖像對(duì),這些變化同樣很細(xì)微但很有意義。通過(guò)計(jì)算結(jié)構(gòu)相似性指數(shù)和像素差異,研究團(tuán)隊(duì)過(guò)濾掉了那些差異過(guò)大或過(guò)小的圖像對(duì),確保AI需要仔細(xì)觀察才能發(fā)現(xiàn)差異。

在訓(xùn)練策略上,研究團(tuán)隊(duì)提出了"增強(qiáng)GRPO"(Augmented GRPO)方法。這種方法的工作原理類似于讓學(xué)生先在簡(jiǎn)單題目上練習(xí)推理過(guò)程,然后用這些推理方法去解決更難的題目。具體來(lái)說(shuō),AI首先在弱增強(qiáng)的圖像上生成推理軌跡,這些圖像相對(duì)容易處理,AI更容易產(chǎn)生正確的推理過(guò)程。然后,研究團(tuán)隊(duì)使用這些高質(zhì)量的推理過(guò)程來(lái)優(yōu)化AI在強(qiáng)增強(qiáng)圖像上的表現(xiàn),這些圖像更具挑戰(zhàn)性。

整個(gè)訓(xùn)練過(guò)程使用了強(qiáng)化學(xué)習(xí)的方法。AI的每個(gè)回答都會(huì)得到獎(jiǎng)勵(lì)或懲罰:如果它正確識(shí)別了三對(duì)圖像比較中的所有關(guān)系,就獲得正獎(jiǎng)勵(lì);如果有任何錯(cuò)誤,就不獲得獎(jiǎng)勵(lì)。這種二元獎(jiǎng)勵(lì)機(jī)制迫使AI必須在推理過(guò)程中格外仔細(xì),不能有任何疏漏。

為了增加訓(xùn)練的多樣性,研究團(tuán)隊(duì)還設(shè)計(jì)了不同類型的比較任務(wù)。除了三圖比較,他們還構(gòu)建了兩圖比較的任務(wù),并使用GPT-4o生成了多種不同表達(dá)方式的問(wèn)題,比如"圖1和圖2是否相同?"或者"圖1和圖2有什么區(qū)別?"。這種多樣性幫助AI學(xué)會(huì)處理各種形式的視覺比較任務(wù)。

研究團(tuán)隊(duì)在多個(gè)標(biāo)準(zhǔn)測(cè)試集上評(píng)估了MiCo的效果。在VLM2-Bench這個(gè)專門測(cè)試多圖理解能力的基準(zhǔn)測(cè)試中,MiCo取得了顯著的改進(jìn)。這個(gè)測(cè)試包括三個(gè)主要類別:通用線索、以物體為中心的線索,以及以人為中心的線索。每個(gè)類別又包含不同的子任務(wù),比如匹配、跟蹤、比較、計(jì)數(shù)和分組等。

測(cè)試結(jié)果顯示,MiCo在大多數(shù)任務(wù)上都超越了現(xiàn)有的最先進(jìn)模型,包括GPT-4o。特別值得注意的是,在需要精確視覺比較的任務(wù)上,比如物體跟蹤和視覺匹配,MiCo的提升最為明顯。然而,研究團(tuán)隊(duì)也發(fā)現(xiàn),在涉及人臉識(shí)別的任務(wù)上,改進(jìn)相對(duì)有限。他們分析認(rèn)為,這是因?yàn)槿四樀募?xì)微特征很難用語(yǔ)言準(zhǔn)確描述,因此基于語(yǔ)言推理的方法在這類任務(wù)上存在天然局限。

除了專門的多圖理解任務(wù),研究團(tuán)隊(duì)還測(cè)試了MiCo在其他視覺任務(wù)上的表現(xiàn)。令人驚喜的是,雖然MiCo只在圖像比較任務(wù)上訓(xùn)練,但它在單圖理解任務(wù)上也有所改進(jìn)。這表明,學(xué)會(huì)仔細(xì)比較圖像的過(guò)程也提高了AI對(duì)單張圖像細(xì)節(jié)的關(guān)注能力。

在MuirBench和BLINK等綜合性多圖理解測(cè)試中,MiCo同樣表現(xiàn)出色。這些測(cè)試涵蓋了從簡(jiǎn)單的視覺檢索到復(fù)雜的空間推理等各種任務(wù)。MiCo在需要建立圖像間對(duì)應(yīng)關(guān)系的任務(wù)上表現(xiàn)最佳,比如語(yǔ)義對(duì)應(yīng)和視覺檢索。這證實(shí)了該方法在訓(xùn)練AI建立跨圖像聯(lián)系方面的有效性。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),驗(yàn)證了設(shè)計(jì)中每個(gè)組件的重要性。他們發(fā)現(xiàn),單純使用監(jiān)督學(xué)習(xí)訓(xùn)練的模型改進(jìn)有限,而沒(méi)有推理過(guò)程的強(qiáng)化學(xué)習(xí)也效果不佳。只有結(jié)合了推理過(guò)程生成和強(qiáng)化學(xué)習(xí)優(yōu)化的完整方法才能取得最佳效果。同時(shí),他們發(fā)現(xiàn)結(jié)合視頻數(shù)據(jù)和圖像編輯數(shù)據(jù)的訓(xùn)練效果最好,這表明不同類型的視覺變化都有助于AI學(xué)習(xí)比較技能。

在數(shù)據(jù)源的選擇上,研究團(tuán)隊(duì)驗(yàn)證了視頻幀和圖像編輯數(shù)據(jù)的有效性。視頻幀提供了時(shí)間維度上的細(xì)微變化,比如物體的移動(dòng)或狀態(tài)的改變;而圖像編輯數(shù)據(jù)則提供了更多樣化的語(yǔ)義變化,比如顏色、紋理或?qū)ο蟮男薷摹煞N數(shù)據(jù)源的結(jié)合使得AI能夠?qū)W會(huì)識(shí)別各種類型的視覺差異。

在增強(qiáng)策略的設(shè)計(jì)上,研究團(tuán)隊(duì)嘗試了多種圖像變換方法,最終選擇了隨機(jī)裁剪和縮放作為主要的增強(qiáng)手段。這些變換不會(huì)改變圖像的核心內(nèi)容,但會(huì)增加比較的難度,迫使AI關(guān)注更本質(zhì)的視覺特征而不是表面的像素對(duì)應(yīng)。

關(guān)于提示詞的多樣性,研究團(tuán)隊(duì)發(fā)現(xiàn),使用多種不同表達(dá)方式的問(wèn)題對(duì)防止過(guò)擬合很重要。他們?cè)O(shè)計(jì)了正向問(wèn)題("是否相同?")和反向問(wèn)題("是否不同?"),以及不同的圖像對(duì)組合,確保AI學(xué)會(huì)處理各種可能的比較情況。

MiCo方法的一個(gè)重要優(yōu)勢(shì)是其訓(xùn)練效率。與需要大量人工標(biāo)注的傳統(tǒng)方法相比,MiCo只需要收集圖像對(duì),不需要復(fù)雜的問(wèn)答標(biāo)注。這大大降低了數(shù)據(jù)準(zhǔn)備的成本,使得該方法更容易擴(kuò)展到新的領(lǐng)域和語(yǔ)言。

從技術(shù)實(shí)現(xiàn)角度來(lái)看,研究團(tuán)隊(duì)使用Qwen2.5-VL-7B作為基礎(chǔ)模型,這是一個(gè)已經(jīng)具備良好視覺理解能力的大型視覺語(yǔ)言模型。他們使用了8塊A100 GPU進(jìn)行訓(xùn)練,總共進(jìn)行了600次迭代,每次處理16個(gè)樣本,每個(gè)樣本生成8個(gè)推理軌跡進(jìn)行比較。

在實(shí)際應(yīng)用中,MiCo展現(xiàn)出了強(qiáng)大的泛化能力。經(jīng)過(guò)訓(xùn)練的模型不僅能夠準(zhǔn)確比較圖像,還能生成詳細(xì)的推理過(guò)程,解釋自己的判斷依據(jù)。例如,當(dāng)比較兩張咖啡杯的圖片時(shí),模型會(huì)詳細(xì)分析每個(gè)杯子的設(shè)計(jì)特征、顏色搭配和裝飾圖案,然后基于這些觀察得出結(jié)論。

研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前方法的局限性。MiCo在需要特定領(lǐng)域知識(shí)的任務(wù)上表現(xiàn)有限,比如數(shù)學(xué)推理或人臉驗(yàn)證。這是因?yàn)樵摲椒ㄖ饕P(guān)注視覺比較技能的培養(yǎng),而沒(méi)有專門針對(duì)這些特殊任務(wù)進(jìn)行優(yōu)化。

此外,雖然MiCo在大多數(shù)多圖理解任務(wù)上都有改進(jìn),但在某些需要深度空間理解的任務(wù)上,比如相對(duì)深度估計(jì),所有模型的表現(xiàn)都還有待提高。這表明空間感知仍然是視覺AI面臨的一個(gè)重要挑戰(zhàn)。

從方法論的角度來(lái)看,MiCo代表了一種新的訓(xùn)練范式:利用數(shù)據(jù)的內(nèi)在結(jié)構(gòu)作為監(jiān)督信號(hào),而不是依賴外部標(biāo)注。這種思路可能啟發(fā)更多類似的自監(jiān)督學(xué)習(xí)方法,減少對(duì)人工標(biāo)注數(shù)據(jù)的依賴。

總的來(lái)說(shuō),這項(xiàng)研究成功地解決了多圖視覺理解中的一個(gè)核心問(wèn)題:如何讓AI學(xué)會(huì)像人類一樣比較和關(guān)聯(lián)多張圖像。通過(guò)巧妙的數(shù)據(jù)構(gòu)造和訓(xùn)練策略設(shè)計(jì),研究團(tuán)隊(duì)證明了即使不使用大量人工標(biāo)注的數(shù)據(jù),也能顯著提升AI的多圖推理能力。這不僅推進(jìn)了視覺AI技術(shù)的發(fā)展,也為構(gòu)建更智能、更實(shí)用的視覺系統(tǒng)提供了新的方向。MiCo的成功表明,有時(shí)候最有效的學(xué)習(xí)方法不是給AI更多的標(biāo)準(zhǔn)答案,而是教會(huì)它如何自己觀察和思考。

Q&A

Q1:MiCo是什么?它能做什么? A:MiCo是香港大學(xué)團(tuán)隊(duì)開發(fā)的多圖對(duì)比訓(xùn)練框架,專門用來(lái)提升AI的多圖理解能力。它能讓AI像人類一樣準(zhǔn)確比較多張圖片的相同點(diǎn)和不同點(diǎn),識(shí)別圖片間的細(xì)微差異,并進(jìn)行跨圖推理。比如判斷幾張照片中有多少個(gè)不同的物體,或者分析視頻中攝像頭是如何移動(dòng)的。

Q2:MiCo會(huì)不會(huì)取代現(xiàn)有的AI訓(xùn)練方法? A:不會(huì)完全取代,但會(huì)成為一個(gè)重要補(bǔ)充。MiCo主要解決的是多圖比較這個(gè)特定問(wèn)題,它的優(yōu)勢(shì)在于不需要大量人工標(biāo)注數(shù)據(jù)。對(duì)于其他AI任務(wù),比如數(shù)學(xué)推理或特定領(lǐng)域的專業(yè)任務(wù),仍然需要傳統(tǒng)的訓(xùn)練方法。MiCo更像是給AI添加了一項(xiàng)新技能。

Q3:普通人能使用MiCo技術(shù)嗎?有什么實(shí)際應(yīng)用? A:目前MiCo還是研究階段的技術(shù),普通人無(wú)法直接使用。但這項(xiàng)技術(shù)未來(lái)可能應(yīng)用到圖片搜索、視頻分析、醫(yī)學(xué)影像對(duì)比、安防監(jiān)控等領(lǐng)域。比如幫助醫(yī)生比較不同時(shí)期的CT掃描圖,或者讓搜索引擎更準(zhǔn)確地找到相似但不完全相同的圖片。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-