這項(xiàng)由北京交通大學(xué)、華中科技大學(xué)和清華大學(xué)聯(lián)合開展的研究發(fā)表于2025年2月,研究論文可以通過arXiv:2501.05767v3訪問。該研究首次提出了名為Migician的多圖像視覺定位模型,這是一個真正的突破性進(jìn)展,因?yàn)樗孉I第一次具備了在多張圖片中進(jìn)行靈活定位的能力。
我們每天都在不知不覺中使用多圖像定位能力。當(dāng)你在停車場找車時,你會記住車的樣子,然后在密密麻麻的車群中準(zhǔn)確找到它的位置。當(dāng)你看監(jiān)控錄像追蹤某個人的行蹤時,你能在不同角度的畫面中識別出同一個人。這些看似簡單的任務(wù),對于AI來說卻異常困難。
傳統(tǒng)的AI視覺模型就像一個只能處理單張照片的"近視眼",它們在單張圖片中找東西很厲害,也能理解多張圖片的內(nèi)容,但就是無法把這兩種能力結(jié)合起來。這就好比一個人既是出色的偵探,又是優(yōu)秀的檔案管理員,但偏偏不能同時發(fā)揮兩種技能去破案。
研究團(tuán)隊(duì)面臨的核心挑戰(zhàn)是:如何讓AI在面對多張圖片時,既能理解圖片之間的關(guān)系,又能精確定位目標(biāo)物體的具體位置。這個問題的難度在于,AI需要在理解"整體故事"的同時,還要有"放大鏡"般的精確定位能力。
為了解決這個問題,研究團(tuán)隊(duì)首先嘗試了一種叫做"思維鏈"的方法,就像讓AI先用語言描述要找的東西,然后再去定位。這種方法有點(diǎn)像你先告訴朋友"我要找一輛白色的小汽車",然后朋友再去停車場幫你找。這個方法在簡單情況下效果不錯,但遇到復(fù)雜場景時就力不從心了,比如要找的不是具體的物體,而是一種抽象的概念或關(guān)系。
意識到這個問題后,研究團(tuán)隊(duì)開發(fā)了Migician模型。這個名字很有意思,結(jié)合了"多圖像"(Multi-Image)和"魔法師"(Magician)的含義,寓意著這個AI能像魔法師一樣在多張圖片中"變出"目標(biāo)物體的精確位置。
Migician的訓(xùn)練過程就像培養(yǎng)一個全能偵探。研究團(tuán)隊(duì)為它準(zhǔn)備了一個包含63萬個訓(xùn)練樣本的巨大數(shù)據(jù)庫,這些樣本涵蓋了各種多圖像定位任務(wù)。就好比給偵探提供了63萬個不同類型的案例,讓他從中學(xué)會各種破案技巧。
整個訓(xùn)練過程分為兩個階段,就像培訓(xùn)一個偵探先學(xué)基礎(chǔ)技能,再學(xué)高級技巧。第一階段讓Migician掌握基本的多圖像理解和單圖定位能力,就像讓偵探先學(xué)會觀察現(xiàn)場和分析線索。第二階段則是讓它學(xué)會處理更復(fù)雜、更靈活的定位任務(wù),就像讓偵探學(xué)會處理各種疑難雜案。
為了驗(yàn)證Migician的能力,研究團(tuán)隊(duì)還專門構(gòu)建了一個全面的測試平臺MIG-Bench,包含10種不同類型的多圖像定位任務(wù),總共有4300多個測試實(shí)例。這就像為偵探設(shè)計(jì)了一系列不同難度的考試,從簡單的"找不同"到復(fù)雜的"跨圖推理"都有。
在測試中,Migician的表現(xiàn)令人矚目。它的平均準(zhǔn)確率達(dá)到了63.82%,比第二名高出了近25個百分點(diǎn)。更令人驚訝的是,這個只有70億參數(shù)的模型,竟然超過了許多擁有720億參數(shù)的大型模型。這就好比一個輕量級拳擊手擊敗了重量級選手,顯示了技術(shù)優(yōu)化的強(qiáng)大威力。
讓我們來看看Migician能夠處理哪些類型的任務(wù)。在"自發(fā)定位"類別中,它能夠自主發(fā)現(xiàn)圖片間的差異并準(zhǔn)確定位。比如給它兩張幾乎相同的圖片,它能自動找出不同之處并標(biāo)出位置,就像玩"找茬游戲"的高手。它還能在多張圖片中找到共同的物體,比如在一組照片中都有一只狗,它能在每張照片中準(zhǔn)確標(biāo)出狗的位置。
在"引用定位"類別中,Migician展現(xiàn)出了更高級的能力。當(dāng)你用文字描述要找的東西時,它能在一組圖片中找到正確的那張,并精確定位目標(biāo)。比如你說"找一把電子秤",它能從多張無關(guān)圖片中找到有電子秤的那張,并標(biāo)出電子秤的位置。
更令人印象深刻的是,Migician還能處理視覺引用任務(wù)。你可以給它一張圖片作為參考,它能在其他圖片中找到相同或相似的物體。這就像你給朋友看一張車的照片,朋友就能在停車場中找到這輛車。
在一些需要推理的復(fù)雜任務(wù)中,Migician也表現(xiàn)出色。比如給它看一張人們在沙漠中缺水的圖片,然后問它在另一張桌子的圖片中,哪個物品能緩解第一張圖中人們的困境,它能準(zhǔn)確找到并定位水杯的位置。這種跨圖推理能力,已經(jīng)很接近人類的思維水平了。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個有趣現(xiàn)象:訓(xùn)練Migician進(jìn)行多圖像定位,反而提升了它在單圖像任務(wù)上的表現(xiàn)。這就像學(xué)會了團(tuán)隊(duì)協(xié)作的人,個人能力也會得到提升。在傳統(tǒng)的單圖像理解測試中,Migician不僅保持了原有水平,在某些方面甚至有所改進(jìn)。
為了深入了解Migician的工作原理,研究團(tuán)隊(duì)進(jìn)行了大量分析。他們發(fā)現(xiàn),不同類型的訓(xùn)練數(shù)據(jù)對模型能力有不同的貢獻(xiàn)。去除定位訓(xùn)練數(shù)據(jù)會顯著降低多圖像定位能力,這證明了專門訓(xùn)練的重要性。同時,他們還發(fā)現(xiàn)多任務(wù)學(xué)習(xí)比單獨(dú)訓(xùn)練每個任務(wù)更有效,這說明不同任務(wù)之間存在相互促進(jìn)的關(guān)系。
在處理不同難度任務(wù)時,Migician表現(xiàn)出了良好的魯棒性。在簡單任務(wù)中,它的準(zhǔn)確率高達(dá)76%;在中等難度任務(wù)中仍能達(dá)到52%;即使在最困難的任務(wù)中,也有29%的準(zhǔn)確率。這種性能分布很合理,符合人類學(xué)習(xí)和認(rèn)知的規(guī)律。
研究團(tuán)隊(duì)還比較了不同的評估方法。他們發(fā)現(xiàn),雖然讓模型一次性輸出所有答案在理論上更優(yōu)雅,但逐個詢問每張圖片的方式在實(shí)際應(yīng)用中更穩(wěn)定可靠。這個發(fā)現(xiàn)對于實(shí)際部署很有價值,說明有時候稍微"笨拙"的方法反而更實(shí)用。
值得一提的是,Migician在一個特殊測試中表現(xiàn)出了意想不到的能力。研究人員將高分辨率圖片分割成多個小塊,然后讓Migician在這些小塊中找目標(biāo),結(jié)果它的表現(xiàn)堪比專門為此設(shè)計(jì)的系統(tǒng)。這說明多圖像定位能力具有很強(qiáng)的泛化性,可以應(yīng)用到原本不是為此設(shè)計(jì)的場景中。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)突破本身。在自動駕駛領(lǐng)域,Migician這樣的技術(shù)能幫助車輛更好地理解復(fù)雜的交通環(huán)境,比如在多個攝像頭的畫面中追蹤行人或車輛。在安防監(jiān)控中,它能在多個監(jiān)控點(diǎn)的錄像中追蹤嫌疑人的行蹤。在醫(yī)療影像分析中,它能對比不同時期的掃描結(jié)果,幫助醫(yī)生發(fā)現(xiàn)病情變化。
對于普通消費(fèi)者,這項(xiàng)技術(shù)的應(yīng)用前景同樣廣闊。未來的智能相冊可能會變得更加智能,能夠自動整理和標(biāo)記照片中的人物和物品。購物應(yīng)用可能會支持更精確的商品搜索,你只需要拍一張照片,就能在商城中找到相似的商品。家庭安防系統(tǒng)也可能變得更加智能,能夠識別和追蹤可疑行為。
當(dāng)然,這項(xiàng)研究也面臨一些挑戰(zhàn)和限制。由于計(jì)算資源的限制,研究團(tuán)隊(duì)主要在較小規(guī)模的模型上驗(yàn)證了方法的有效性,在更大規(guī)模模型上的表現(xiàn)還需要進(jìn)一步驗(yàn)證。另外,像所有AI系統(tǒng)一樣,Migician有時也會產(chǎn)生錯誤的輸出,這在實(shí)際應(yīng)用中需要謹(jǐn)慎對待。
從技術(shù)發(fā)展的角度來看,這項(xiàng)研究為多模態(tài)人工智能的發(fā)展開辟了新的方向。它證明了將不同AI能力有機(jī)結(jié)合的可能性,為構(gòu)建更加通用和智能的AI系統(tǒng)提供了思路。這種能力的結(jié)合不是簡單的疊加,而是產(chǎn)生了新的、更強(qiáng)大的智能形態(tài)。
研究團(tuán)隊(duì)已經(jīng)將Migician的代碼、模型、數(shù)據(jù)集和測試平臺全部開源,這意味著全世界的研究者都可以基于這項(xiàng)工作進(jìn)行進(jìn)一步的研究和改進(jìn)。這種開放的態(tài)度有助于推動整個領(lǐng)域的快速發(fā)展,讓更多人受益于這項(xiàng)技術(shù)。
說到底,Migician的成功不僅僅是一個技術(shù)突破,更是人工智能向人類認(rèn)知能力邁進(jìn)的重要一步。它讓我們看到了AI在理解和處理復(fù)雜視覺信息方面的巨大潛力。雖然它還遠(yuǎn)沒有達(dá)到人類的水平,但這種"舉一反三"的能力已經(jīng)讓我們看到了通用人工智能的曙光。隨著技術(shù)的不斷發(fā)展和完善,我們有理由相信,未來的AI將能夠在越來越多的領(lǐng)域?yàn)槿祟愄峁└悄?、更精確的服務(wù)。
對于關(guān)注AI發(fā)展的讀者,這項(xiàng)研究值得深入了解。完整的技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果可以通過訪問論文原文獲得,有興趣的讀者可以通過https://migician-vg.github.io/網(wǎng)站了解更多信息。
Q&A
Q1:Migician是什么?它和普通AI有什么不同?
A:Migician是由北京交通大學(xué)等機(jī)構(gòu)開發(fā)的首個多圖像視覺定位AI模型。與普通AI不同,它能同時理解多張圖片的內(nèi)容并精確定位目標(biāo)物體位置,就像人類能在多張照片中找到特定物品一樣。普通AI要么只能處理單張圖片定位,要么只能理解多圖內(nèi)容但無法精確定位。
Q2:多圖像定位技術(shù)在日常生活中有哪些實(shí)際用途?
A:這項(xiàng)技術(shù)應(yīng)用前景很廣泛。比如幫助自動駕駛汽車在多個攝像頭畫面中追蹤行人,讓安防系統(tǒng)在多個監(jiān)控點(diǎn)追蹤嫌疑人,讓醫(yī)生對比不同時期的掃描圖像發(fā)現(xiàn)病情變化,讓智能相冊自動整理照片中的人物和物品,或者讓購物應(yīng)用通過照片精確找到相似商品。
Q3:Migician的準(zhǔn)確率如何?比人類表現(xiàn)怎么樣?
A:在測試中,Migician的平均準(zhǔn)確率達(dá)到63.82%,比其他AI模型高出近25個百分點(diǎn)。雖然還遠(yuǎn)不如人類97.18%的表現(xiàn),但這已經(jīng)是AI在這個領(lǐng)域的重大突破。在簡單任務(wù)中它能達(dá)到76%準(zhǔn)確率,在困難任務(wù)中也有29%的準(zhǔn)確率,顯示出良好的適應(yīng)性。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。