這項由香港理工大學的劉燁、馬宗陽等研究團隊與騰訊PCG ARC實驗室聯(lián)合開展的突破性研究,于2025年發(fā)表在神經(jīng)信息處理系統(tǒng)會議(NeurIPS 2025)上。這個名為UniPixel的系統(tǒng)首次實現(xiàn)了讓AI既能理解視頻內(nèi)容,又能精確標注出相關(guān)物體位置的統(tǒng)一能力。感興趣的讀者可以通過arXiv:2509.18094v1查詢完整論文。
想象一下,如果有一位超級聰明的助手,不僅能看懂你給它的任何圖片或視頻,還能用畫筆準確圈出你想要的任何物體,甚至能回答關(guān)于這些物體的復雜問題。這就是UniPixel要解決的核心問題。傳統(tǒng)的AI系統(tǒng)就像只會看病歷的醫(yī)生和只會做手術(shù)的醫(yī)生一樣,各司其職但無法協(xié)作。而UniPixel則是第一個既會"看病歷"又會"做手術(shù)"的全能AI醫(yī)生。
在這項研究之前,AI領(lǐng)域存在一個有趣的分工現(xiàn)象。有些AI系統(tǒng)擅長理解圖片和視頻的整體內(nèi)容,可以告訴你"這是一只貓在沙發(fā)上睡覺",但如果你問它"那只貓在哪里?",它就無法準確指出貓的確切位置。另一些AI系統(tǒng)則專門負責在圖片上畫圈標注物體,但它們只是機械地執(zhí)行標注任務,無法真正理解畫面內(nèi)容或回答相關(guān)問題。這就像讓一個只會讀書的人和一個只會畫畫的人合作完成一項需要既讀又畫的工作,效率和效果都會大打折扣。
研究團隊發(fā)現(xiàn)了一個關(guān)鍵問題:現(xiàn)有的大型多模態(tài)模型雖然在整體理解方面表現(xiàn)出色,但在精細化的像素級理解和標注方面卻存在明顯短板。它們無法靈活處理用戶通過點擊、框選或涂抹等方式提供的視覺提示,也無法在回答問題時同時生成相應的標注信息。這種局限性嚴重制約了AI在需要精確定位和細粒度理解的實際應用中的表現(xiàn)。
一、創(chuàng)新的對象記憶銀行:讓AI擁有"過目不忘"的能力
UniPixel的核心創(chuàng)新在于引入了一個巧妙的"對象記憶銀行"概念。這個記憶銀行就像一個超級記憶力的圖書管理員,能夠?qū)⒁曨l中出現(xiàn)的每個重要物體都編號登記,并記錄它們在不同時間出現(xiàn)的位置和特征。當用戶通過點擊、框選或其他方式指向某個物體時,系統(tǒng)會立即將相關(guān)信息存儲到記憶銀行中,就像在物體上貼了一個智能標簽。
這種記憶銀行的工作方式可以用家庭相冊來類比。當你整理家庭照片時,你不僅會看到每張照片的整體內(nèi)容,還會在腦海中記住"這張照片里的小明站在左邊"、"那張照片里的小紅穿著紅裙子在中間"。UniPixel的記憶銀行就是這樣一個智能相冊管理系統(tǒng),它不僅能識別畫面中的人物和物體,還能精確記錄它們的位置、外觀和在時間軸上的變化。
記憶銀行的運作分為兩個關(guān)鍵步驟:記憶預填充和記憶注入。記憶預填充就像給每個重要角色建立檔案,當系統(tǒng)檢測到用戶的指向性詢問時,會自動分析相關(guān)物體并為它們分配唯一的標識符。記憶注入則像是在回答問題時隨時調(diào)取相關(guān)檔案,確保AI在推理和回答過程中始終"記得"用戶關(guān)心的具體物體。
這種設(shè)計的巧妙之處在于,它將物體識別和語言理解完全融合在一起。傳統(tǒng)方法往往將這兩個任務分開處理,就像讓兩個不同的專家分別負責"看"和"說",然后試圖讓他們合作。而UniPixel的記憶銀行則讓同一個AI系統(tǒng)同時具備了精確的視覺定位能力和深度的語言理解能力,真正實現(xiàn)了"所見即所得"的智能交互。
二、多模態(tài)提示編碼器:聽懂用戶的每一種"指示"
UniPixel的另一個突破在于它能夠理解用戶通過各種方式提供的視覺指示。就像一位優(yōu)秀的導游能夠理解游客用手指指向、用眼神示意或者用語言描述的各種指示方式一樣,UniPixel配備了專門的多模態(tài)提示編碼器,能夠準確解讀用戶的點擊、框選和涂抹等操作。
當用戶在圖片或視頻上點擊一個位置時,系統(tǒng)會將這個點擊位置轉(zhuǎn)換為空間坐標,并結(jié)合時間信息(如果是視頻的話)生成一個獨特的"地址編碼"。這就像給每個房子分配門牌號一樣,確保系統(tǒng)能夠準確定位用戶關(guān)注的區(qū)域。對于框選操作,系統(tǒng)會記錄矩形框的四個角點坐標,相當于劃定了一個明確的關(guān)注區(qū)域。而對于涂抹操作,系統(tǒng)則會處理更復雜的不規(guī)則形狀,就像藝術(shù)家能夠理解各種復雜的畫筆筆觸一樣。
這種多樣化的交互方式設(shè)計體現(xiàn)了人機交互的自然性考慮。在現(xiàn)實生活中,人們指向物體的方式是多樣化的:有時是精確的點擊,有時是大概的手勢,有時是詳細的描述。UniPixel通過支持多種輸入方式,讓用戶可以根據(jù)具體情況和個人習慣選擇最合適的交互方法,大大提升了系統(tǒng)的可用性和用戶體驗。
更重要的是,這個提示編碼器不僅能處理空間信息,還能處理時間信息。在視頻場景中,用戶可能只在某一幀上進行標注,但希望系統(tǒng)能夠自動跟蹤該物體在整個視頻中的變化。這就像你在電影的某一個鏡頭中指出主角的位置,然后期望AI能夠在整部電影中持續(xù)關(guān)注這個角色的行動軌跡。UniPixel的時空編碼能力讓這種智能跟蹤成為可能。
三、SAM 2.1掩碼解碼器:精準的"手術(shù)刀"定位技術(shù)
為了實現(xiàn)精確的物體分割和標注,UniPixel采用了當前最先進的SAM 2.1作為其掩碼解碼器。如果說前面的組件負責"理解"和"記憶",那么SAM 2.1就是負責"動手"的精密工具,它能夠像外科醫(yī)生的手術(shù)刀一樣精確地在圖像中"切出"用戶指定的物體。
SAM 2.1的工作原理可以比作一位技藝精湛的裁縫。當你告訴裁縫"我要這塊布料上的花朵圖案"時,裁縫不僅要理解你的要求,還要能夠精確地沿著花朵的邊緣進行切割,確保既不多切一絲,也不少切一毫。SAM 2.1在數(shù)字世界中扮演的就是這樣的角色,它能夠根據(jù)系統(tǒng)的語言指令,在像素級別上精確地標識出目標物體的邊界。
這個解碼器的強大之處在于它的自適應能力。面對不同類型的物體—無論是規(guī)則的幾何形狀還是復雜的自然形態(tài)—SAM 2.1都能夠生成準確的分割掩碼。更令人印象深刻的是,在視頻場景中,它能夠自動處理物體的運動和變形,確保標注的一致性和準確性。就像一個經(jīng)驗豐富的攝像師能夠始終將鏡頭對準移動中的主角一樣,SAM 2.1能夠在整個視頻序列中持續(xù)準確地追蹤和標注目標物體。
整個系統(tǒng)的協(xié)調(diào)工作就像一個訓練有素的團隊:提示編碼器負責接收和理解用戶指令,記憶銀行負責存儲和管理相關(guān)信息,而SAM 2.1則負責執(zhí)行精確的標注操作。這三個組件的無縫配合,讓UniPixel能夠在理解用戶意圖的同時,提供精確的視覺反饋。
四、三階段漸進訓練:從"學步"到"跑步"的成長過程
UniPixel的訓練過程就像培養(yǎng)一個全能型學生,需要分階段逐步提升各項能力。研究團隊設(shè)計了一個精巧的三階段漸進訓練策略,確保系統(tǒng)能夠穩(wěn)步掌握從基礎(chǔ)到高級的各種技能。
第一階段相當于"學步期",重點是讓系統(tǒng)學會基礎(chǔ)的視覺提示理解能力。這個階段使用了大約85萬個區(qū)域描述數(shù)據(jù)樣本,主要訓練系統(tǒng)理解點擊和框選等簡單操作的含義。就像教孩子認識"這是蘋果"、"那是香蕉"一樣,這個階段讓系統(tǒng)學會將用戶的指向動作與具體物體建立對應關(guān)系。訓練數(shù)據(jù)包含了大量的圖像區(qū)域和對應的文字描述,讓系統(tǒng)逐漸理解不同類型的視覺提示所代表的含義。
第二階段是"學會走路"的階段,主要任務是讓語言模型和掩碼解碼器學會協(xié)作。這個階段使用約8.7萬個referring segmentation數(shù)據(jù)樣本,重點訓練系統(tǒng)將語言理解能力與精確的物體分割能力結(jié)合起來。這就像教會一個學生不僅要理解題目要求,還要能夠準確地在答題紙上標出正確答案的位置。這個階段的關(guān)鍵是建立語言指令與視覺輸出之間的精確映射關(guān)系。
第三階段是"學會跑步"的綜合能力訓練階段,使用了約100萬個多樣化任務樣本進行聯(lián)合訓練。這個階段的訓練數(shù)據(jù)涵蓋了各種復雜場景:物體指代、區(qū)域理解、推理分割、視頻問答等多個任務類型。就像一個學生要參加綜合考試,需要運用所有學過的知識來解決復雜問題一樣,這個階段讓UniPixel學會在實際應用中靈活運用各項能力。
訓練過程中的一個重要創(chuàng)新是聯(lián)合損失函數(shù)的設(shè)計。系統(tǒng)不僅要學會生成準確的語言回答,還要學會生成精確的視覺標注,這就像要求學生既要寫出正確的文字答案,又要畫出準確的圖解。這種聯(lián)合訓練確保了系統(tǒng)在語言理解和視覺定位兩個方面都能達到高水平的表現(xiàn)。
五、PixelQA任務:開創(chuàng)性的視頻推理新標準
為了全面評估UniPixel的能力,研究團隊創(chuàng)造性地提出了PixelQA這一全新的評測任務。這個任務的設(shè)計理念是將物體指代、精確分割和問答推理三種能力融合在一起,形成一個更貼近實際應用需求的綜合性挑戰(zhàn)。
PixelQA任務的工作流程可以用偵探破案來類比。當偵探接到一個案件時,他需要根據(jù)有限的線索(用戶的點擊或框選)找到關(guān)鍵證據(jù)(相關(guān)物體),然后對這些證據(jù)進行深入分析(跟蹤和分割),最后基于分析結(jié)果回答關(guān)于案件的復雜問題(推理和問答)。整個過程需要觀察力、分析力和推理力的完美結(jié)合。
在具體的PixelQA評測中,系統(tǒng)面對的是這樣的場景:給定一段視頻和一個問題,用戶可能會在視頻的某一幀上點擊或框選特定區(qū)域,然后詢問關(guān)于這些區(qū)域中物體的復雜問題。比如,用戶可能在一段動物覓食的視頻中點擊某只動物,然后詢問"這只動物的行為與其他動物有什么不同?原因是什么?"系統(tǒng)不僅要準確識別并跟蹤被點擊的動物,還要分析其行為模式,比較不同動物之間的差異,最后給出合理的解釋。
這種評測方式的創(chuàng)新性在于它更接近人類的自然交互模式。在日常生活中,我們經(jīng)常會一邊指著某個物體,一邊詢問相關(guān)問題。PixelQA正是要測試AI系統(tǒng)是否具備了這種多模態(tài)交互和推理的綜合能力。傳統(tǒng)的評測任務往往將不同能力分開測試,而PixelQA則要求系統(tǒng)在一個統(tǒng)一的框架內(nèi)同時展現(xiàn)多種高級能力。
實驗結(jié)果顯示,UniPixel在PixelQA任務上建立了強有力的基準表現(xiàn),而現(xiàn)有的其他AI系統(tǒng)甚至無法完成這類綜合性任務。這進一步證明了UniPixel在多模態(tài)理解和推理方面的獨特優(yōu)勢。
六、廣泛的應用場景:從實驗室到現(xiàn)實世界的無縫對接
UniPixel的設(shè)計理念使其能夠輕松應對多種實際應用場景,展現(xiàn)出強大的實用價值。在教育領(lǐng)域,UniPixel可以成為智能教學助手,學生可以通過點擊教材中的圖片或視頻來獲得詳細解釋。比如在生物課上,學生點擊細胞圖像中的某個結(jié)構(gòu),系統(tǒng)不僅能準確標出該結(jié)構(gòu)的位置,還能詳細解釋其功能和與其他結(jié)構(gòu)的關(guān)系。
在醫(yī)療影像分析方面,UniPixel的精確定位和智能分析能力具有巨大潛力。醫(yī)生可以在X光片或CT掃描圖像上點擊感興趣的區(qū)域,系統(tǒng)能夠自動分割出相關(guān)組織或病變部位,并提供初步的分析建議。這種交互方式大大簡化了醫(yī)療影像分析的工作流程,提高了診斷效率。
在內(nèi)容創(chuàng)作和編輯領(lǐng)域,UniPixel可以大幅簡化視頻編輯工作。內(nèi)容創(chuàng)作者可以通過簡單的點擊操作來標識視頻中需要處理的物體,系統(tǒng)會自動完成精確的物體分割和跟蹤,為后續(xù)的特效制作或內(nèi)容編輯奠定基礎(chǔ)。這種智能化的處理方式讓原本需要專業(yè)技能的視頻編輯變得更加普及和易用。
在安防監(jiān)控方面,UniPixel能夠協(xié)助安保人員更高效地分析監(jiān)控視頻。當發(fā)現(xiàn)可疑情況時,安保人員只需點擊相關(guān)區(qū)域,系統(tǒng)就能自動跟蹤可疑人員或物體的移動軌跡,并分析其行為模式,為安全決策提供有力支持。
電商和零售行業(yè)也能從UniPixel中受益。消費者可以在產(chǎn)品展示視頻中點擊感興趣的商品,系統(tǒng)能夠自動識別和標注該商品,并提供詳細的產(chǎn)品信息和購買建議。這種交互方式讓在線購物體驗更加直觀和便捷。
七、實驗驗證:多項指標創(chuàng)下新紀錄
研究團隊在十個權(quán)威數(shù)據(jù)集上進行了全面的性能評測,結(jié)果顯示UniPixel在多個任務上都達到了領(lǐng)先水平。在最具挑戰(zhàn)性的ReVOS推理視頻分割任務上,UniPixel-3B模型取得了62.1的J&F分數(shù),顯著超越了參數(shù)量更大的競爭對手。這就像一個年輕的運動員在各項比賽中都戰(zhàn)勝了經(jīng)驗更豐富的老將,充分證明了新方法的優(yōu)越性。
在視頻物體分割任務上,UniPixel同樣表現(xiàn)出色。在MeViS數(shù)據(jù)集上,3B模型達到了53.1的J&F分數(shù),比同等規(guī)模的VideoGLaMM模型提升了17%。在更困難的長視頻理解任務中,UniPixel展現(xiàn)出了強大的時序建模能力,能夠在復雜的視頻場景中保持準確的物體跟蹤和理解。
特別值得關(guān)注的是,UniPixel在需要深度推理的任務上表現(xiàn)尤為突出。在VideoRefer-BenchQ問答任務中,系統(tǒng)不僅要理解用戶的視覺指示,還要基于指示內(nèi)容回答復雜問題。UniPixel-7B模型在這個任務上取得了76.3%的準確率,超越了包括GPT-4o在內(nèi)的多個強大基準模型。
實驗還驗證了多任務聯(lián)合訓練的有效性。通過同時學習物體指代和精確分割任務,UniPixel在兩個方面都獲得了性能提升,形成了良性循環(huán)。這種相互促進的效果證明了統(tǒng)一框架設(shè)計的正確性,也為未來的多模態(tài)AI系統(tǒng)設(shè)計提供了有價值的參考。
消融實驗進一步證實了各個組件的重要性。對象記憶銀行的引入帶來了顯著的性能提升,而多階段訓練策略的每個階段都對最終性能有重要貢獻。這些詳細的分析為理解系統(tǒng)的工作機制和進一步優(yōu)化提供了重要依據(jù)。
八、技術(shù)突破的深遠意義
UniPixel的成功不僅僅是一個技術(shù)產(chǎn)品的突破,更代表了AI發(fā)展的重要方向轉(zhuǎn)變。傳統(tǒng)的AI系統(tǒng)往往專注于單一任務的優(yōu)化,而UniPixel證明了多模態(tài)能力統(tǒng)一的可行性和優(yōu)越性。這種統(tǒng)一不是簡單的功能堆疊,而是在系統(tǒng)層面實現(xiàn)了不同能力的深度融合和相互促進。
從技術(shù)架構(gòu)角度看,UniPixel的對象記憶銀行設(shè)計為未來的多模態(tài)AI系統(tǒng)提供了新的思路。這種將短期交互信息轉(zhuǎn)化為長期記憶的機制,有望在更廣泛的AI應用中發(fā)揮作用。不同于傳統(tǒng)的端到端學習,這種顯式的記憶機制提供了更好的可解釋性和可控性。
在人機交互方面,UniPixel展示了更自然、更直觀的交互模式的可能性。用戶不再需要學習復雜的命令或界面操作,而是可以通過最自然的指向動作與AI系統(tǒng)進行交流。這種交互方式的普及將大大降低AI技術(shù)的使用門檻,讓更多普通用戶能夠享受到AI技術(shù)帶來的便利。
從產(chǎn)業(yè)應用的角度看,UniPixel的成功為多個行業(yè)的數(shù)字化轉(zhuǎn)型提供了新的技術(shù)支撐。精確的物體定位和智能推理能力的結(jié)合,為自動化和智能化應用開辟了新的可能性。特別是在需要精細操作和復雜決策的領(lǐng)域,這種技術(shù)有望帶來革命性的改變。
研究團隊還特別關(guān)注了系統(tǒng)的可擴展性和實用性。通過提供3B和7B兩個不同規(guī)模的模型版本,UniPixel能夠適應不同的計算資源和應用需求。這種靈活性確保了技術(shù)成果能夠更好地轉(zhuǎn)化為實際應用。
說到底,UniPixel代表了AI技術(shù)發(fā)展的一個重要里程碑。它不僅解決了多模態(tài)理解中的關(guān)鍵技術(shù)難題,更重要的是展示了AI系統(tǒng)向更智能、更自然、更實用方向發(fā)展的可能性。就像智能手機將多種功能集成在一個設(shè)備中一樣,UniPixel將多種AI能力統(tǒng)一在一個系統(tǒng)中,為用戶提供了更加便捷和強大的智能服務。
這項研究的開源數(shù)據(jù)集和代碼的發(fā)布,也為學術(shù)界和產(chǎn)業(yè)界的進一步研究提供了寶貴資源。相信在不久的將來,我們會看到更多基于這些成果的創(chuàng)新應用,讓AI技術(shù)真正融入到我們的日常生活中,成為我們工作和學習的得力助手。歸根結(jié)底,UniPixel不只是一個技術(shù)演示,而是向著更智能、更人性化的AI未來邁出的堅實一步。
Q&A
Q1:UniPixel是什么?它和其他AI視頻理解系統(tǒng)有什么不同?
A:UniPixel是由香港理工大學和騰訊聯(lián)合開發(fā)的AI系統(tǒng),它最大的特點是既能理解視頻內(nèi)容,又能精確標出物體位置。傳統(tǒng)AI系統(tǒng)要么只會"看懂"視頻,要么只會"畫圈"標注,而UniPixel首次將這兩種能力完美融合,用戶可以通過點擊、框選等方式與系統(tǒng)自然交互,獲得智能分析結(jié)果。
Q2:對象記憶銀行是如何工作的?為什么這個設(shè)計很重要?
A:對象記憶銀行就像一個智能檔案管理系統(tǒng),會給視頻中的每個重要物體建立檔案,記錄它們的位置、外觀和變化軌跡。當用戶點擊某個物體時,系統(tǒng)會立即將相關(guān)信息存儲起來,后續(xù)回答問題時隨時調(diào)取。這種設(shè)計讓AI能夠"記住"用戶關(guān)心的物體,實現(xiàn)連貫的智能對話。
Q3:PixelQA任務有什么特殊之處?普通人能用到嗎?
A:PixelQA是研究團隊創(chuàng)造的新型測試任務,要求AI同時具備物體識別、精確標注和問答推理三種能力。就像讓AI當偵探,根據(jù)線索找到目標,然后回答復雜問題。這種能力在教育、醫(yī)療、內(nèi)容創(chuàng)作等領(lǐng)域都很有用,比如學生可以點擊教材圖片獲得詳細解釋,醫(yī)生可以點擊影像獲得分析建議。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。