這項由NVIDIA公司的Ryo Hachiuma領導,聯(lián)合CMU、延世大學和臺灣大學研究團隊共同完成的突破性研究發(fā)表于2025年8月,論文題目為《Autoregressive Universal Video Segmentation Model》。有興趣深入了解技術細節(jié)的讀者可以通過arXiv:2508.19242v1訪問完整論文。這個研究首次將語言模型的思路引入視頻理解領域,創(chuàng)造了一個能夠同時處理各種視頻任務的統(tǒng)一模型。
傳統(tǒng)的視頻理解就像是請了很多專門的師傅,每個師傅只會做一種活兒。比如有專門識別人臉的師傅,有專門追蹤物體的師傅,有專門分割畫面的師傅。當你需要處理不同類型的視頻任務時,就得請不同的師傅,這不僅麻煩,還要花很多錢和時間來維護這些不同的"師傅"。而這項研究就像是培養(yǎng)了一個全能師傅,不管你扔給他什么視頻任務,他都能一手搞定。
研究團隊發(fā)現(xiàn)了一個有趣的現(xiàn)象:視頻理解其實和我們寫文章有著驚人的相似之處。當我們寫文章時,每個詞都依賴于前面已經(jīng)寫好的內(nèi)容,這樣整篇文章才能保持連貫性和邏輯性。同樣地,視頻中的每一幀畫面也依賴于前面的畫面內(nèi)容,這樣視頻才能講述一個完整的故事?;谶@個洞察,他們開發(fā)出了名為AUSM的模型,這個模型就像一個既會讀又會寫的全能作家,能夠"閱讀"視頻的前面部分,然后"寫出"后續(xù)部分應該是什么樣子。
AUSM最神奇的地方在于它的適應性。就像一個經(jīng)驗豐富的導演,既能拍攝需要演員配合的劇情片(對應提示式視頻分割),也能拍攝完全依靠自己創(chuàng)意的紀錄片(對應無提示式視頻分割)。在提示式場景下,你給模型一個初始的指示,比如"請追蹤這個紅色的球",模型就會在整個視頻中持續(xù)關注并標記出這個球的位置。在無提示式場景下,模型會自動發(fā)現(xiàn)視頻中的所有重要物體,并給它們分類標記,就像一個細心的圖書管理員會自動整理和分類所有的書籍一樣。
一、突破傳統(tǒng)思維:從專用工具到通用助手
傳統(tǒng)的視頻處理方式就像是一個工具箱,里面裝著各種專門的工具。你要擰螺絲時需要螺絲刀,要敲釘子時需要錘子,要測量時需要尺子。雖然每個工具在自己的領域內(nèi)都很專業(yè),但問題是當你面對復雜任務時,需要不停地換工具,而且每種工具都需要單獨學會怎么使用。
研究團隊意識到這種方式存在幾個嚴重問題。首先是資源浪費,每個專門的模型都需要大量的數(shù)據(jù)來訓練,就像培養(yǎng)每個專業(yè)師傅都需要多年的學徒經(jīng)歷一樣。其次是維護困難,當你有十幾種不同的模型時,升級和維護就變成了噩夢,就好比同時保養(yǎng)十幾輛不同品牌的汽車一樣麻煩。最重要的是靈活性差,當出現(xiàn)新的需求時,你往往需要從頭開始訓練一個新模型。
AUSM的思路完全不同,它更像是培養(yǎng)一個全能的助手。這個助手通過觀察和學習,掌握了處理各種視頻任務的通用方法。當你給他一個新任務時,他不需要重新學習,而是運用已有的知識和技能來解決問題。這就好比一個經(jīng)驗豐富的廚師,雖然每道菜的具體做法不同,但基本的烹飪原理和技巧是相通的,所以他能夠快速適應新的菜譜。
更令人興奮的是,AUSM采用了和語言模型相同的訓練策略。我們都知道現(xiàn)在的大語言模型比如GPT能夠處理各種文本任務,從寫作到翻譯到問答,都使用同一套基礎架構。AUSM將這種思路移植到視頻領域,讓一個模型能夠處理從物體追蹤到場景分割的各種視頻任務。這種統(tǒng)一性不僅簡化了系統(tǒng)的復雜度,還讓不同任務之間的知識能夠相互借鑒和增強。
研究團隊在七個權威數(shù)據(jù)集上測試了AUSM的性能,包括DAVIS 2017、YouTube-VOS 2018&2019、MOSE、YouTube-VIS 2019&2021和OVIS。結(jié)果顯示,AUSM在各項任務上都達到了業(yè)界領先水平,特別是在需要處理復雜場景的OVIS數(shù)據(jù)集上表現(xiàn)最為突出。更重要的是,所有這些結(jié)果都是用同一個模型取得的,沒有針對特定任務進行專門優(yōu)化。
二、核心創(chuàng)新:讓AI像寫作家一樣思考視頻
AUSM的核心創(chuàng)新在于將視頻理解重新定義為一個序列生成問題,就像作家寫小說時每個章節(jié)都基于前面的情節(jié)發(fā)展一樣。在傳統(tǒng)的視頻處理中,每一幀畫面通常被當作獨立的圖像來處理,然后再想辦法把結(jié)果拼接起來。這就好比讓很多人各自畫一張畫,然后希望把這些畫放在一起能講述一個連貫的故事,結(jié)果往往是支離破碎的。
AUSM采用了完全不同的方法。它將視頻看作一個連續(xù)的故事,每一幀的理解都建立在對前面所有幀的理解基礎上。具體來說,當模型處理視頻的第t幀時,它會綜合考慮當前幀的內(nèi)容、所有歷史幀的信息、之前的分割結(jié)果,以及可能存在的初始提示。這種方法用數(shù)學公式表達就是P(yt | y0, y<t, I≤t),其中yt是當前幀的分割結(jié)果,y0是初始提示(如果有的話),y<t是之前所有幀的結(jié)果,I≤t是到當前幀為止的所有圖像信息。
這種設計的巧妙之處在于它自然地統(tǒng)一了兩種不同類型的視頻任務。對于需要提示的任務(比如"請追蹤視頻中的這只貓"),模型會根據(jù)初始提示y0來指導后續(xù)的處理。對于不需要提示的任務(比如"自動識別視頻中的所有物體"),模型會將y0設為空,完全依靠自己的判斷來發(fā)現(xiàn)和追蹤物體。這就像是同一個導演既能按照劇本拍攝電影,也能進行即興創(chuàng)作一樣靈活。
三、技術架構:三個核心模塊的協(xié)同工作
AUSM的內(nèi)部結(jié)構就像一個高效的流水線工廠,由三個核心模塊協(xié)同工作:歷史標記器(History Marker)、歷史壓縮器(History Compressor)和歷史解碼器(History Decoder)。每個模塊都有自己的專門職責,但它們配合得天衣無縫。
歷史標記器的作用就像一個細心的檔案管理員。傳統(tǒng)的方法往往會把每個物體壓縮成一個簡單的向量,就像把一本厚厚的書壓縮成一句話的摘要,這樣做雖然節(jié)省空間,但會丟失很多重要的細節(jié)信息。歷史標記器采用了一種叫做Token Mark的技術,它能夠?qū)⑽矬w的詳細信息巧妙地"溶解"到空間特征圖中,就像把顏料均勻地混合到畫布上一樣,既保留了豐富的細節(jié),又便于后續(xù)處理。這種方法使得模型在視頻物體分割任務上的性能提升了近10%。
歷史壓縮器扮演著記憶管家的角色。它的任務是將來自過去所有幀的視覺信息壓縮成一個固定大小的"記憶膠囊"。這個膠囊包含了所有重要的歷史信息,但占用的存儲空間是恒定的,不會隨著視頻長度的增加而無限膨脹。歷史壓縮器使用了一種叫做Mamba的先進技術,這種技術特別適合處理序列數(shù)據(jù)。它就像一個經(jīng)驗豐富的編輯,能夠從冗長的素材中提取出最關鍵的信息,制作成精煉但完整的紀錄片。
歷史解碼器則像一個經(jīng)驗豐富的偵探,它需要綜合當前的線索(當前幀的圖像信息)和過去的案件記錄(壓縮后的歷史信息)來做出準確的判斷。它采用Transformer解碼器的架構,能夠有效地融合不同來源的信息。最終,像素解碼器會根據(jù)這些綜合信息生成精確的分割結(jié)果,就像偵探最終破案并給出詳細的案件報告一樣。
這三個模塊的協(xié)同工作使得AUSM能夠在保持高精度的同時處理任意長度的視頻。更重要的是,整個系統(tǒng)的內(nèi)存使用量是固定的,不會因為視頻變長而無限增長,這解決了長視頻處理的一個重要技術瓶頸。
四、訓練策略:并行處理帶來的效率革命
傳統(tǒng)的視頻模型訓練就像手工制作,需要一幀一幀地按順序處理,就好比手工縫制衣服,每一針都必須等前一針完成后才能開始。這種方式不僅訓練時間長,而且很難擴展到長視頻序列上。研究團隊發(fā)現(xiàn)這個問題的根本原因在于傳統(tǒng)方法中每一幀的處理都依賴于前一幀的實際輸出結(jié)果。
AUSM采用了一種叫做"教師強制"的并行訓練策略,這就像是從手工制作轉(zhuǎn)向了工業(yè)化生產(chǎn)。在訓練階段,模型不需要等待前一幀的實際輸出,而是直接使用標準答案(真實標注)作為輸入。這樣做的好處是所有幀都可以同時處理,大大提高了訓練效率。
為了實現(xiàn)這種并行訓練,研究團隊設計了一個巧妙的預處理步驟。他們會為每個物體隨機選擇一個時間點,在這個時間點之前,該物體被當作"檢測目標"(需要被發(fā)現(xiàn)),在這個時間點之后,該物體被當作"追蹤目標"(已經(jīng)被識別,需要持續(xù)追蹤)。這種設計模擬了真實場景中物體的出現(xiàn)和消失過程,讓模型能夠?qū)W會既發(fā)現(xiàn)新物體,又持續(xù)追蹤已知物體。
實驗結(jié)果顯示,這種并行訓練策略的效果非常顯著。在處理16幀的視頻序列時,并行訓練比傳統(tǒng)的逐幀訓練快了2.5倍。更重要的是,隨著序列長度的增加,這種速度優(yōu)勢會變得更加明顯。這意味著AUSM不僅能夠處理更長的視頻,還能在更短的時間內(nèi)完成訓練,大大降低了計算成本。
訓練過程分為三個階段,就像學生從小學到大學的逐步進階。第一階段是偽視頻預訓練,使用靜態(tài)圖像生成的短視頻序列讓模型掌握基礎技能。第二階段是多源短片段訓練,使用來自不同數(shù)據(jù)集的5幀視頻片段讓模型適應各種場景。第三階段是長片段適應,使用16幀的長視頻片段來增強模型的長期記憶能力。這種漸進式的訓練策略確保了模型既有扎實的基礎,又具備處理復雜場景的能力。
五、實驗驗證:全面超越現(xiàn)有方法
研究團隊在七個權威基準數(shù)據(jù)集上對AUSM進行了全面測試,這些數(shù)據(jù)集涵蓋了視頻理解的各個方面,就像是對一個全能運動員進行的七項全能比賽。測試結(jié)果顯示,AUSM在所有任務上都表現(xiàn)出色,特別是在通用性方面遠超現(xiàn)有方法。
在提示式視頻分割任務上,AUSM與專門的方法進行了正面較量。雖然SAM2這樣的專門模型在某些指標上仍然領先(這些模型使用了額外的私有數(shù)據(jù)進行訓練),但AUSM作為一個通用模型能夠達到如此接近的性能已經(jīng)相當令人印象深刻。更重要的是,AUSM不需要為每個物體維護單獨的內(nèi)存緩沖區(qū),這大大降低了內(nèi)存使用量,使得在資源受限的環(huán)境下部署成為可能。
在無提示式視頻分割任務上,AUSM的表現(xiàn)更加亮眼。在具有挑戰(zhàn)性的OVIS數(shù)據(jù)集上,AUSM取得了45.5的AP分數(shù),這是通用模型中的最佳成績。OVIS數(shù)據(jù)集以其復雜的遮擋場景和長視頻序列而著稱,很多物體會在視頻中消失又重新出現(xiàn),這對模型的長期記憶能力提出了很高要求。AUSM在這個數(shù)據(jù)集上的出色表現(xiàn)證明了其架構設計的有效性。
特別值得關注的是訓練效率的提升。隨著視頻序列長度的增加,并行訓練的優(yōu)勢越來越明顯。當處理16幀序列時,AUSM的訓練速度比傳統(tǒng)方法快了2.5倍。這種效率提升不僅節(jié)省了計算資源,還使得在更長的視頻序列上訓練成為可能,為未來的進一步改進奠定了基礎。
研究團隊還進行了詳細的消融實驗來驗證各個組件的作用。實驗顯示,從5幀訓練擴展到16幀訓練在所有數(shù)據(jù)集上都帶來了性能提升,其中在MOSE數(shù)據(jù)集上提升了4.5分,在OVIS上提升了5.2分。這證明了長期上下文信息對于復雜視頻理解任務的重要性。歷史標記器組件的引入使得視頻物體分割性能提升了近10%,顯示了保留空間細節(jié)信息的重要性。
六、技術創(chuàng)新的深層價值
AUSM的技術創(chuàng)新不僅體現(xiàn)在性能數(shù)據(jù)上,更重要的是它為視頻理解領域帶來了全新的思維方式。傳統(tǒng)方法就像是培養(yǎng)專門的技工,每個人只會做一種活兒,雖然專業(yè)但缺乏靈活性。AUSM則像是培養(yǎng)通識教育出來的人才,具備解決各種問題的基礎能力和學習新技能的潛力。
這種統(tǒng)一的架構設計帶來了幾個重要優(yōu)勢。首先是知識的遷移和共享。在傳統(tǒng)方法中,不同任務的模型各自為政,無法相互借鑒經(jīng)驗。而在AUSM中,處理追蹤任務時學到的時序建模能力可以幫助改善分割任務的性能,處理分割任務時學到的空間理解能力也能增強追蹤的準確性。這種協(xié)同效應使得整個系統(tǒng)的能力大于各部分之和。
其次是部署和維護的簡化。對于實際應用來說,只需要維護一個模型就能處理各種視頻任務,這大大降低了系統(tǒng)復雜性。無論是在云端服務器還是邊緣設備上,都只需要加載一套權重參數(shù),而不是多個專門的模型。這不僅節(jié)省了存儲空間,還簡化了版本管理和更新流程。
更深層的價值在于它為未來的擴展奠定了基礎。當前AUSM主要專注于分割和追蹤任務,但其架構設計具備很強的可擴展性。研究團隊提到,通過簡單的修改就可以支持邊界框檢測、關鍵點追蹤等其他視頻任務。這種可擴展性意味著隨著更多任務的加入,模型的能力會不斷增強,而不需要重新設計整個架構。
AUSM還引入了推理時計算縮放的概念,這在視頻領域是相對新穎的想法。通過構造重復序列,模型可以對同一內(nèi)容進行多次處理,從而提升結(jié)果的準確性。在COCO數(shù)據(jù)集上,這種方法將性能從34.2提升到35.0,在YouTube-VIS上從62.6提升到63.5。雖然提升幅度看起來不大,但這為未來探索更復雜的推理時優(yōu)化策略提供了可能性。
七、挑戰(zhàn)與局限性
盡管AUSM在多個方面都表現(xiàn)出色,但研究團隊也誠實地指出了當前方法的一些局限性。最主要的挑戰(zhàn)來自于在提示式視頻分割任務上與專門方法的性能差距。雖然這個差距在縮小,但仍然存在,特別是與使用了大規(guī)模私有數(shù)據(jù)訓練的SAM2相比。
這個性能差距的根本原因在于架構選擇上的權衡。AUSM為了實現(xiàn)通用性,選擇使用相對粗粒度的特征表示(步長為8),這在處理對象級任務時是合適的,但在需要精細邊界的分割任務上可能不夠理想。專門的分割模型通常使用更細粒度的特征(步長為4),能夠捕獲更多的細節(jié)信息。這就好比用同一支筆既要寫字又要畫畫,雖然可行但在某些特定任務上可能不如專門的工具。
另一個挑戰(zhàn)是長序列處理的性能衰減。雖然AUSM理論上可以處理任意長度的視頻,但實際測試發(fā)現(xiàn),當視頻長度超出訓練時使用的序列長度時,性能會有所下降。這個問題在語言模型中也存在,被稱為長度外推問題。研究團隊認為可以借鑒語言模型領域的解決方案,比如位置編碼改進和上下文長度擴展技術。
內(nèi)存使用和計算復雜度也是需要考慮的因素。雖然AUSM的內(nèi)存使用量是固定的,但這個固定值仍然相當可觀。在處理高分辨率長視頻時,內(nèi)存需求可能成為瓶頸。此外,歷史壓縮器中的自注意力機制在處理高分辨率特征時計算復雜度較高,這可能限制了模型在實時應用中的部署。
最后是訓練數(shù)據(jù)的多樣性問題。當前的訓練策略雖然使用了多個數(shù)據(jù)集,但這些數(shù)據(jù)集的標注方式和場景類型仍然有限。要讓AUSM真正具備處理各種實際場景的能力,需要更大規(guī)模、更多樣化的訓練數(shù)據(jù)。這不僅涉及數(shù)據(jù)收集的成本,還涉及標注的一致性和質(zhì)量控制。
八、未來展望與應用潛力
盡管存在一些局限性,但AUSM為視頻理解領域的未來發(fā)展指明了一個非常有前景的方向。研究團隊已經(jīng)規(guī)劃了幾個重要的改進方向,這些改進有望進一步提升模型的性能和適用性。
首先是架構的進一步優(yōu)化。研究團隊計劃開發(fā)專門針對視頻的主干網(wǎng)絡,減少幀無關的處理層,同時增強歷史壓縮器和解碼器等時序建模組件。這種改進有望在保持通用性的同時縮小與專門方法的性能差距。同時,他們也在探索更高效的注意力機制,以降低處理高分辨率視頻時的計算成本。
任務擴展是另一個重要方向。當前AUSM主要處理分割和追蹤任務,但其架構完全可以擴展到其他視頻理解任務。比如,通過將邊界框轉(zhuǎn)換為掩碼形式,可以支持目標檢測和多目標追蹤任務。通過引入文本編碼器,可以支持基于語言描述的視頻目標分割。這種擴展能力使得AUSM有潛力成為真正的視頻理解基礎模型。
長序列處理能力的提升也在計劃之中。研究團隊正在探索借鑒最新語言模型技術的方法,比如滑動窗口注意力、稀疏注意力和改進的位置編碼等。這些技術有望讓AUSM能夠處理更長的視頻序列而不出現(xiàn)性能衰減,這對于實際應用非常重要。
從應用角度來看,AUSM的潛力非常廣闊。在視頻編輯和后期制作中,它可以自動完成物體分割、背景替換、特效添加等工作,大大提高制作效率。在安防監(jiān)控領域,它可以同時實現(xiàn)人員追蹤、行為分析、異常檢測等多種功能,而不需要部署多套系統(tǒng)。在自動駕駛中,它可以統(tǒng)一處理車輛檢測、行人追蹤、車道分割等任務,簡化感知系統(tǒng)的復雜度。
醫(yī)療影像分析是另一個有前景的應用領域。AUSM可以用于分析手術視頻、超聲檢查視頻等醫(yī)療影像,自動識別和追蹤關鍵解剖結(jié)構,輔助醫(yī)生進行診斷和治療。在體育分析中,它可以自動追蹤球員動作、分析戰(zhàn)術配合、統(tǒng)計比賽數(shù)據(jù),為教練和運動員提供詳細的分析報告。
教育領域也有很大應用潛力。AUSM可以分析教學視頻,自動生成字幕、標注重點內(nèi)容、制作教學摘要,提高教育資源的可訪問性和利用效率。在內(nèi)容審核中,它可以自動識別視頻中的不當內(nèi)容,幫助平臺維護良好的社區(qū)環(huán)境。
說到底,AUSM最大的價值在于它證明了統(tǒng)一架構在視頻理解領域的可行性。就像大語言模型徹底改變了自然語言處理領域一樣,AUSM也可能催生視頻理解領域的范式轉(zhuǎn)變。從需要針對每個任務訓練專門模型,到使用一個通用模型處理所有任務,這種轉(zhuǎn)變不僅簡化了技術棧,還為未來的創(chuàng)新奠定了基礎。
當然,要實現(xiàn)這個愿景還需要時間和更多的技術突破。但AUSM已經(jīng)為這個目標邁出了重要的一步,它向我們展示了一個更簡潔、更統(tǒng)一、更強大的視頻理解系統(tǒng)的可能性。對于關注人工智能發(fā)展的讀者來說,這項研究值得持續(xù)關注,因為它很可能成為未來視頻AI應用的技術基礎。
想要深入了解技術細節(jié)的讀者可以通過arXiv:2508.19242v1訪問完整的研究論文,其中包含了詳細的實驗數(shù)據(jù)、算法描述和技術分析。這項研究不僅在學術上具有重要意義,在實際應用中也有很大的潛力,相信在不久的將來我們就能看到基于這種技術的各種創(chuàng)新應用。
Q&A
Q1:AUSM模型是什么?它和傳統(tǒng)的視頻處理方法有什么不同?
A:AUSM是NVIDIA等機構開發(fā)的通用視頻分割模型,就像培養(yǎng)了一個全能助手,用一個模型就能處理各種視頻任務。傳統(tǒng)方法需要針對不同任務訓練專門的模型,而AUSM可以同時處理物體追蹤、視頻分割等多種任務,大大簡化了系統(tǒng)復雜度。
Q2:AUSM的并行訓練有什么優(yōu)勢?訓練速度能提升多少?
A:AUSM采用類似語言模型的并行訓練策略,不需要逐幀等待前一幀結(jié)果,所有幀可以同時處理。實驗顯示,在處理16幀視頻時,并行訓練比傳統(tǒng)方法快2.5倍,而且隨著序列長度增加,速度優(yōu)勢更加明顯。
Q3:AUSM模型在實際應用中有哪些潛在用途?
A:AUSM的應用前景很廣泛,包括視頻編輯中的自動物體分割和背景替換、安防監(jiān)控中的人員追蹤、自動駕駛中的環(huán)境感知、醫(yī)療影像分析、體育比賽分析等。它的通用性使得一個模型就能解決多種視頻理解任務。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。