av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 中國傳媒大學(xué)團(tuán)隊發(fā)現(xiàn):一個預(yù)訓(xùn)練視頻生成模型竟能通用處理各種視覺任務(wù)

中國傳媒大學(xué)團(tuán)隊發(fā)現(xiàn):一個預(yù)訓(xùn)練視頻生成模型竟能通用處理各種視覺任務(wù)

2025-10-17 11:09
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-17 11:09 ? 科技行者

這項由中國傳媒大學(xué)媒體智能處理團(tuán)隊的陳蘭等研究者以及新加坡國立大學(xué)Show Lab的顧宇超共同完成的研究于2025年9月發(fā)表在arXiv平臺(論文編號:arXiv:2509.21760v1),為我們展現(xiàn)了一個令人意外的發(fā)現(xiàn):原本專門用來生成視頻的人工智能模型,經(jīng)過簡單調(diào)整后竟然能夠勝任各種不同的視覺任務(wù)。

在人工智能的世界里,通常每個模型都有自己的專長——就像不同職業(yè)的工人各司其職。圖像識別模型專門認(rèn)圖片,視頻生成模型專門制作視頻,深度預(yù)測模型專門判斷距離。但是,這種專業(yè)化分工也帶來了一個問題:要想建立一個能夠處理多種視覺任務(wù)的系統(tǒng),研究人員需要收集大量不同類型的訓(xùn)練數(shù)據(jù),這個過程既昂貴又耗時,就像要培養(yǎng)一個全能工匠需要讓他學(xué)會所有不同工藝的技巧一樣困難。

研究團(tuán)隊提出了一個大膽的假設(shè):能否讓一個已經(jīng)訓(xùn)練好的視頻生成模型承擔(dān)起多種視覺任務(wù)的責(zé)任?他們的靈感來源于大型語言模型的成功經(jīng)驗。我們都知道ChatGPT這樣的語言模型能夠處理翻譯、寫作、問答等各種語言任務(wù),那么視頻生成模型是否也具備這樣的潛力呢?

這個想法看似簡單,實際上卻蘊(yùn)含著深刻的洞察。視頻本身就是由連續(xù)的圖像幀組成的,而視頻生成模型在訓(xùn)練過程中已經(jīng)學(xué)會了理解圖像之間的時間關(guān)系和空間關(guān)系。研究團(tuán)隊認(rèn)為,這些已有的能力或許可以被巧妙地轉(zhuǎn)移到其他視覺任務(wù)上。

為了驗證這個想法,研究團(tuán)隊設(shè)計了名為UniVid的框架。這個框架的核心思路是將各種視覺任務(wù)都表示成"視覺句子"的形式。什么是視覺句子呢?可以把它想象成一個視覺版的語言句子,只不過每個"詞匯"都是一張圖片或一段視頻片段。

具體來說,每個視覺句子都遵循A→A'→B→B'的模式。在這個結(jié)構(gòu)中,A和A'構(gòu)成一個示例對,展示了某種特定的視覺變換關(guān)系,比如從原始圖像到其深度圖的轉(zhuǎn)換。B是查詢輸入,B'則是期望的輸出結(jié)果。這種結(jié)構(gòu)讓模型能夠通過觀察示例來理解任務(wù)要求,然后將同樣的變換應(yīng)用到新的輸入上。

研究團(tuán)隊選擇了Wan視頻生成模型作為他們的實驗基礎(chǔ)。Wan模型原本是專門用來根據(jù)文字描述生成視頻的,但現(xiàn)在它要承擔(dān)起更廣泛的責(zé)任。為了讓這個模型適應(yīng)新任務(wù),研究團(tuán)隊采用了一種叫做LoRA(Low-Rank Adaptation)的技術(shù)進(jìn)行微調(diào)。這種技術(shù)的妙處在于它不需要重新訓(xùn)練整個模型,而是只調(diào)整模型的一小部分參數(shù),就像給一臺通用機(jī)器安裝不同的工具頭來完成不同的工作一樣。

在訓(xùn)練過程中,研究團(tuán)隊將視覺句子中的A、A'和B部分作為清晰的上下文信息輸入給模型,只對目標(biāo)輸出B'添加噪聲。這樣,模型就能學(xué)會根據(jù)前面的上下文來生成正確的輸出。這個過程有點像教一個學(xué)生做數(shù)學(xué)題:先給他看幾個解題示例,然后讓他根據(jù)這些示例來解決新的問題。

研究團(tuán)隊設(shè)計了六種不同類型的視覺任務(wù)來測試UniVid的能力。其中包括生成類任務(wù),比如涂鴉圖轉(zhuǎn)換(將簡單的線條畫轉(zhuǎn)換成詳細(xì)的圖像)、風(fēng)格轉(zhuǎn)換(將普通照片轉(zhuǎn)換成梵高畫風(fēng))和相機(jī)運(yùn)動轉(zhuǎn)換(改變視頻的拍攝角度或運(yùn)動方式)。同時還包括理解類任務(wù),比如深度圖預(yù)測(判斷圖像中物體的遠(yuǎn)近距離)、語義分割(識別圖像中不同區(qū)域分別是什么)和顯著物體跟蹤(追蹤視頻中最重要的物體)。

令人驚訝的是,盡管Wan模型在預(yù)訓(xùn)練階段只接觸過自然視頻數(shù)據(jù),從未見過深度圖、分割圖等標(biāo)注數(shù)據(jù),但經(jīng)過微調(diào)后的UniVid卻能夠很好地處理這些跨數(shù)據(jù)源的任務(wù)。這就好比一個只在中式廚房工作過的廚師,經(jīng)過短期學(xué)習(xí)后竟然能做出地道的法式菜肴。

更有趣的是,UniVid展現(xiàn)出了強(qiáng)大的跨模態(tài)適應(yīng)能力。所謂跨模態(tài),就是指能夠同時處理圖像和視頻的混合輸入。傳統(tǒng)的視覺模型通常只能處理單一類型的輸入,要么是純圖像,要么是純視頻。但UniVid可以理解這樣的情況:給它看一張圖片和一個視頻示例,然后讓它根據(jù)這個混合示例來處理新的查詢。這種能力就像一個翻譯員不僅能在兩種語言之間互譯,還能理解圖文并茂的復(fù)合信息一樣。

研究過程中最令人興奮的發(fā)現(xiàn)之一是,理解任務(wù)和生成任務(wù)在這個框架下可以輕易互換。只需要調(diào)換視覺句子中元素的順序,一個原本用于理解的任務(wù)就可以變成生成任務(wù),反之亦然。比如,原本是"自然視頻→顯著物體遮罩"的理解任務(wù),調(diào)換順序后就變成了"顯著物體遮罩→自然視頻"的生成任務(wù)。這種對稱性表明,在視覺處理的深層次上,理解和生成可能本質(zhì)上是同一個過程的兩個方面。

為了驗證UniVid的泛化能力,研究團(tuán)隊進(jìn)行了大量實驗。他們發(fā)現(xiàn),即使每個任務(wù)只用20個訓(xùn)練樣本進(jìn)行微調(diào),模型也能取得不錯的效果。這說明視頻生成模型在預(yù)訓(xùn)練階段學(xué)到的知識確實可以有效地遷移到其他視覺任務(wù)上。

在混合訓(xùn)練實驗中,研究團(tuán)隊嘗試同時訓(xùn)練多個任務(wù)。結(jié)果顯示,與分別訓(xùn)練每個任務(wù)相比,聯(lián)合訓(xùn)練的效果往往更好。這進(jìn)一步證明了不同視覺任務(wù)之間存在內(nèi)在的關(guān)聯(lián)性,它們可以相互促進(jìn)學(xué)習(xí)。

研究團(tuán)隊還探索了上下文長度對模型性能的影響。他們測試了4-shot、6-shot和8-shot等不同設(shè)置,發(fā)現(xiàn)雖然更長的上下文通常能帶來更好的效果,但也會增加推理時間??紤]到效率和效果的平衡,他們最終選擇了4-shot設(shè)置作為標(biāo)準(zhǔn)配置。

在與現(xiàn)有方法的對比實驗中,UniVid展現(xiàn)出了強(qiáng)勁的競爭力。盡管它只使用了很少的訓(xùn)練數(shù)據(jù),但在多項任務(wù)上的表現(xiàn)都超過了需要大量標(biāo)注數(shù)據(jù)的傳統(tǒng)方法。這個結(jié)果特別有意義,因為它表明我們可能無需收集海量的任務(wù)特定數(shù)據(jù)就能構(gòu)建出高效的視覺系統(tǒng)。

當(dāng)然,這項研究也存在一些局限性。目前使用的Wan模型受到上下文長度的限制,每個序列最多只能處理81幀。此外,由于生成過程的隨機(jī)性,在某些需要精確標(biāo)簽一致性的任務(wù)(如實例分割)上,模型的表現(xiàn)還不夠穩(wěn)定。

這項研究的意義不僅在于技術(shù)突破,更在于它為我們提供了一個新的思路:也許我們不需要從零開始為每個新任務(wù)構(gòu)建專門的模型,而是可以利用已有的強(qiáng)大基礎(chǔ)模型,通過巧妙的任務(wù)設(shè)計和少量的適應(yīng)性訓(xùn)練來實現(xiàn)多種功能。這種思路可能會顯著降低人工智能應(yīng)用的開發(fā)成本和時間。

從更廣闊的視角來看,這項研究也呼應(yīng)了當(dāng)前人工智能發(fā)展的一個重要趨勢:從專用模型向通用模型的轉(zhuǎn)變。就像大型語言模型統(tǒng)一了各種文本處理任務(wù)一樣,視頻生成模型可能也具備統(tǒng)一各種視覺任務(wù)的潛力。這種統(tǒng)一不僅能簡化系統(tǒng)設(shè)計,還可能幫助我們更好地理解視覺認(rèn)知的本質(zhì)。

展望未來,研究團(tuán)隊計劃探索長上下文視頻生成架構(gòu),以處理更長的視頻序列。他們也希望解決理解任務(wù)中的標(biāo)簽一致性問題,讓模型在處理需要精確分類的任務(wù)時表現(xiàn)得更加穩(wěn)定。

說到底,這項研究告訴我們一個簡單而深刻的道理:有時候解決問題的鑰匙可能就藏在我們已有的工具箱里,關(guān)鍵在于如何巧妙地使用它們。UniVid的成功表明,通過創(chuàng)造性的任務(wù)設(shè)計和適當(dāng)?shù)哪P瓦m應(yīng),我們可以讓一個專門的視頻生成模型變身為多面手,承擔(dān)起各種不同的視覺任務(wù)。這不僅為構(gòu)建更加統(tǒng)一和高效的視覺AI系統(tǒng)開辟了新路徑,也為我們理解智能系統(tǒng)的通用性提供了新的視角。對于那些希望深入了解這一創(chuàng)新方法的讀者,可以通過論文編號arXiv:2509.21760v1查詢完整的技術(shù)細(xì)節(jié)和實驗結(jié)果。

Q&A

Q1:UniVid是什么?它的核心創(chuàng)新在哪里?

A:UniVid是由中國傳媒大學(xué)和新加坡國立大學(xué)聯(lián)合開發(fā)的統(tǒng)一視覺任務(wù)框架。它的核心創(chuàng)新在于讓一個原本專門生成視頻的AI模型通過簡單調(diào)整就能處理圖像識別、深度預(yù)測、物體分割等各種不同的視覺任務(wù),就像把專用工具改造成了多功能工具。

Q2:視頻生成模型為什么能處理其他視覺任務(wù)?

A:視頻生成模型在訓(xùn)練過程中已經(jīng)學(xué)會了理解圖像之間的時間和空間關(guān)系,這些能力可以遷移到其他視覺任務(wù)上。研究團(tuán)隊通過"視覺句子"的方式,讓模型通過觀察示例來理解任務(wù)要求,然后應(yīng)用到新的輸入上,有點像教學(xué)生通過例題來解決新問題。

Q3:UniVid相比傳統(tǒng)方法有什么優(yōu)勢?

A:UniVid的最大優(yōu)勢是不需要為每個新任務(wù)收集大量專門的訓(xùn)練數(shù)據(jù)。傳統(tǒng)方法需要針對每種視覺任務(wù)準(zhǔn)備海量標(biāo)注數(shù)據(jù),而UniVid只需要每個任務(wù)20個樣本就能取得不錯效果,大大降低了開發(fā)成本和時間。同時它還能處理圖像和視頻的混合輸入,適應(yīng)性更強(qiáng)。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-