這項由北京大學(xué)通用人工智能國家重點實驗室的陳藝陽、馬修俊團隊與香港科技大學(xué)的何軒華、馬悅團隊聯(lián)合完成的研究發(fā)表于2025年9月,論文編號為arXiv:2509.17818v1。有興趣深入了解的讀者可以通過該編號在學(xué)術(shù)數(shù)據(jù)庫中查詢完整論文。
當(dāng)你看到一段視頻,突然想要在里面加入一只可愛的皮卡丘,或者把視頻中的小狗換成一只大猩猩,又或者干脆把某個物體完全刪除掉,你會怎么做?傳統(tǒng)的做法需要復(fù)雜的視頻編輯軟件,需要逐幀處理,還需要專業(yè)的技術(shù)知識。但現(xiàn)在,研究人員開發(fā)出了一種全新的方法,就像擁有了一位貼心的視頻編輯助手,只需要告訴它你想要什么效果,它就能自動幫你完成這些看似復(fù)雜的編輯工作。
這個被稱為"ContextFlow"的系統(tǒng)就像一位經(jīng)驗豐富的魔術(shù)師,能夠在不破壞原有視頻背景的情況下,精確地插入新物體、替換現(xiàn)有物體或者讓某些物體消失得無影無蹤。更令人驚喜的是,這個系統(tǒng)不需要任何專門的訓(xùn)練過程,就像一位天生就會畫畫的藝術(shù)家,拿起畫筆就能創(chuàng)作出令人驚嘆的作品。
研究團隊面臨的最大挑戰(zhàn)就像是在一幅正在播放的動畫中進行精密手術(shù)。你需要確保新加入的元素看起來完全自然,就像它們本來就屬于那個場景一樣,同時還要保證整個視頻的時間連續(xù)性不被破壞。這就好比在一部正在上演的戲劇中臨時換演員,新演員不僅要完美融入劇情,還要與其他演員的表演節(jié)奏保持完全同步。
一、傳統(tǒng)方法的困境:為什么視頻編輯如此困難
要理解這項研究的重要性,我們首先需要了解傳統(tǒng)視頻編輯方法遇到的困難。當(dāng)前的視頻編輯技術(shù)主要分為兩大類:一類是需要大量訓(xùn)練的方法,另一類是不需要訓(xùn)練的方法。
需要訓(xùn)練的方法就像培養(yǎng)一位專業(yè)的視頻編輯師。這些方法需要大量的視頻數(shù)據(jù)來學(xué)習(xí)如何進行編輯,就像一個學(xué)徒需要觀看成千上萬個編輯案例才能掌握技巧。雖然這些方法最終能夠產(chǎn)生令人印象深刻的結(jié)果,但它們需要巨大的計算資源和昂貴的數(shù)據(jù)集,就像培養(yǎng)一位頂級廚師需要多年的專業(yè)訓(xùn)練和大量的實踐機會一樣。
相比之下,不需要訓(xùn)練的方法更像是使用現(xiàn)成的工具。這些方法利用已經(jīng)訓(xùn)練好的模型來進行編輯,就像使用一套現(xiàn)成的廚具來烹飪,而不需要從頭學(xué)習(xí)如何制作這些工具。早期的代表性工作AnyV2V就采用了這種思路,它利用預(yù)訓(xùn)練模型中蘊含的豐富知識,無需任何特定任務(wù)的微調(diào)就能完成視頻編輯。
然而,這些傳統(tǒng)的不訓(xùn)練方法面臨著兩個關(guān)鍵問題。第一個問題就像是使用一把不夠鋒利的刀來切菜。傳統(tǒng)方法通常使用DDIM反演技術(shù)來處理原始視頻,這種技術(shù)就像使用一階數(shù)值求解器來解決復(fù)雜的數(shù)學(xué)方程。由于精度不夠,每一步計算都會產(chǎn)生小的誤差,這些誤差會像滾雪球一樣越積越大,最終導(dǎo)致重建出來的視頻質(zhì)量很差,出現(xiàn)各種視覺偽影。
第二個問題更加微妙,就像是在交響樂演奏中強行插入一段不協(xié)調(diào)的旋律。傳統(tǒng)方法采用"硬替換"策略,直接用新的特征替換原有的特征。這就好比在一幅精心繪制的畫作中,突然用完全不同的顏料覆蓋某個區(qū)域。這種粗暴的替換會造成上下文沖突,導(dǎo)致新插入的物體看起來很突兀,或者產(chǎn)生各種奇怪的視覺效果。
更復(fù)雜的是,隨著技術(shù)的發(fā)展,視頻生成模型的架構(gòu)已經(jīng)從傳統(tǒng)的U-Net結(jié)構(gòu)轉(zhuǎn)向了Diffusion Transformers(DiTs)。這就像是從使用傳統(tǒng)的膠片相機轉(zhuǎn)向了數(shù)字相機,雖然基本原理相似,但操作方式和內(nèi)部機制完全不同。傳統(tǒng)的指導(dǎo)機制就像是為膠片相機設(shè)計的操作手冊,用在數(shù)字相機上就會出現(xiàn)各種問題。
二、ContextFlow的創(chuàng)新思路:像調(diào)色師一樣精細操作
面對這些挑戰(zhàn),研究團隊開發(fā)了ContextFlow,這個系統(tǒng)就像一位經(jīng)驗豐富的調(diào)色師,能夠在不破壞原有畫面和諧的前提下,精確地調(diào)整視頻中的每一個細節(jié)。
ContextFlow的核心創(chuàng)新可以比作一套精密的手術(shù)工具。首先,它使用了一種叫做RF-Solver的高精度反演技術(shù),這就像是使用最鋒利的手術(shù)刀,能夠以極高的精度將原始視頻轉(zhuǎn)換為噪聲潛碼,然后再以同樣的精度將其還原。這種技術(shù)采用二階泰勒展開來更準確地估計微分方程的路徑,就像使用高精度的GPS導(dǎo)航系統(tǒng),每一步都能準確定位,避免了傳統(tǒng)一階方法累積誤差的問題。
更重要的是,ContextFlow引入了一種全新的"自適應(yīng)上下文豐富"機制。傳統(tǒng)方法就像是用橡皮擦擦掉原有內(nèi)容,然后重新畫上新內(nèi)容,這種粗暴的替換往往會破壞畫面的整體和諧。而ContextFlow更像是一位技藝精湛的畫家,它不是簡單地替換,而是在原有的畫布上增加新的色彩層次,讓新舊元素能夠自然融合。
這個機制的工作原理就像是雙軌制的創(chuàng)作過程。系統(tǒng)同時運行兩條平行的處理路徑:一條專門負責(zé)重建原始視頻,保持原有場景的完整性;另一條負責(zé)生成編輯后的內(nèi)容,創(chuàng)造新的視覺元素。然后,系統(tǒng)通過一種巧妙的"鍵值對拼接"技術(shù),將這兩條路徑的信息進行智能融合。
具體來說,這就像是在一個大型圖書館中進行信息檢索。傳統(tǒng)方法就像是把原有的書籍全部扔掉,然后放入新書,這樣做不僅浪費了原有的有價值信息,還可能造成信息斷層。而ContextFlow的方法更像是在原有書架上增加新的書籍,讓讀者(在這里指的是AI模型的注意力機制)可以同時參考新舊信息,根據(jù)需要選擇最相關(guān)的內(nèi)容。
三、精準定位:找到最關(guān)鍵的干預(yù)點
解決了如何進行融合的問題后,研究團隊還需要回答另一個關(guān)鍵問題:在哪里進行干預(yù)最有效?這就像是一位針灸師需要準確找到穴位一樣,在錯誤的地方施針不僅無效,還可能產(chǎn)生副作用。
傳統(tǒng)的U-Net架構(gòu)就像是一座分層明確的辦公大樓,每一層都有特定的功能:底層處理基礎(chǔ)信息,中層處理中級特征,頂層處理高級語義。因此,研究人員可以根據(jù)經(jīng)驗法則選擇在哪些層進行干預(yù)。但是Diffusion Transformers更像是一座現(xiàn)代化的開放式辦公空間,所有層次的功能都比較相似,傳統(tǒng)的經(jīng)驗法則就不再適用了。
為了解決這個問題,研究團隊開發(fā)了一種數(shù)據(jù)驅(qū)動的"關(guān)鍵層分析"方法。他們定義了一個"指導(dǎo)響應(yīng)性指標(biāo)",就像是測量每個樓層對特定干預(yù)措施的敏感度。通過在不同層次應(yīng)用上下文豐富機制,然后測量輸出結(jié)果的變化程度,他們能夠量化每一層對編輯過程的影響力。
研究結(jié)果顯示了一個非常有趣的模式,就像發(fā)現(xiàn)了建筑物內(nèi)部的隱秘結(jié)構(gòu)。在40層的Diffusion Transformer中,存在三個主要的高響應(yīng)區(qū)域:淺層區(qū)域(第1-10層)、中層區(qū)域(第15-21層)和深層區(qū)域(第26-32層)。更令人驚訝的是,不同的編輯任務(wù)對這些區(qū)域的依賴程度完全不同。
對于物體插入任務(wù),系統(tǒng)最依賴淺層區(qū)域,這就像是在建筑物的地基層進行施工,主要處理空間布局和結(jié)構(gòu)信息。這符合我們的直覺:要在場景中插入新物體,首先需要確定它在空間中的位置和與環(huán)境的關(guān)系。
相比之下,物體替換任務(wù)更依賴深層區(qū)域,這些層次主要處理高級語義概念,就像是在建筑物的頂層進行設(shè)計決策。替換物體需要理解原有物體的語義含義,然后用新物體的語義來替代。
物體刪除任務(wù)則呈現(xiàn)出獨特的雙峰模式,同時依賴中層和深層區(qū)域。這是因為刪除不僅需要理解要刪除的物體(深層語義),還需要合理地填補空缺區(qū)域(中層空間推理)。
通過選擇每個任務(wù)中響應(yīng)性最高的前k層進行干預(yù),研究團隊實現(xiàn)了既精確又高效的指導(dǎo)策略。這就像是一位經(jīng)驗豐富的醫(yī)生,知道在什么情況下應(yīng)該對哪些部位進行治療,既不會過度干預(yù),也不會干預(yù)不足。
四、時機把控:在恰當(dāng)?shù)臅r候施加影響
除了確定在哪里進行干預(yù),研究團隊還需要解決何時進行干預(yù)的問題。這就像是園藝師需要知道在植物生長的哪個階段進行修剪最為合適。
視頻生成過程可以比作一幅畫作的創(chuàng)作過程。在早期階段,畫家主要確定整體構(gòu)圖和基本形狀,這時候的筆觸比較粗糙,主要關(guān)注大的結(jié)構(gòu)關(guān)系。在后期階段,畫家會專注于細節(jié)的刻畫和質(zhì)感的表現(xiàn),每一筆都需要精心考慮。
研究團隊發(fā)現(xiàn),上下文豐富機制在生成過程的前半段最為有效。他們設(shè)置了一個時間閾值參數(shù)τ,當(dāng)τ=0.5時,系統(tǒng)只在前50%的時間步驟中應(yīng)用指導(dǎo)機制。這就像是在畫作的構(gòu)圖階段進行指導(dǎo),確保新元素能夠自然地融入整體布局,而在細節(jié)刻畫階段則讓系統(tǒng)自由發(fā)揮,避免過度約束影響最終的視覺質(zhì)量。
這種時機控制的智慧體現(xiàn)在對生成過程本質(zhì)的深刻理解。在早期階段,系統(tǒng)需要明確的結(jié)構(gòu)指導(dǎo)來確保編輯的準確性;而在后期階段,過多的干預(yù)反而會限制系統(tǒng)的創(chuàng)造性,影響最終結(jié)果的自然度和美觀性。
五、實驗驗證:全方位的性能測試
為了驗證ContextFlow的有效性,研究團隊進行了全面的實驗測試,就像是對一款新車進行各種路況的試駕。他們在Unic-Benchmark數(shù)據(jù)集上測試了系統(tǒng)在物體插入、替換和刪除三種任務(wù)上的性能。
在物體插入任務(wù)中,ContextFlow就像是一位技藝精湛的特效師,能夠?qū)⑿挛矬w自然地融入原有場景。比如在海面上插入一只漂浮的皮卡丘,系統(tǒng)不僅能夠保持皮卡丘的可愛外觀,還能讓它的運動看起來完全符合海浪的節(jié)奏,就像它本來就屬于那個場景一樣。
在物體替換任務(wù)中,系統(tǒng)表現(xiàn)得像一位經(jīng)驗豐富的演員替身。當(dāng)需要將視頻中的寵物狗替換成大猩猩時,ContextFlow不僅能夠保持大猩猩的特征細節(jié),還能讓它的行為模式與原有寵物狗的行為保持一致,創(chuàng)造出既真實又有趣的效果。
在物體刪除任務(wù)中,系統(tǒng)就像是一位專業(yè)的修復(fù)師,能夠巧妙地填補被刪除物體留下的空白,讓背景看起來完整自然,仿佛那個物體從來沒有存在過。
與現(xiàn)有方法的對比結(jié)果顯示,ContextFlow在多個關(guān)鍵指標(biāo)上都取得了顯著優(yōu)勢。在身份保持方面,系統(tǒng)能夠準確保持編輯物體的視覺特征;在背景保護方面,系統(tǒng)能夠完美保持原有場景的完整性;在視頻質(zhì)量方面,生成的視頻在平滑度、動態(tài)性和美觀度等方面都表現(xiàn)出色。
特別值得一提的是,ContextFlow甚至在某些方面超越了需要大量訓(xùn)練的方法。這就像是一位天賦異稟的藝術(shù)家,無需經(jīng)過長期訓(xùn)練就能創(chuàng)作出超越專業(yè)水準的作品。這種優(yōu)勢主要來源于系統(tǒng)對預(yù)訓(xùn)練模型知識的充分利用和精巧的設(shè)計理念。
六、深入分析:每個組件的獨特貢獻
為了更好地理解ContextFlow成功的原因,研究團隊進行了詳細的組件分析,就像拆解一臺精密儀器來研究每個零件的作用。
首先,他們驗證了自適應(yīng)上下文豐富機制的重要性。當(dāng)移除這個機制時,系統(tǒng)的表現(xiàn)就像是失去了導(dǎo)航系統(tǒng)的飛行員,雖然還能飛行,但很容易偏離目標(biāo)。沒有上下文豐富的指導(dǎo),編輯后的物體往往會出現(xiàn)身份不一致或者運動不自然的問題。
更有趣的是,當(dāng)研究團隊嘗試用傳統(tǒng)的"硬替換"策略代替他們的"軟融合"方法時,結(jié)果就像是用錘子代替手術(shù)刀進行精密操作。硬替換雖然能夠產(chǎn)生某種效果,但往往會破壞原有信息的完整性,導(dǎo)致編輯質(zhì)量顯著下降。
在層數(shù)選擇的實驗中,研究團隊發(fā)現(xiàn)了一個有趣的平衡點。當(dāng)選擇的層數(shù)太少時,就像是用太少的顏料作畫,無法產(chǎn)生足夠豐富的效果;當(dāng)選擇的層數(shù)太多時,就像是用太多的顏料,反而會讓畫面變得混亂。最優(yōu)的選擇是4層,這個數(shù)字恰好占整個模型層數(shù)的10%,體現(xiàn)了一種精妙的平衡。
在時間控制的實驗中,研究團隊驗證了τ=0.5這個設(shè)置的合理性。當(dāng)τ值太小時,系統(tǒng)獲得的指導(dǎo)不足,就像是在黑暗中摸索;當(dāng)τ值太大時,系統(tǒng)受到過多約束,就像是被繩子綁住了手腳。τ=0.5恰好在提供足夠指導(dǎo)和保持創(chuàng)作自由之間找到了最佳平衡點。
七、技術(shù)細節(jié):系統(tǒng)的內(nèi)在工作機制
ContextFlow的技術(shù)實現(xiàn)就像是一套精密的機械裝置,每個組件都有其特定的功能和作用機制。
RF-Solver反演技術(shù)是整個系統(tǒng)的基礎(chǔ),就像是建筑物的地基。傳統(tǒng)的DDIM反演就像是用粗糙的工具進行測量,每次測量都有誤差,這些誤差會逐步累積。而RF-Solver使用二階泰勒展開,就像是使用高精度的測量儀器,能夠大大減少每一步的誤差。
具體來說,傳統(tǒng)方法的數(shù)學(xué)表達式是一階近似:z_{t_{i-1}} = z_{t_i} + (t_{i-1} - t_i)v_θ(z_{t_i}, t_i)。這就像是用直線來近似曲線,當(dāng)曲線變化劇烈時,直線近似就會產(chǎn)生較大誤差。
而RF-Solver使用的二階近似:z_{t_{i+1}} = z_{t_i} + (t_{i+1} - t_i)v_θ(z_{t_i}, t_i) + \frac{1}{2}(t_{i+1} - t_i)^2v_θ^{(1)}(z_{t_i}, t_i),就像是用拋物線來近似曲線,能夠更準確地捕捉變化趨勢。
自適應(yīng)上下文豐富機制的數(shù)學(xué)實現(xiàn)也很巧妙。系統(tǒng)不是簡單地替換鍵值對,而是通過拼接來擴展上下文:K^{aug} = Concat([K^{edit}{t,l}, K^{res}{t,l}])和V^{aug} = Concat([V^{edit}{t,l}, V^{res}{t,l}])。這就像是在原有的詞典中添加新的詞匯,而不是完全替換掉原有詞典。
注意力機制然后在這個擴展的上下文中進行計算:Self-Attn^{enriched} = softmax(\frac{Q^{edit}_{t,l}(K^{aug})^T}{\sqrttl0x8mz8})V^{aug}。這樣,查詢向量可以同時關(guān)注到原有信息和新增信息,根據(jù)相關(guān)性自動選擇最合適的內(nèi)容。
八、實際應(yīng)用:從實驗室到現(xiàn)實世界
ContextFlow的實際應(yīng)用潛力就像是一把萬能鑰匙,能夠打開視頻編輯領(lǐng)域的多扇大門。在內(nèi)容創(chuàng)作領(lǐng)域,這項技術(shù)能夠大大降低視頻制作的門檻,讓普通用戶也能制作出專業(yè)水準的視頻內(nèi)容。
比如,一位旅游博主想要在自己的海灘視頻中添加一些有趣的元素,比如卡通角色或者神話生物,傳統(tǒng)方法需要復(fù)雜的后期制作流程,而ContextFlow只需要簡單的描述就能實現(xiàn)這種效果。這就像是擁有了一位隨時待命的專業(yè)特效師。
在教育領(lǐng)域,這項技術(shù)能夠幫助制作更加生動有趣的教學(xué)視頻。教師可以在歷史課程中插入歷史人物,在科學(xué)課程中添加分子模型或者天體運動,讓抽象的概念變得具體可見。這就像是擁有了一個能夠?qū)崿F(xiàn)任何想象的魔法教室。
在商業(yè)應(yīng)用方面,廣告制作公司可以利用這項技術(shù)快速制作產(chǎn)品演示視頻,電商平臺可以為產(chǎn)品創(chuàng)建更加吸引人的展示內(nèi)容。這不僅能夠節(jié)省大量的制作成本,還能夠快速響應(yīng)市場需求的變化。
然而,研究團隊也坦誠地指出了當(dāng)前系統(tǒng)的一些局限性。首先,系統(tǒng)的效果很大程度上依賴于第一幀編輯的質(zhì)量,就像是建筑物的質(zhì)量取決于地基的穩(wěn)固程度。如果第一幀的編輯存在問題,這些問題很可能會在整個視頻中被放大。
其次,對于包含極端運動或復(fù)雜遮擋的視頻,系統(tǒng)可能會遇到挑戰(zhàn)。這就像是在暴風(fēng)雨中進行精密操作,外部條件的復(fù)雜性會影響操作的精確度。
最后,作為一個需要雙路徑采樣的系統(tǒng),ContextFlow在計算資源方面的需求相對較高。處理一個81幀的480p視頻需要大約120GB的顯存和25分鐘的處理時間。這就像是駕駛一輛高性能跑車,雖然性能出色,但對燃料的需求也更大。
九、未來展望:技術(shù)發(fā)展的無限可能
ContextFlow的成功為視頻編輯技術(shù)的未來發(fā)展指明了方向,就像是在黑暗中點亮了一盞明燈。研究團隊已經(jīng)在考慮多個改進方向,每一個都充滿了令人興奮的可能性。
首先是提高系統(tǒng)對極端情況的處理能力。未來的版本可能會集成更強大的運動估計和遮擋處理算法,就像是為汽車安裝更先進的防撞系統(tǒng)和導(dǎo)航設(shè)備。這將使系統(tǒng)能夠處理更加復(fù)雜和動態(tài)的視頻場景。
其次是降低計算成本。研究團隊正在探索模型壓縮和蒸餾技術(shù),希望能夠在保持性能的同時大幅減少計算資源需求。這就像是開發(fā)更加節(jié)能的引擎,讓高性能技術(shù)能夠普及到更廣泛的用戶群體。
另一個令人興奮的方向是集成更精細的運動控制機制。未來的系統(tǒng)可能不僅能夠編輯物體的外觀,還能夠精確控制物體的運動軌跡和動態(tài)特性。這就像是從簡單的繪畫工具升級為能夠創(chuàng)造動態(tài)雕塑的藝術(shù)設(shè)備。
研究團隊還在考慮將第一幀編輯過程集成到整個框架中,創(chuàng)建一個端到端的解決方案。這將消除對外部圖像編輯工具的依賴,讓整個編輯流程更加流暢和一體化。
從更宏觀的角度來看,ContextFlow代表了AI技術(shù)在創(chuàng)意領(lǐng)域應(yīng)用的一個重要里程碑。它展示了如何通過巧妙的設(shè)計和深入的理解,讓AI系統(tǒng)能夠在不需要大量訓(xùn)練的情況下完成復(fù)雜的創(chuàng)意任務(wù)。這種思路對于其他AI應(yīng)用領(lǐng)域也具有重要的啟發(fā)意義。
說到底,ContextFlow不僅僅是一項技術(shù)創(chuàng)新,更是對AI與人類創(chuàng)造力結(jié)合方式的一次深刻探索。它讓我們看到了一個未來:在那里,技術(shù)不是替代人類的創(chuàng)造力,而是成為放大和增強人類想象力的強大工具。每個人都可能成為視頻創(chuàng)作的藝術(shù)家,只需要有想法,技術(shù)就能幫助實現(xiàn)。這項研究為我們描繪了一個更加民主化、更加富有創(chuàng)造力的數(shù)字內(nèi)容創(chuàng)作未來,讓我們對即將到來的技術(shù)變革充滿期待。
Q&A
Q1:ContextFlow是什么?它能做什么?
A:ContextFlow是由北京大學(xué)和香港科技大學(xué)聯(lián)合開發(fā)的AI視頻編輯系統(tǒng),它能夠在不需要任何訓(xùn)練的情況下,自動在視頻中插入新物體、替換現(xiàn)有物體或刪除特定物體,同時保持視頻的自然度和時間連續(xù)性。就像擁有一位專業(yè)的視頻特效師,只需要描述想要的效果,系統(tǒng)就能自動完成復(fù)雜的編輯工作。
Q2:ContextFlow與傳統(tǒng)視頻編輯方法有什么區(qū)別?
A:傳統(tǒng)方法就像用橡皮擦擦掉原內(nèi)容再重新繪制,往往會破壞畫面和諧。而ContextFlow更像一位技藝精湛的畫家,通過"自適應(yīng)上下文豐富"機制在原有畫布上增加新的色彩層次,讓新舊元素自然融合。它還使用高精度的RF-Solver技術(shù)避免了傳統(tǒng)DDIM反演方法的累積誤差問題。
Q3:普通用戶如何使用ContextFlow?有什么技術(shù)要求?
A:目前ContextFlow還是研究階段的技術(shù),需要約120GB顯存和25分鐘處理時間來編輯一個81幀的視頻。用戶需要先用現(xiàn)有圖像編輯工具(如AnyDoor)編輯第一幀,然后系統(tǒng)會自動將編輯效果傳播到整個視頻。隨著技術(shù)發(fā)展,未來可能會有更輕量化的版本供普通用戶使用。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。