在視頻生成技術(shù)迅速發(fā)展的今天,來自ByteDance智能創(chuàng)作團(tuán)隊(duì)的研究者們發(fā)布了一項(xiàng)令人振奮的突破性成果。由Angtian Wang、Haibin Huang、Jacob Zhiyuan Fang、Yiding Yang和Chongyang Ma共同完成的研究論文《ATI: Any Trajectory Instruction for Controllable Video Generation》于2025年5月28日發(fā)布在arXiv預(yù)印本平臺(tái)(arXiv:2505.22944v1),這項(xiàng)工作徹底改變了我們控制AI生成視頻的方式。有興趣深入了解的讀者可以通過項(xiàng)目網(wǎng)站https://anytraj.github.io/查看更多細(xì)節(jié)。
為什么視頻控制如此重要?
想象一下,你手里有一張美麗的風(fēng)景照片,想讓它"活"起來——也許你希望云朵緩緩飄動(dòng),或者讓鳥兒從左向右飛過天空。在ATI出現(xiàn)之前,實(shí)現(xiàn)這樣的愿望可能需要使用多個(gè)不同的工具和技術(shù):一個(gè)工具控制相機(jī)移動(dòng)(比如縮放或平移),另一個(gè)工具控制物體運(yùn)動(dòng)(讓鳥兒飛起來),再加上第三個(gè)工具處理細(xì)微的局部變形(讓樹葉隨風(fēng)擺動(dòng))。這就像是烹飪一道復(fù)雜的菜肴,但必須在三個(gè)不同的廚房完成不同的步驟,最后再試圖將它們完美地組合在一起——結(jié)果常常令人失望。
ByteDance智能創(chuàng)作團(tuán)隊(duì)的研究者們認(rèn)識(shí)到這個(gè)問題,并提出了一個(gè)優(yōu)雅的解決方案:如果我們能用一種統(tǒng)一的方式來描述所有類型的運(yùn)動(dòng)呢?這就是ATI(Any Trajectory Instruction,任意軌跡指令)系統(tǒng)的核心思想。
ATI如何工作?從點(diǎn)到動(dòng)態(tài)視頻的神奇過程
ATI的工作原理出奇地簡單又直觀。想象你手里有一張照片,你可以在上面標(biāo)記幾個(gè)你關(guān)心的點(diǎn),然后為每個(gè)點(diǎn)畫出一條軌跡,指定它在未來視頻中應(yīng)該如何移動(dòng)。這些點(diǎn)可以代表任何東西:
如果你在一只貓的眼睛和尾巴上標(biāo)記點(diǎn),并畫出軌跡,ATI會(huì)讓貓按照你指定的方式動(dòng)起來。
如果你在整個(gè)場景中均勻地標(biāo)記一些點(diǎn),并讓它們?nèi)肯蛴乙苿?dòng),ATI會(huì)創(chuàng)建一個(gè)相機(jī)向左平移的效果。
如果你在場景中均勻標(biāo)記點(diǎn),并讓它們從中心向外擴(kuò)散,ATI會(huì)生成一個(gè)相機(jī)縮放效果。
就像一個(gè)熟練的木偶師通過牽動(dòng)幾根關(guān)鍵的線就能讓整個(gè)木偶栩栩如生,ATI通過控制幾個(gè)關(guān)鍵點(diǎn)的軌跡就能讓整個(gè)場景自然地動(dòng)起來。
從技術(shù)角度來看,ATI的實(shí)現(xiàn)非常巧妙。研究團(tuán)隊(duì)首先將用戶定義的軌跡點(diǎn)投射到預(yù)訓(xùn)練的圖像到視頻生成模型的潛在空間中。簡單來說,這就像是在AI的"思維空間"中種下運(yùn)動(dòng)的種子,然后讓AI根據(jù)這些種子生成完整的視頻。
具體來說,ATI使用了一個(gè)叫做"運(yùn)動(dòng)注入器"(motion injector)的輕量級(jí)模塊,它能夠?qū)④壽E信息轉(zhuǎn)化為AI能理解的指令。這個(gè)過程類似于翻譯工作—將人類直觀的軌跡指令翻譯成AI系統(tǒng)能理解的語言。最妙的是,這個(gè)注入器非常輕量,可以輕松地集成到現(xiàn)有的視頻生成模型中,而無需對這些模型進(jìn)行重新訓(xùn)練。
數(shù)據(jù)是關(guān)鍵:如何教會(huì)AI理解軌跡
任何機(jī)器學(xué)習(xí)系統(tǒng)的成功都離不開高質(zhì)量的訓(xùn)練數(shù)據(jù)。為了教會(huì)ATI理解和遵循軌跡指令,研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含240萬個(gè)高質(zhì)量視頻片段的大規(guī)模數(shù)據(jù)集。
這個(gè)數(shù)據(jù)收集過程可以類比為一個(gè)大規(guī)模的"追蹤游戲"。首先,研究團(tuán)隊(duì)從500萬個(gè)高質(zhì)量視頻片段中篩選出展示明顯物體運(yùn)動(dòng)的240萬個(gè)片段。然后,他們在每個(gè)視頻的第一幀上均勻地選取120個(gè)點(diǎn),并使用一個(gè)名為TAP-Net的先進(jìn)跟蹤算法來記錄這些點(diǎn)在整個(gè)視頻中的運(yùn)動(dòng)軌跡。
這就像是給每個(gè)點(diǎn)貼上一個(gè)小標(biāo)簽,然后觀察它們在視頻中的"旅行路線"。通過收集大量這樣的"旅行日志",AI系統(tǒng)學(xué)會(huì)了理解不同類型的運(yùn)動(dòng)模式,以及如何根據(jù)用戶指定的軌跡生成自然、連貫的視頻內(nèi)容。
為什么ATI如此特別?統(tǒng)一的控制方式改變游戲規(guī)則
ATI的最大創(chuàng)新在于它提供了一個(gè)統(tǒng)一的框架來處理所有類型的視頻運(yùn)動(dòng)控制。這就像是發(fā)明了一種通用語言,能夠同時(shí)描述跳舞、行走和飛行,而不需要為每種動(dòng)作使用不同的語言。
在ATI之前,研究人員通常會(huì)為不同類型的運(yùn)動(dòng)控制開發(fā)專門的工具: - 相機(jī)控制工具使用特殊的坐標(biāo)系統(tǒng)來描述相機(jī)的移動(dòng) - 物體運(yùn)動(dòng)控制工具使用邊界框或光流來指導(dǎo)物體的位移 - 局部變形控制則需要更復(fù)雜的模型來處理細(xì)微的形狀變化
ATI打破了這些界限,提出了一個(gè)簡單而強(qiáng)大的見解:所有這些運(yùn)動(dòng)類型都可以通過點(diǎn)軌跡來統(tǒng)一表示。無論你想要控制相機(jī)移動(dòng)、物體平移還是局部變形,都可以使用相同的軌跡指令來實(shí)現(xiàn)。
這種統(tǒng)一的方法大大簡化了用戶的工作流程。就像廚師不再需要在多個(gè)廚房之間奔波,而是在一個(gè)設(shè)備齊全的廚房中完成所有烹飪步驟,用戶現(xiàn)在可以在一個(gè)界面中完成所有的運(yùn)動(dòng)控制。
技術(shù)細(xì)節(jié):ATI如何在幕后工作
從技術(shù)角度來看,ATI的工作流程非常優(yōu)雅。當(dāng)用戶提供一張輸入圖像和一組軌跡指令時(shí),系統(tǒng)首先通過VAE(變分自編碼器)將圖像編碼為潛在特征。對于每個(gè)軌跡點(diǎn),系統(tǒng)從其初始位置提取一個(gè)特征向量,并計(jì)算一個(gè)高斯分布來表示該特征在后續(xù)幀中的分布。
這個(gè)過程可以類比為在水面上投下一塊石頭。石頭(軌跡點(diǎn))在水面上創(chuàng)造出漣漪(高斯分布),這些漣漪隨著時(shí)間的推移按照預(yù)定的路徑移動(dòng)。系統(tǒng)使用這些移動(dòng)的"漣漪"來指導(dǎo)視頻生成過程,確保生成的內(nèi)容遵循用戶指定的軌跡。
研究團(tuán)隊(duì)還解決了一個(gè)有趣的技術(shù)挑戰(zhàn):當(dāng)一個(gè)軌跡在視頻結(jié)束前終止時(shí),系統(tǒng)往往會(huì)生成不自然的遮擋。研究人員通過引入"尾部丟棄正則化"(Tail Dropout Regularization)技術(shù)解決了這個(gè)問題。在訓(xùn)練期間,系統(tǒng)隨機(jī)截?cái)嘁恍┸壽E,這樣模型就學(xué)會(huì)了理解軌跡的終止并不總是意味著遮擋或離開畫面。
這就像教導(dǎo)一個(gè)孩子理解,當(dāng)一個(gè)人離開你的視野范圍時(shí),并不一定是躲到了什么東西后面,也可能只是停止了移動(dòng)。
實(shí)驗(yàn)結(jié)果:ATI在實(shí)際應(yīng)用中的表現(xiàn)
研究團(tuán)隊(duì)將ATI集成到兩個(gè)最先進(jìn)的視頻生成模型中:Seaweed-7B和Wan2.1-14B,并進(jìn)行了廣泛的評估。結(jié)果令人印象深刻:
ATI能夠成功處理各種復(fù)雜的視頻生成任務(wù),包括:
物體運(yùn)動(dòng)控制:讓寵物、人物或其他物體按照指定軌跡移動(dòng),同時(shí)保持自然的外觀和運(yùn)動(dòng)。例如,讓一只海豚從水中躍起,或者讓一個(gè)角色的面部表情隨時(shí)間變化。
相機(jī)控制:實(shí)現(xiàn)平滑的相機(jī)移動(dòng)效果,如縮放、平移或旋轉(zhuǎn)。ATI甚至可以模擬復(fù)雜的攝影技巧,如"杜比變焦"(Dolly Zoom)——這是一種通過同時(shí)調(diào)整相機(jī)位置和焦距來創(chuàng)造戲劇性視覺效果的技術(shù)。
組合控制:最令人印象深刻的是,ATI能夠同時(shí)處理相機(jī)移動(dòng)和物體運(yùn)動(dòng),創(chuàng)造出豐富、復(fù)雜的視頻效果。例如,相機(jī)可以環(huán)繞一個(gè)物體,同時(shí)該物體也在進(jìn)行自己的運(yùn)動(dòng)。
在量化評估中,研究人員測試了ATI在跟蹤準(zhǔn)確性方面的表現(xiàn)。對于Seaweed-7B模型,ATI在嚴(yán)格的跟蹤標(biāo)準(zhǔn)(誤差小于圖像對角線的1%)下達(dá)到了36%的準(zhǔn)確率,在較寬松的標(biāo)準(zhǔn)(誤差小于圖像對角線的5%)下達(dá)到了59%的準(zhǔn)確率??梢姸嚷剩ㄏ到y(tǒng)正確預(yù)測點(diǎn)是否可見的比例)達(dá)到了67.9%。這些數(shù)字表明ATI能夠相當(dāng)準(zhǔn)確地遵循用戶指定的軌跡。
當(dāng)然,ATI也有一些局限性。對于非??焖俚倪\(yùn)動(dòng)(例如,一個(gè)點(diǎn)在兩幀之間移動(dòng)半個(gè)圖像寬度),系統(tǒng)可能無法準(zhǔn)確跟蹤軌跡。同樣,對于需要物體分解的軌跡(例如,強(qiáng)制一個(gè)物體分裂成多個(gè)部分),系統(tǒng)可能會(huì)生成不自然的變形或失敗。
但總的來說,ATI展示了出色的軌跡跟蹤能力,即使在軌跡交叉或重疊的情況下也能保持穩(wěn)定的表現(xiàn)。有趣的是,研究人員還觀察到ATI有時(shí)會(huì)找到創(chuàng)造性的解決方案來滿足用戶的軌跡指令,例如,旋轉(zhuǎn)相機(jī)而不是應(yīng)用不合理的物體變形。
從理論到實(shí)踐:ATI的實(shí)際應(yīng)用場景
ATI的出現(xiàn)為視頻創(chuàng)作者、設(shè)計(jì)師和普通用戶打開了新的可能性之門。這項(xiàng)技術(shù)可以應(yīng)用于多種實(shí)際場景:
內(nèi)容創(chuàng)作:藝術(shù)家和創(chuàng)作者可以輕松制作具有精確運(yùn)動(dòng)控制的動(dòng)畫和視頻效果,而無需學(xué)習(xí)復(fù)雜的動(dòng)畫軟件。
電影制作:電影制作人可以快速預(yù)覽不同的相機(jī)移動(dòng)和角色動(dòng)作,以低成本探索創(chuàng)意選擇。
社交媒體內(nèi)容:普通用戶可以為他們的照片添加生動(dòng)的動(dòng)態(tài)效果,使社交媒體分享更加引人注目。
教育和演示:教師和演講者可以創(chuàng)建動(dòng)態(tài)的可視化內(nèi)容,使復(fù)雜的概念更容易理解。
設(shè)計(jì)原型:設(shè)計(jì)師可以快速創(chuàng)建動(dòng)態(tài)原型,展示產(chǎn)品如何在實(shí)際使用中運(yùn)動(dòng)和交互。
ATI的真正魅力在于它的普適性和易用性。就像智能手機(jī)的觸摸界面讓復(fù)雜的計(jì)算任務(wù)變得簡單直觀一樣,ATI的軌跡控制方法讓復(fù)雜的視頻生成變得簡單易用,使更多人能夠參與創(chuàng)意視頻制作。
未來展望:ATI的發(fā)展方向
盡管ATI已經(jīng)展示了令人印象深刻的能力,研究團(tuán)隊(duì)仍然看到了進(jìn)一步改進(jìn)的空間。在論文的結(jié)論部分,他們提到計(jì)劃在未來增強(qiáng)控制能力,確保物體運(yùn)動(dòng)更好地遵循現(xiàn)實(shí)世界的物理規(guī)律和用戶輸入。
這可能意味著引入物理約束,使生成的運(yùn)動(dòng)更加自然;或者開發(fā)更復(fù)雜的軌跡規(guī)劃工具,讓用戶能夠更精確地控制運(yùn)動(dòng)的速度、加速度和其他屬性。
此外,ATI的統(tǒng)一控制框架也為其他類型的生成控制提供了啟示。未來的研究可能會(huì)探索如何將軌跡控制與其他控制信號(hào)(如文本、音頻或草圖)結(jié)合起來,創(chuàng)造更豐富、更多樣化的生成內(nèi)容。
隨著視頻生成技術(shù)的不斷發(fā)展,ATI代表了一個(gè)重要的里程碑——它不僅提高了控制的精度和質(zhì)量,更重要的是,它簡化了控制的方式,使這項(xiàng)技術(shù)更加平民化。
在過去,創(chuàng)造動(dòng)態(tài)視覺效果需要專業(yè)的知識(shí)和復(fù)雜的工具;現(xiàn)在,有了ATI,任何人都可以通過簡單的點(diǎn)和線來指導(dǎo)AI創(chuàng)造生動(dòng)的視頻內(nèi)容。這就像是從需要專業(yè)訓(xùn)練的管弦樂團(tuán)轉(zhuǎn)變?yōu)槿魏稳硕寄苁褂玫闹庇^樂器——音樂(或在這里,視頻創(chuàng)作)變得更加民主化和普及化。
結(jié)語:點(diǎn)線之間的視頻魔法
ATI的出現(xiàn)向我們展示了AI如何使復(fù)雜的創(chuàng)意任務(wù)變得簡單直觀。通過將各種類型的運(yùn)動(dòng)控制統(tǒng)一到一個(gè)基于軌跡的框架中,ByteDance智能創(chuàng)作團(tuán)隊(duì)不僅提高了視頻生成的控制精度,還大大簡化了用戶的創(chuàng)作流程。
歸根結(jié)底,ATI的成功在于它找到了一種直觀、統(tǒng)一的方式來表達(dá)我們對運(yùn)動(dòng)的意圖。就像人類可以通過簡單的手勢來指示方向和運(yùn)動(dòng)一樣,ATI讓我們可以通過簡單的軌跡來指導(dǎo)AI生成復(fù)雜、自然的視頻內(nèi)容。
這項(xiàng)研究讓我們離"思想直接轉(zhuǎn)化為視頻"的理想又近了一步。對于普通人來說,ATI可能意味著在不久的將來,我們將能夠更輕松地創(chuàng)建個(gè)性化的動(dòng)態(tài)內(nèi)容,無論是為了工作、教育還是純粹的娛樂。
對于那些想深入了解ATI的技術(shù)細(xì)節(jié)或親自嘗試這項(xiàng)技術(shù)的讀者,可以訪問項(xiàng)目網(wǎng)站https://anytraj.github.io/獲取更多信息和資源。隨著這類技術(shù)的不斷發(fā)展,視頻創(chuàng)作的未來將變得越來越令人期待。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對培養(yǎng)AI空間智能的重要價(jià)值。