
這項(xiàng)由南洋理工大學(xué)的邱浩男、黃子琪、Netflix Eyeline Studios的余寧、Paul Debevec以及劉紫維教授共同完成的研究發(fā)表于2025年1月《IEEE期刊》,研究編號(hào)為arXiv:2508.15774。這個(gè)名為CineScale的突破性技術(shù),就像給原本只能畫(huà)小畫(huà)的畫(huà)家突然獲得了在巨大畫(huà)布上創(chuàng)作精美壁畫(huà)的能力。
傳統(tǒng)的AI視頻生成模型就如同一位只會(huì)在A4紙上作畫(huà)的藝術(shù)家。無(wú)論你給它多么詳細(xì)的描述,它能產(chǎn)出的視頻分辨率都被嚴(yán)格限制在訓(xùn)練時(shí)的大小。比如,目前廣泛使用的Stable Diffusion模型只能生成512×512像素的圖片,而VideoCrafter2這樣的視頻生成模型也被限制在320×512的分辨率。這就好比一位畫(huà)家被告知只能用郵票大小的畫(huà)布創(chuàng)作,無(wú)論技藝多么精湛,作品的視覺(jué)沖擊力都會(huì)大打折扣。
問(wèn)題的核心在于,訓(xùn)練這些AI模型需要海量的高分辨率數(shù)據(jù)和驚人的計(jì)算資源。獲取足夠的8K或4K視頻數(shù)據(jù)本身就像尋找稀世珍寶一樣困難,而且即使有了數(shù)據(jù),訓(xùn)練過(guò)程所需的計(jì)算能力也會(huì)讓成本飆升到天文數(shù)字。因此,大多數(shù)研究團(tuán)隊(duì)只能在相對(duì)較低的分辨率上訓(xùn)練模型,然后希望這些模型能在實(shí)際應(yīng)用中產(chǎn)生更高質(zhì)量的輸出。
然而,當(dāng)我們強(qiáng)行讓這些"小畫(huà)布藝術(shù)家"在大畫(huà)布上創(chuàng)作時(shí),問(wèn)題就出現(xiàn)了。直接將分辨率提升往往會(huì)導(dǎo)致畫(huà)面中出現(xiàn)重復(fù)的物體,就像復(fù)印機(jī)卡紙時(shí)會(huì)在紙上留下重復(fù)的圖案一樣。一個(gè)人的臉可能會(huì)出現(xiàn)多個(gè)眼睛,一只狗可能會(huì)長(zhǎng)出額外的腿,整個(gè)畫(huà)面看起來(lái)既詭異又不自然。這種現(xiàn)象的根本原因是模型在處理超出訓(xùn)練分辨率的內(nèi)容時(shí),會(huì)產(chǎn)生過(guò)多的高頻信息,導(dǎo)致錯(cuò)誤不斷累積,最終形成令人不悅的重復(fù)模式。
研究團(tuán)隊(duì)經(jīng)過(guò)深入分析發(fā)現(xiàn),現(xiàn)有的解決方案各有局限。有些方法雖然能消除重復(fù)問(wèn)題,但會(huì)讓畫(huà)面變得模糊不清,顏色也會(huì)變得奇怪。另一些方法能保持畫(huà)面清晰,但只能解決部分重復(fù)問(wèn)題,仍然會(huì)在局部區(qū)域出現(xiàn)小的重復(fù)圖案。這就像修理一臺(tái)精密儀器,修好了一個(gè)部件卻弄壞了另一個(gè)部件。
面對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)開(kāi)發(fā)了CineScale技術(shù),它的工作原理可以用一個(gè)巧妙的比喻來(lái)理解。設(shè)想你要把一幅小畫(huà)放大成巨幅壁畫(huà),傳統(tǒng)方法就像直接用放大鏡,結(jié)果畫(huà)面變得粗糙模糊。而CineScale則像一位經(jīng)驗(yàn)豐富的藝術(shù)修復(fù)師,它首先理解小畫(huà)的整體構(gòu)圖和主要元素,然后在更大的畫(huà)布上重新創(chuàng)作,既保持了原作的精神,又增添了豐富的細(xì)節(jié)。
CineScale的核心創(chuàng)新體現(xiàn)在三個(gè)相互配合的技術(shù)組件上。第一個(gè)組件叫做"定制自級(jí)聯(lián)放大",它的工作方式就像分層次地完善一幅畫(huà)作。系統(tǒng)首先在原始分辨率下生成一個(gè)完整的視頻,確保整體構(gòu)圖和動(dòng)作都是合理的。然后,它逐步將這個(gè)視頻放大,在每個(gè)放大階段都會(huì)添加適量的"噪聲"(可以理解為不確定性),讓模型有機(jī)會(huì)重新繪制那些在放大過(guò)程中變得模糊的細(xì)節(jié)。這個(gè)過(guò)程就像畫(huà)家先畫(huà)出整體輪廓,然后逐層添加細(xì)節(jié)和質(zhì)感。
第二個(gè)組件是"約束膨脹卷積",這聽(tīng)起來(lái)很技術(shù)化,但其實(shí)可以用調(diào)整相機(jī)焦距的比喻來(lái)理解。傳統(tǒng)的AI模型就像使用固定焦距的相機(jī),只能看到有限范圍內(nèi)的信息。當(dāng)處理更大的畫(huà)面時(shí),這種局限性就會(huì)導(dǎo)致重復(fù)問(wèn)題,因?yàn)槟P蜔o(wú)法理解整體的空間關(guān)系。約束膨脹卷積技術(shù)相當(dāng)于給模型配備了可變焦鏡頭,讓它能夠在處理細(xì)節(jié)的同時(shí)也能感知更大范圍的背景信息,從而避免產(chǎn)生不協(xié)調(diào)的重復(fù)圖案。
第三個(gè)組件是"尺度融合"技術(shù),這是整個(gè)系統(tǒng)最精妙的部分。它的工作原理就像一位經(jīng)驗(yàn)豐富的攝影師同時(shí)使用多個(gè)不同焦距的鏡頭拍攝同一場(chǎng)景,然后將這些照片的最佳部分合成為一張完美的作品。具體來(lái)說(shuō),系統(tǒng)會(huì)同時(shí)在全局視野和局部視野下處理視頻內(nèi)容。全局視野確保整體構(gòu)圖的合理性和一致性,而局部視野則專(zhuān)注于精細(xì)化細(xì)節(jié)的生成。然后,系統(tǒng)通過(guò)巧妙的頻率分離技術(shù),將全局視野提供的高頻細(xì)節(jié)(負(fù)責(zé)清晰度)與局部視野提供的低頻結(jié)構(gòu)(負(fù)責(zé)整體布局)相結(jié)合,創(chuàng)造出既有豐富細(xì)節(jié)又保持整體協(xié)調(diào)性的最終畫(huà)面。
研究團(tuán)隊(duì)還發(fā)現(xiàn),不同的AI架構(gòu)面臨著不同的挑戰(zhàn)。傳統(tǒng)的UNet架構(gòu)(像Stable Diffusion使用的)主要面臨重復(fù)圖案的問(wèn)題,而新興的DiT架構(gòu)(Diffusion Transformer)則更容易產(chǎn)生模糊畫(huà)面。這就像不同品牌的相機(jī)有不同的特點(diǎn)和局限性一樣。為了解決這個(gè)問(wèn)題,團(tuán)隊(duì)為DiT架構(gòu)開(kāi)發(fā)了專(zhuān)門(mén)的適配技術(shù)。
對(duì)于DiT架構(gòu),主要的問(wèn)題在于當(dāng)處理的圖像尺寸大大超出訓(xùn)練時(shí)的尺寸時(shí),模型會(huì)遇到"位置編碼"的困擾??梢园盐恢镁幋a想象成給畫(huà)布上的每個(gè)點(diǎn)標(biāo)記坐標(biāo)的系統(tǒng)。當(dāng)畫(huà)布突然變大時(shí),原有的坐標(biāo)系統(tǒng)就不夠用了,就像用城市地圖去導(dǎo)航整個(gè)國(guó)家一樣會(huì)出現(xiàn)混亂。研究團(tuán)隊(duì)借鑒了大語(yǔ)言模型中處理長(zhǎng)文本的經(jīng)驗(yàn),開(kāi)發(fā)了NTK-RoPE技術(shù)來(lái)擴(kuò)展這個(gè)"坐標(biāo)系統(tǒng)",讓模型能夠準(zhǔn)確理解更大畫(huà)布上每個(gè)位置的含義。
同時(shí),他們還引入了"注意力縮放"技術(shù)。當(dāng)畫(huà)面中的元素?cái)?shù)量大幅增加時(shí),模型的注意力會(huì)被過(guò)度分散,就像一個(gè)人試圖同時(shí)關(guān)注太多事情時(shí)會(huì)變得無(wú)法集中精神一樣。注意力縮放技術(shù)通過(guò)調(diào)整一個(gè)"溫度參數(shù)"來(lái)幫助模型重新聚焦,確保它能夠在處理大畫(huà)面時(shí)仍然保持對(duì)重要細(xì)節(jié)的敏感度。
雖然這些技術(shù)已經(jīng)能夠顯著改善生成質(zhì)量,但研究團(tuán)隊(duì)發(fā)現(xiàn),對(duì)于極高分辨率的視頻生成,完全無(wú)需訓(xùn)練的方法仍然有其局限性。因此,他們開(kāi)發(fā)了一種"最小化LoRA微調(diào)"策略。LoRA可以理解為一種非常輕量級(jí)的學(xué)習(xí)方法,就像給一位已經(jīng)很有經(jīng)驗(yàn)的藝術(shù)家提供一些新畫(huà)布和工具的使用指導(dǎo),而不是重新教他整套繪畫(huà)技巧。研究團(tuán)隊(duì)只用了大約20000個(gè)免費(fèi)的高分辨率視頻樣本,就成功地讓模型適應(yīng)了4K分辨率的視頻生成任務(wù)。
CineScale的實(shí)際效果令人驚嘆。在圖像生成方面,該技術(shù)能夠?qū)⒃局荒苌?024×1024像素圖片的模型直接提升到8192×8192像素,分辨率提升了64倍。這相當(dāng)于把一張護(hù)照照片放大成可以覆蓋整面墻的巨幅海報(bào),而且畫(huà)質(zhì)不但沒(méi)有損失,反而增加了許多原本看不清的精美細(xì)節(jié)。更重要的是,整個(gè)過(guò)程不需要任何額外的訓(xùn)練,就像魔法一樣神奇。
在視頻生成方面,CineScale能夠?qū)⒎直媛蕪?20×512提升到4K級(jí)別(2176×3840),分辨率提升了9倍。研究團(tuán)隊(duì)展示的樣例視頻顯示,即使是畫(huà)面中很小的人臉也能生成得異常清晰,時(shí)間上的連續(xù)性也保持得很好,沒(méi)有出現(xiàn)閃爍或不連貫的情況。
更有意思的是,CineScale不僅限于傳統(tǒng)的文本到圖像或文本到視頻的生成任務(wù)。它還支持圖像到視頻(給定一張照片生成相關(guān)視頻)和視頻到視頻(對(duì)現(xiàn)有視頻進(jìn)行風(fēng)格轉(zhuǎn)換或編輯)的功能。這就像一個(gè)多才多藝的藝術(shù)家,不僅能從零開(kāi)始創(chuàng)作,還能基于現(xiàn)有作品進(jìn)行改編和創(chuàng)新。
研究團(tuán)隊(duì)進(jìn)行了大量的對(duì)比實(shí)驗(yàn)來(lái)驗(yàn)證CineScale的優(yōu)越性。他們將自己的方法與當(dāng)前最先進(jìn)的幾種高分辨率生成技術(shù)進(jìn)行了比較,包括ScaleCrafter、DemoFusion、FouriScale等。結(jié)果顯示,CineScale在幾乎所有的評(píng)估指標(biāo)上都取得了最佳或次佳的成績(jī),而且計(jì)算時(shí)間開(kāi)銷(xiāo)微乎其微。
在用戶體驗(yàn)測(cè)試中,研究團(tuán)隊(duì)邀請(qǐng)了23位用戶對(duì)不同方法生成的圖像進(jìn)行評(píng)價(jià)。結(jié)果顯示,在圖像質(zhì)量、文本對(duì)齊程度和視覺(jué)結(jié)構(gòu)完整性三個(gè)方面,CineScale都獲得了超過(guò)70%的用戶選擇,遠(yuǎn)遠(yuǎn)超過(guò)其他競(jìng)爭(zhēng)方法。這種壓倒性的優(yōu)勢(shì)表明,CineScale生成的內(nèi)容不僅在技術(shù)指標(biāo)上表現(xiàn)優(yōu)異,在人類(lèi)的直觀感受上也更加出色。
CineScale的另一個(gè)重要特性是它的靈活性和可控性。用戶可以通過(guò)調(diào)整不同的參數(shù)來(lái)控制細(xì)節(jié)生成的程度,甚至可以對(duì)畫(huà)面的不同區(qū)域設(shè)置不同的細(xì)節(jié)級(jí)別。比如,在生成一個(gè)人物肖像時(shí),用戶可以選擇在面部區(qū)域增加更多細(xì)節(jié),而在背景區(qū)域保持相對(duì)簡(jiǎn)潔。這種精細(xì)化控制能力為創(chuàng)意工作者提供了前所未有的靈活性。
系統(tǒng)還支持實(shí)時(shí)的語(yǔ)義編輯功能。在生成過(guò)程中,用戶可以通過(guò)修改文本描述來(lái)改變畫(huà)面中特定區(qū)域的內(nèi)容。例如,可以將一個(gè)男孩的形象改變?yōu)槔先?,或者給人物添加太陽(yáng)鏡等配飾。這種編輯能力讓視頻創(chuàng)作變得更加直觀和高效。
從技術(shù)發(fā)展的角度來(lái)看,CineScale代表了AI視頻生成領(lǐng)域的一個(gè)重要里程碑。它不僅解決了困擾業(yè)界已久的高分辨率生成問(wèn)題,更重要的是它提供了一個(gè)通用的解決方案框架,可以應(yīng)用到不同的模型架構(gòu)和生成任務(wù)上。這種通用性意味著隨著基礎(chǔ)模型的不斷改進(jìn),CineScale的效果也會(huì)相應(yīng)提升。
然而,研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前技術(shù)的局限性。生成超高分辨率內(nèi)容仍然需要相當(dāng)大的計(jì)算資源,這限制了技術(shù)的普及速度。此外,雖然最小化LoRA微調(diào)大大降低了訓(xùn)練成本,但仍然需要一定數(shù)量的高質(zhì)量數(shù)據(jù),這對(duì)普通用戶來(lái)說(shuō)可能是個(gè)門(mén)檻。
展望未來(lái),研究團(tuán)隊(duì)計(jì)劃在幾個(gè)方向上繼續(xù)改進(jìn)CineScale技術(shù)。首先是提高計(jì)算效率,通過(guò)算法優(yōu)化和模型壓縮技術(shù)來(lái)降低硬件要求,讓更多人能夠使用這項(xiàng)技術(shù)。其次是擴(kuò)展支持的模型類(lèi)型,讓CineScale能夠與更多不同的AI生成模型兼容。最后是改善生成質(zhì)量的穩(wěn)定性,確保在各種不同的輸入條件下都能產(chǎn)生高質(zhì)量的結(jié)果。
CineScale技術(shù)的出現(xiàn)標(biāo)志著AI視頻生成從"能用"向"好用"的重大轉(zhuǎn)變。過(guò)去,AI生成的視頻往往分辨率有限,細(xì)節(jié)模糊,只能作為概念驗(yàn)證或簡(jiǎn)單的演示工具。而現(xiàn)在,通過(guò)CineScale,我們可以生成接近專(zhuān)業(yè)電影制作質(zhì)量的4K視頻內(nèi)容,這為內(nèi)容創(chuàng)作、教育培訓(xùn)、娛樂(lè)產(chǎn)業(yè)等多個(gè)領(lǐng)域開(kāi)啟了新的可能性。
對(duì)于普通用戶而言,CineScale意味著視頻創(chuàng)作的門(mén)檻將大大降低。過(guò)去需要專(zhuān)業(yè)攝影師、昂貴設(shè)備和復(fù)雜后期制作才能實(shí)現(xiàn)的高質(zhì)量視頻,現(xiàn)在只需要一段文字描述就可以生成。這種技術(shù)民主化的趨勢(shì)將讓更多人能夠參與到視頻內(nèi)容的創(chuàng)作中來(lái),極大地豐富我們的數(shù)字文化生態(tài)。
從商業(yè)應(yīng)用的角度來(lái)看,CineScale為廣告制作、產(chǎn)品展示、教育內(nèi)容等領(lǐng)域提供了全新的解決方案。企業(yè)可以用更低的成本和更短的時(shí)間來(lái)制作高質(zhì)量的宣傳視頻,教育機(jī)構(gòu)可以創(chuàng)建更生動(dòng)形象的教學(xué)材料,創(chuàng)意工作者可以將更多精力投入到創(chuàng)意本身而不是技術(shù)細(xì)節(jié)上。
說(shuō)到底,CineScale不僅僅是一個(gè)技術(shù)突破,它更代表了人工智能在創(chuàng)意領(lǐng)域應(yīng)用的一個(gè)重要進(jìn)展。它讓我們看到了AI技術(shù)如何能夠真正服務(wù)于人類(lèi)的創(chuàng)造性需求,而不僅僅是完成重復(fù)性的任務(wù)。隨著這類(lèi)技術(shù)的不斷發(fā)展和普及,我們有理由相信,未來(lái)的內(nèi)容創(chuàng)作將變得更加豐富多彩,更加富有想象力。
當(dāng)然,這也提醒我們需要思考AI生成內(nèi)容在真實(shí)性、版權(quán)保護(hù)和倫理規(guī)范等方面的問(wèn)題。如何在享受技術(shù)便利的同時(shí)確保內(nèi)容的負(fù)責(zé)任使用,將是我們?cè)趽肀н@項(xiàng)技術(shù)時(shí)需要共同面對(duì)的挑戰(zhàn)。但無(wú)論如何,CineScale所展示的可能性都讓人充滿期待,它為我們描繪了一個(gè)視頻創(chuàng)作更加民主化、高效化的未來(lái)圖景。
有興趣深入了解這項(xiàng)技術(shù)細(xì)節(jié)的讀者,可以通過(guò)arXiv:2508.15774查詢(xún)完整的研究論文,論文中包含了詳細(xì)的技術(shù)實(shí)現(xiàn)和實(shí)驗(yàn)結(jié)果分析。
Q&A
Q1:CineScale技術(shù)是什么?它能做什么?
A:CineScale是南洋理工大學(xué)開(kāi)發(fā)的AI視頻生成技術(shù),它能讓原本只能生成小分辨率視頻的AI模型直接生成8K圖像和4K視頻,分辨率提升可達(dá)64倍,而且不需要重新訓(xùn)練模型。
Q2:CineScale如何解決AI生成視頻中的重復(fù)圖案問(wèn)題?
A:CineScale通過(guò)三個(gè)核心技術(shù)解決這個(gè)問(wèn)題:定制自級(jí)聯(lián)放大技術(shù)逐步完善畫(huà)面、約束膨脹卷積擴(kuò)大模型視野范圍、尺度融合技術(shù)結(jié)合全局和局部信息,從而避免產(chǎn)生重復(fù)的眼睛、面部等圖案。
Q3:普通人能使用CineScale技術(shù)嗎?有什么限制?
A:目前CineScale主要面向研究機(jī)構(gòu)和專(zhuān)業(yè)用戶,因?yàn)樯沙叻直媛室曨l仍需要較大計(jì)算資源。不過(guò)研究團(tuán)隊(duì)正在優(yōu)化算法效率,未來(lái)有望降低硬件要求,讓更多人能夠使用這項(xiàng)技術(shù)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。