這項(xiàng)由騰訊混元團(tuán)隊(duì)開發(fā)的突破性研究發(fā)表于2025年7月,論文詳細(xì)介紹了HunyuanWorld 1.0框架的技術(shù)實(shí)現(xiàn)和應(yīng)用效果。有興趣深入了解的讀者可以通過https://3d.hunyuan.tencent.com/sceneTo3D或GitHub項(xiàng)目頁面https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0訪問完整技術(shù)資料。
想象你正坐在電腦前,腦海中浮現(xiàn)出一個(gè)美麗的海邊小鎮(zhèn)場景,你希望能夠親自走進(jìn)這個(gè)場景,四處探索,甚至移動(dòng)其中的物品。在以前,這樣的想法只能停留在想象中,或者需要專業(yè)的3D建模團(tuán)隊(duì)花費(fèi)數(shù)月時(shí)間才能實(shí)現(xiàn)。但現(xiàn)在,騰訊混元團(tuán)隊(duì)開發(fā)的HunyuanWorld 1.0讓這一切變得觸手可及。
傳統(tǒng)的世界生成技術(shù)就像兩個(gè)各有所長但都有明顯缺陷的廚師。第一個(gè)廚師擅長制作色彩斑斕、味道豐富的菜肴,但每道菜的口感都不一致,而且制作過程極其緩慢,必須一道一道按順序完成。這就好比基于視頻的世界生成方法,雖然能創(chuàng)造出視覺效果豐富多樣的內(nèi)容,但在保持3D一致性方面存在問題,渲染效率也很低。第二個(gè)廚師雖然能保證每道菜的質(zhì)量一致,制作效率也很高,但受限于食材短缺和廚具簡陋,能做出的菜品種類非常有限。這相當(dāng)于基于3D的世界生成方法,雖然幾何一致性好,兼容性強(qiáng),但受到訓(xùn)練數(shù)據(jù)稀缺和內(nèi)存效率低下的制約。
HunyuanWorld 1.0的出現(xiàn)就像是融合了兩位廚師優(yōu)點(diǎn)的超級(jí)大廚,既能制作出豐富多樣的美味佳肴,又能保證品質(zhì)一致和效率。這個(gè)框架的核心思想是使用全景圖像作為"世界代理",就像用一張360度的全景照片來代表整個(gè)世界,然后基于這張照片重建出完整的3D場景。
**一、全景世界代理:從平面到立體的神奇轉(zhuǎn)換**
整個(gè)系統(tǒng)的第一步是生成全景圖像,這就像是為即將建造的3D世界繪制一張藍(lán)圖。研究團(tuán)隊(duì)開發(fā)了一個(gè)名為Panorama-DiT的生成模型,它基于擴(kuò)散變換器架構(gòu),能夠根據(jù)文字描述或輸入圖片生成高質(zhì)量的360度全景圖像。
當(dāng)用戶輸入文字描述時(shí),比如"雷電交加中,火焰島屹立在兩座山峰之間",系統(tǒng)首先會(huì)通過大語言模型對(duì)這個(gè)描述進(jìn)行優(yōu)化和細(xì)化。這個(gè)過程就像是請一位經(jīng)驗(yàn)豐富的導(dǎo)演根據(jù)簡單的劇本大綱,編寫出詳細(xì)的拍攝腳本。優(yōu)化后的描述會(huì)包含更多細(xì)節(jié),比如光影效果、色彩搭配、場景氛圍等,這樣生成的全景圖像質(zhì)量會(huì)更高。
如果用戶提供的是一張普通照片,系統(tǒng)會(huì)通過等矩形投影技術(shù)將這張照片"嵌入"到全景空間中,然后生成其余部分的內(nèi)容。這個(gè)過程類似于你給建筑師看了一張房間一角的照片,建筑師據(jù)此設(shè)計(jì)出整個(gè)房間的布局圖。為了確保生成的內(nèi)容與原圖片協(xié)調(diào)一致,系統(tǒng)還會(huì)自動(dòng)生成一個(gè)場景感知的文本描述,作為額外的指導(dǎo)信息。
全景圖像生成面臨兩個(gè)主要挑戰(zhàn)。第一個(gè)是幾何扭曲問題,因?yàn)橐亚蛎娴木跋笸队暗狡矫嫔希拖癜训厍騼x上的內(nèi)容畫到平面地圖上一樣,必然會(huì)產(chǎn)生變形。第二個(gè)是邊界不連續(xù)問題,全景圖的左右邊緣實(shí)際上是相連的,但在生成過程中容易產(chǎn)生不匹配的內(nèi)容。
為了解決這些問題,研究團(tuán)隊(duì)采用了兩種策略。首先是高程感知增強(qiáng)技術(shù),在訓(xùn)練過程中隨機(jī)垂直移動(dòng)全景圖像,讓模型適應(yīng)不同的視角變化。其次是循環(huán)去噪技術(shù),在生成過程中對(duì)全景圖像進(jìn)行循環(huán)填充,確保左右邊界的內(nèi)容能夠無縫銜接。這就像制作無縫壁紙時(shí),要確保圖案的左右邊緣能夠完美拼接。
**二、智能世界分層:讓AI學(xué)會(huì)"分解"復(fù)雜場景**
有了全景圖像這張"世界藍(lán)圖"后,系統(tǒng)需要將其分解成不同的語義層次,就像一個(gè)室內(nèi)設(shè)計(jì)師會(huì)把房間分解為墻面、家具、裝飾品等不同類別。這個(gè)過程被稱為"世界分層",目標(biāo)是將場景分解為天空層、背景層和多個(gè)物體層,每一層都可以獨(dú)立處理和交互。
系統(tǒng)采用了一種"智能代理"方法來實(shí)現(xiàn)自動(dòng)分層。首先是實(shí)例識(shí)別階段,系統(tǒng)會(huì)識(shí)別場景中哪些物體需要單獨(dú)建模以支持交互操作。比如在一個(gè)客廳場景中,沙發(fā)、茶幾、臺(tái)燈等可以移動(dòng)的物品會(huì)被識(shí)別為前景對(duì)象,而墻壁、天花板等固定結(jié)構(gòu)則作為背景處理。
接下來是層次分解階段,系統(tǒng)需要精確定位這些識(shí)別出的物體。這里遇到的一個(gè)技術(shù)難題是,傳統(tǒng)的物體檢測模型無法直接應(yīng)用于全景圖像,因?yàn)槿皥D像的左右邊界是連續(xù)的,一個(gè)物體可能會(huì)被"切斷"顯示在圖像的兩端。為了解決這個(gè)問題,研究團(tuán)隊(duì)采用循環(huán)填充的預(yù)處理方法,在輸入檢測模型前對(duì)全景圖像進(jìn)行擴(kuò)展,確??邕吔绲奈矬w能夠被完整檢測。
最后是層次補(bǔ)全階段,當(dāng)前景物體被分離出來后,背景會(huì)出現(xiàn)空洞,系統(tǒng)需要"腦補(bǔ)"出被遮擋的內(nèi)容。這就像修復(fù)一幅畫作時(shí),需要根據(jù)周圍的內(nèi)容推測出缺失部分應(yīng)該是什么樣子。研究團(tuán)隊(duì)訓(xùn)練了專門的修復(fù)模型,能夠根據(jù)周圍的視覺線索生成合理的背景內(nèi)容。
**三、層級(jí)3D重建:從平面圖紙到立體模型**
有了分層的全景圖像,系統(tǒng)就可以開始構(gòu)建真正的3D世界了。這個(gè)過程包括兩個(gè)關(guān)鍵步驟:深度估計(jì)和3D重建。
深度估計(jì)就像是給每個(gè)像素標(biāo)注它到觀察者的距離。對(duì)于原始全景圖像,系統(tǒng)首先使用深度估計(jì)模型生成一個(gè)基礎(chǔ)深度圖。然后,對(duì)于每個(gè)分離出來的層次,系統(tǒng)會(huì)單獨(dú)估計(jì)其深度信息,并通過深度對(duì)齊技術(shù)確保不同層次之間的深度關(guān)系保持一致。這個(gè)過程類似于建筑師在設(shè)計(jì)樓房時(shí),需要確保每一層的高度和整體結(jié)構(gòu)協(xié)調(diào)一致。
接下來是3D重建階段,系統(tǒng)使用一種叫做"網(wǎng)格扭曲"的技術(shù),將二維的全景圖像轉(zhuǎn)換為三維網(wǎng)格模型。這個(gè)過程就像是把一張平面的紙折疊成立體的燈籠,每個(gè)像素都會(huì)被賦予相應(yīng)的3D坐標(biāo)。
對(duì)于前景物體,系統(tǒng)提供兩種重建策略。第一種是直接投影方法,將物體直接轉(zhuǎn)換為3D網(wǎng)格,適合背景物體或不需要復(fù)雜交互的元素。第二種是3D生成方法,系統(tǒng)會(huì)根據(jù)物體的2D圖像生成完整的3D模型,然后將其放置到合適的位置。這種方法生成的物體具有完整的3D結(jié)構(gòu),支持更豐富的交互操作。
背景層的處理相對(duì)簡單,系統(tǒng)會(huì)應(yīng)用自適應(yīng)深度壓縮來處理異常值,確保深度分布合理,然后通過網(wǎng)格扭曲技術(shù)生成背景的3D網(wǎng)格。
天空層通常設(shè)置為均勻的深度值,稍大于場景中其他元素的最大深度,確保天空始終顯示在最遠(yuǎn)處。除了傳統(tǒng)的網(wǎng)格表示,系統(tǒng)還支持HDRI環(huán)境貼圖表示,這在VR應(yīng)用中能提供更真實(shí)的天空渲染效果。
**四、世界漫游擴(kuò)展:突破視野限制的無限探索**
雖然基于全景圖像的3D重建已經(jīng)能夠支持一定程度的場景探索,但用戶的移動(dòng)范圍仍然受到原始視角的限制。就像站在房間中央拍攝的全景照片,雖然能看到四周的景象,但無法展示房間外面的內(nèi)容。
為了突破這個(gè)限制,研究團(tuán)隊(duì)開發(fā)了名為Voyager的視頻擴(kuò)展系統(tǒng)。這個(gè)系統(tǒng)的核心思想是使用視頻生成技術(shù)來擴(kuò)展世界的邊界,讓用戶能夠探索原始視角之外的區(qū)域。
Voyager采用了一種"世界緩存"機(jī)制,就像是建立一個(gè)不斷擴(kuò)展的3D地圖。系統(tǒng)會(huì)將已生成的3D場景信息存儲(chǔ)在緩存中,當(dāng)用戶移動(dòng)到新的位置時(shí),系統(tǒng)會(huì)利用這些緩存信息作為約束,確保新生成的內(nèi)容與已有場景保持一致。
這個(gè)過程類似于探險(xiǎn)隊(duì)在未知領(lǐng)域探索時(shí),會(huì)在已經(jīng)走過的路徑上留下標(biāo)記,確保新發(fā)現(xiàn)的區(qū)域與已知地形能夠合理銜接。系統(tǒng)通過將緩存的3D信息投影到新的視角,為視頻生成模型提供空間引導(dǎo),避免產(chǎn)生不一致的內(nèi)容。
為了支持長距離探索,系統(tǒng)還采用了分段生成和平滑拼接技術(shù)。當(dāng)需要生成很長的移動(dòng)序列時(shí),系統(tǒng)不會(huì)試圖一次性生成整個(gè)視頻,而是分段生成多個(gè)短視頻,然后通過智能算法將它們無縫拼接起來。這就像制作長篇電影時(shí),會(huì)分別拍攝多個(gè)場景,最后在剪輯室中將它們組合成完整的故事。
**五、系統(tǒng)優(yōu)化與實(shí)際應(yīng)用**
為了確保HunyuanWorld 1.0能夠在實(shí)際應(yīng)用中穩(wěn)定運(yùn)行,研究團(tuán)隊(duì)對(duì)系統(tǒng)進(jìn)行了全方位的優(yōu)化。
在存儲(chǔ)優(yōu)化方面,3D網(wǎng)格文件通常體積龐大,直接存儲(chǔ)和傳輸會(huì)帶來很大負(fù)擔(dān)。研究團(tuán)隊(duì)采用了雙重壓縮策略來解決這個(gè)問題。對(duì)于離線使用場景,系統(tǒng)采用多階段處理流程,包括網(wǎng)格簡化、紋理烘焙和UV參數(shù)化,通過XAtlas算法優(yōu)化UV映射質(zhì)量,最終實(shí)現(xiàn)80%的文件大小壓縮。對(duì)于在線部署場景,系統(tǒng)采用Draco壓縮技術(shù),能夠?qū)崿F(xiàn)90%的壓縮率,同時(shí)保持視覺質(zhì)量,并且原生支持WebAssembly,確保在網(wǎng)頁瀏覽器中的兼容性。
在推理加速方面,系統(tǒng)采用了基于TensorRT的綜合優(yōu)化框架。通過將擴(kuò)散變換器模型轉(zhuǎn)換為優(yōu)化的TensorRT引擎,系統(tǒng)支持緩存和非緩存兩種推理模式,通過共享內(nèi)存分配最小化GPU開銷。系統(tǒng)還實(shí)現(xiàn)了選擇性緩存策略,對(duì)非關(guān)鍵的去噪步驟使用緩存推理,而對(duì)影響生成質(zhì)量的關(guān)鍵步驟使用完整計(jì)算。對(duì)于分類器無關(guān)引導(dǎo)場景,系統(tǒng)通過多GPU并行處理同時(shí)計(jì)算正面和負(fù)面提示條件,然后同步聚合結(jié)果。
**六、廣泛應(yīng)用場景展示**
HunyuanWorld 1.0的三大核心優(yōu)勢使其能夠適用于多個(gè)重要領(lǐng)域。
在虛擬現(xiàn)實(shí)應(yīng)用中,系統(tǒng)生成的全景世界代理能夠提供完整的360度環(huán)境覆蓋,為Apple Vision Pro和Meta Quest等現(xiàn)代VR平臺(tái)提供無縫的全方位瀏覽體驗(yàn)。這種全面的空間覆蓋消除了視覺偽影和邊界不連續(xù)性,用戶可以自由轉(zhuǎn)動(dòng)頭部觀察任何方向,都能看到連貫一致的場景內(nèi)容。
在物理仿真領(lǐng)域,系統(tǒng)生成的3D世界和獨(dú)立的3D物體表示支持直接的網(wǎng)格導(dǎo)出,確保與現(xiàn)有計(jì)算機(jī)圖形管線的完全兼容。這使得生成的內(nèi)容能夠無縫集成到物理引擎中,支持碰撞檢測、剛體動(dòng)力學(xué)和流體仿真等復(fù)雜的物理交互。
在游戲開發(fā)方面,系統(tǒng)能夠生成涵蓋外星景觀、中世紀(jì)建筑遺跡、歷史紀(jì)念碑和未來城市環(huán)境等多樣化場景。這些世界以標(biāo)準(zhǔn)3D網(wǎng)格格式導(dǎo)出,能夠無縫集成到Unity和Unreal Engine等行業(yè)標(biāo)準(zhǔn)游戲引擎中,大大縮短了游戲場景制作的時(shí)間周期。
在交互操作方面,系統(tǒng)的分離式物體表示使用戶能夠?qū)ι傻?D世界中的單個(gè)場景組件進(jìn)行精確的物體級(jí)操作。用戶可以對(duì)個(gè)別物體執(zhí)行平移、旋轉(zhuǎn)和縮放等精確的3D變換,同時(shí)保持周圍環(huán)境元素的完整性,實(shí)現(xiàn)真正的交互式場景編輯。
**七、技術(shù)效果驗(yàn)證與對(duì)比分析**
為了驗(yàn)證HunyuanWorld 1.0的技術(shù)效果,研究團(tuán)隊(duì)進(jìn)行了全面的實(shí)驗(yàn)評(píng)估。在全景圖像生成方面,系統(tǒng)與現(xiàn)有的最佳方法進(jìn)行了對(duì)比。對(duì)于圖像到全景圖像的生成任務(wù),HunyuanWorld 1.0在所有評(píng)估指標(biāo)上都超越了Diffusion360和MVDiffusion等基準(zhǔn)方法。具體來說,在BRISQUE指標(biāo)上達(dá)到45.2分(越低越好),在NIQE指標(biāo)上達(dá)到5.8分,在Q-Align指標(biāo)上達(dá)到4.3分(越高越好),在CLIP-I相似度上達(dá)到85.1分,顯著優(yōu)于競爭方法。
在文本到全景圖像生成任務(wù)中,系統(tǒng)同樣表現(xiàn)出色。與Diffusion360、MVDiffusion、PanFusion和LayerPano3D等方法相比,HunyuanWorld 1.0在BRISQUE指標(biāo)上達(dá)到40.8分,NIQE指標(biāo)達(dá)到5.8分,Q-Align指標(biāo)達(dá)到4.4分,CLIP-T相似度達(dá)到24.3分,在所有評(píng)估維度上都實(shí)現(xiàn)了最佳性能。
在3D世界生成方面,研究團(tuán)隊(duì)將系統(tǒng)與現(xiàn)有的先進(jìn)方法進(jìn)行了比較。對(duì)于圖像到3D世界生成,HunyuanWorld 1.0與WonderJourney和DimensionX進(jìn)行對(duì)比,在視覺質(zhì)量和語義對(duì)齊方面都取得了更好的結(jié)果。對(duì)于文本到3D世界生成,系統(tǒng)與LayerPano3D和Director3D進(jìn)行比較,同樣在所有評(píng)估指標(biāo)上實(shí)現(xiàn)了領(lǐng)先性能。
這些實(shí)驗(yàn)結(jié)果表明,HunyuanWorld 1.0不僅在單個(gè)組件上表現(xiàn)出色,而且作為完整系統(tǒng)在端到端的世界生成任務(wù)中也展現(xiàn)出了顯著優(yōu)勢。系統(tǒng)生成的內(nèi)容在視覺保真度、幾何一致性和語義對(duì)齊方面都達(dá)到了行業(yè)領(lǐng)先水平。
**八、技術(shù)創(chuàng)新的深層價(jià)值**
HunyuanWorld 1.0的技術(shù)創(chuàng)新不僅體現(xiàn)在算法層面,更重要的是它重新定義了3D內(nèi)容創(chuàng)作的范式。傳統(tǒng)的3D場景制作需要專業(yè)的建模師花費(fèi)大量時(shí)間使用復(fù)雜的軟件工具,而這個(gè)系統(tǒng)讓普通用戶能夠通過簡單的文字描述或圖片就創(chuàng)造出專業(yè)級(jí)的3D世界。
系統(tǒng)的語義分層設(shè)計(jì)特別值得關(guān)注。傳統(tǒng)的3D生成方法通常將場景作為一個(gè)整體處理,生成的內(nèi)容雖然在視覺上可能很吸引人,但缺乏內(nèi)在的結(jié)構(gòu)化表示。HunyuanWorld 1.0通過智能分層,不僅提高了生成質(zhì)量,還為后續(xù)的編輯和交互操作奠定了基礎(chǔ)。這種設(shè)計(jì)理念可能會(huì)影響未來3D內(nèi)容生成領(lǐng)域的發(fā)展方向。
全景代理的使用也是一個(gè)巧妙的設(shè)計(jì)選擇。相比直接生成3D場景,先生成全景圖像再進(jìn)行3D重建的路徑充分利用了2D生成模型的優(yōu)勢,同時(shí)避開了3D訓(xùn)練數(shù)據(jù)稀缺的問題。這種"迂回"策略實(shí)際上是一種更有效的解決方案。
系統(tǒng)的擴(kuò)展性設(shè)計(jì)也考慮到了實(shí)際應(yīng)用的需求。通過Voyager組件支持長距離世界探索,通過多種壓縮和優(yōu)化技術(shù)支持不同的部署場景,這些設(shè)計(jì)細(xì)節(jié)體現(xiàn)了研究團(tuán)隊(duì)對(duì)于實(shí)際應(yīng)用場景的深度思考。
說到底,HunyuanWorld 1.0的出現(xiàn)標(biāo)志著3D內(nèi)容創(chuàng)作正在從專業(yè)工具向普及化應(yīng)用轉(zhuǎn)變。就像智能手機(jī)讓攝影從專業(yè)技能變成了日常活動(dòng)一樣,這類技術(shù)的發(fā)展可能會(huì)讓3D內(nèi)容創(chuàng)作變得觸手可及。當(dāng)然,技術(shù)的成熟和普及還需要時(shí)間,但這個(gè)方向的探索無疑具有重要意義。
從技術(shù)發(fā)展的角度來看,HunyuanWorld 1.0展示了多模態(tài)AI技術(shù)融合的巨大潛力。系統(tǒng)巧妙地結(jié)合了文本理解、圖像生成、3D重建、視頻擴(kuò)展等多種技術(shù),形成了一個(gè)完整的解決方案。這種系統(tǒng)性的技術(shù)整合可能代表了未來AI應(yīng)用的發(fā)展趨勢。
對(duì)于普通用戶而言,這項(xiàng)技術(shù)最直接的價(jià)值在于降低了創(chuàng)意表達(dá)的門檻。無論是想要為游戲設(shè)計(jì)場景、為VR應(yīng)用創(chuàng)建環(huán)境,還是僅僅想要將想象中的世界具象化,用戶都可以通過簡單的操作實(shí)現(xiàn)自己的創(chuàng)意。這種技術(shù)民主化的趨勢,可能會(huì)激發(fā)更多人的創(chuàng)造潛能。
有興趣了解更多技術(shù)細(xì)節(jié)的讀者,可以訪問騰訊混元團(tuán)隊(duì)提供的在線演示平臺(tái)https://3d.hunyuan.tencent.com/sceneTo3D,親自體驗(yàn)這個(gè)系統(tǒng)的強(qiáng)大功能。同時(shí),完整的技術(shù)實(shí)現(xiàn)代碼也已經(jīng)在GitHub上開源,地址為https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0,為研究人員和開發(fā)者提供了寶貴的學(xué)習(xí)和改進(jìn)機(jī)會(huì)。
Q&A
Q1:HunyuanWorld 1.0是什么?它能做什么? A:HunyuanWorld 1.0是騰訊混元團(tuán)隊(duì)開發(fā)的3D世界生成系統(tǒng),能夠根據(jù)文字描述或輸入圖片自動(dòng)創(chuàng)建可探索、可交互的3D場景。用戶只需輸入"海邊小鎮(zhèn)"這樣的描述,系統(tǒng)就能生成完整的360度3D世界,支持VR體驗(yàn)、游戲開發(fā)和物理仿真等應(yīng)用。
Q2:這個(gè)系統(tǒng)會(huì)不會(huì)取代傳統(tǒng)的3D建模工作? A:目前不會(huì)完全取代,但會(huì)大大改變3D內(nèi)容創(chuàng)作方式。傳統(tǒng)3D建模在精細(xì)度和專業(yè)定制方面仍有優(yōu)勢,但HunyuanWorld 1.0極大降低了創(chuàng)作門檻,讓普通用戶也能快速創(chuàng)建專業(yè)級(jí)3D場景,更像是為3D創(chuàng)作提供了一個(gè)強(qiáng)大的起點(diǎn)和工具。
Q3:普通用戶如何使用這個(gè)技術(shù)?有什么要求? A:用戶可以通過騰訊混元提供的在線平臺(tái)https://3d.hunyuan.tencent.com/sceneTo3D體驗(yàn)這項(xiàng)技術(shù)。只需輸入文字描述或上傳圖片,系統(tǒng)就會(huì)自動(dòng)生成3D世界。生成的場景可以直接在瀏覽器中預(yù)覽,也可以導(dǎo)出到VR設(shè)備或游戲引擎中使用,對(duì)用戶的技術(shù)背景沒有特殊要求。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。