av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 打破僵硬動作!南洋理工大學(xué)團隊為人類視頻補幀注入3D控制能力

打破僵硬動作!南洋理工大學(xué)團隊為人類視頻補幀注入3D控制能力

2025-06-07 09:52
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-07 09:52 ? 科技行者

在人類動作展示的視頻中,你是否曾注意到關(guān)鍵幀之間的過渡看起來不自然?南洋理工大學(xué)的研究團隊近期為解決這一問題提出了創(chuàng)新方案。這項由南洋理工大學(xué)S-Lab的Zujin Guo、Size Wu、Wei Li和Chen Change Loy,以及SenseTime Research的Zhongang Cai共同完成的研究,題為《Controllable Human-centric Keyframe Interpolation with Generative Prior》(基于生成式先驗的可控人體中心關(guān)鍵幀插值),于2025年6月發(fā)表在arXiv(arXiv:2506.03119v1)上。有興趣深入了解的讀者可通過項目網(wǎng)站https://gseancdat.github.io/projects/PoseFuse3D_KI獲取更多信息。

想象一下,你正在觀看一段跳舞或運動視頻,但只有幾個關(guān)鍵動作被拍攝下來,中間的動作過渡卻缺失了。傳統(tǒng)的視頻幀插值技術(shù)就像是在猜測這些缺失的動作,但往往因為人體動作的復(fù)雜性而"猜錯",導(dǎo)致生成的中間幀看起來扭曲或不自然。這就像是你只看到一個人起跳和落地的照片,卻看不到空中翻轉(zhuǎn)的整個過程,如果有人試圖憑空想象中間的動作,很容易出現(xiàn)不符合物理規(guī)律的怪異姿勢。

現(xiàn)有的方法大多依賴于預(yù)訓(xùn)練的視頻擴散模型來生成關(guān)鍵幀之間的中間幀,但缺乏對人體3D幾何結(jié)構(gòu)的理解,導(dǎo)致在復(fù)雜的人體動作中產(chǎn)生不合理的結(jié)果。就像一個從未學(xué)過解剖學(xué)的畫家試圖畫出人體動作,雖然整體看起來像那么回事,但細節(jié)處往往違背人體工程學(xué)原理。

為了解決這一挑戰(zhàn),研究團隊提出了PoseFuse3D Keyframe Interpolator(PoseFuse3D-KI)框架,這一框架巧妙地將3D人體模型信息融入擴散過程,為人體中心關(guān)鍵幀插值提供精準指導(dǎo)。他們的方法不僅考慮了2D的骨骼結(jié)構(gòu),還加入了3D的人體幾何形狀信息,就像是給視頻生成模型配備了一本詳細的人體解剖學(xué)教材,讓它能夠生成符合人體運動規(guī)律的自然過渡動作。

為了評估他們的方法,研究團隊構(gòu)建了一個名為CHKI-Video的新數(shù)據(jù)集,包含帶有2D姿態(tài)和3D SMPL-X參數(shù)標(biāo)注的視頻。在這個數(shù)據(jù)集上,PoseFuse3D-KI在PSNR評估指標(biāo)上比現(xiàn)有最佳方法提高了9%,在LPIPS評估指標(biāo)上減少了38%,展現(xiàn)出顯著的性能優(yōu)勢。

一、關(guān)鍵幀插值的現(xiàn)狀與挑戰(zhàn)

幀插值技術(shù)的目標(biāo)是在兩個連續(xù)的視頻幀之間生成新的幀,以提高視頻的時間平滑度。傳統(tǒng)的插值方法設(shè)計用于處理時間上相鄰的幀,假設(shè)這些幀之間的運動是簡單且微小的。就像是預(yù)測一個正在緩慢移動的小球在下一毫秒會出現(xiàn)在哪個位置——這是相對容易的。

然而,當(dāng)我們面對的是相距較遠的關(guān)鍵幀時(稱為關(guān)鍵幀插值或生成式中間幀合成),情況就變得復(fù)雜得多。這就像是預(yù)測一個雜技演員從一個高臺跳到另一個高臺的整個過程,僅基于起跳和落地的照片。這時,幀之間的運動變得復(fù)雜且充滿歧義,特別是在人體中心的視頻中,人體的關(guān)節(jié)動作涉及多種姿態(tài)和形狀變化。

現(xiàn)有的方法通常依賴于從圖像到視頻(I2V)模型的生成先驗來橋接時間間隙,但它們僅基于輸入的關(guān)鍵幀進行條件控制,沒有中間指導(dǎo)。這就像是告訴畫家"畫一個從站立到后空翻的過程",但不提供任何中間姿態(tài)的參考。因此,這些方法常常難以解決運動歧義,無法準確捕捉人體運動的復(fù)雜關(guān)節(jié)動態(tài)。例如,當(dāng)關(guān)鍵幀涉及大幅度遮擋或非剛性關(guān)節(jié)運動時,這些方法往往產(chǎn)生不合理或扭曲的插值結(jié)果。

FCVG方法嘗試使用2D骨架作為人類主體的控制信號進行關(guān)鍵幀插值。然而,2D線條無法傳達完整的身體形狀和幾何結(jié)構(gòu),導(dǎo)致生成的結(jié)果不夠真實。這就像是只給畫家提供了一個線條骨架,卻期望他能畫出有血有肉的人物。這些方法缺乏對插值過程的精細控制,限制了它們生成靈活、高保真度人體中心插值的能力。

二、PoseFuse3D-KI:融合3D人體控制的關(guān)鍵幀插值方案

研究團隊提出的解決方案是將3D人體條件整合到人體中心關(guān)鍵幀插值流程中。受到近期人體動畫領(lǐng)域進展的啟發(fā),他們提出將2D人體姿態(tài)與3D SMPL-X模型作為中間控制信號相結(jié)合。這些信號為復(fù)雜的關(guān)節(jié)運動提供精確指導(dǎo):2D姿態(tài)提供人體關(guān)節(jié)姿勢的簡潔表示,而3D模型捕捉豐富的空間幾何信息。

然而,有效處理這些控制信號面臨兩大挑戰(zhàn)。首先,常見做法是將3D人體模型渲染成2D代理(如彩色表面、法線、深度圖)再進行編碼,這導(dǎo)致遮擋區(qū)域的空間信息大量丟失。這就像是將3D雕塑拍成2D照片,背面的細節(jié)自然就丟失了。因此,研究團隊需要開發(fā)一個專用編碼器,在將3D模型轉(zhuǎn)換為控制信號時保留被遮擋的3D細節(jié)。

第二個挑戰(zhàn)是如何融合具有不同信息內(nèi)容和粒度的信號。這需要設(shè)計合適的神經(jīng)網(wǎng)絡(luò)架構(gòu),能夠準確提取3D線索并將它們與2D姿態(tài)協(xié)調(diào)成一個統(tǒng)一、信息豐富的控制輸入。這就像是將不同語言的描述融合成一個連貫的故事。

PoseFuse3D-KI框架的核心是其3D信息增強的控制模型PoseFuse3D,它由三個共同訓(xùn)練的模塊組成:

第一個模塊從可視化條件中派生控制特征,就像是從照片中提取關(guān)鍵信息。第二個模塊是一個創(chuàng)新的SMPL-X編碼器,它將3D幾何體和形狀信息轉(zhuǎn)換為2D潛在條件空間,就像是將3D模型的所有角度信息都壓縮到一個全面的平面圖上。第三個模塊是融合網(wǎng)絡(luò),它將前兩個模塊的輸出整合成一個統(tǒng)一的控制信號,指導(dǎo)插值過程。

與先前的方法不同,PoseFuse3D-KI不僅依賴于渲染可視化,還直接在3D空間中處理特征,并通過特征聚合集成投影特征。這就像是既考慮了照片,又參考了原始3D模型,獲得了更完整的信息。

三、PoseFuse3D的技術(shù)詳解:如何實現(xiàn)3D信息增強的控制

PoseFuse3D是一個3D信息增強的控制模型,為合理的人體插值提供3D人體結(jié)構(gòu)和幾何指導(dǎo)。這種3D信息增強的指導(dǎo)通過交叉歸一化注入到基礎(chǔ)擴散模型的第一個去噪塊之后。在內(nèi)部,PoseFuse3D包含三個共同訓(xùn)練的組件:視覺編碼模塊、SMPL-X編碼器和融合模塊。

視覺編碼模塊從可視化控制圖像中提取條件特征,保持與控制視頻潛變量的自然像素級對齊。為了增強控制信號,研究團隊結(jié)合了DWPose和SMPL-X的可視化。雖然SMPL-X渲染提供了豐富的人體表面細節(jié),但其關(guān)鍵點信息是間接的,與其他頂點和網(wǎng)格面混合在一起。因此,他們添加了DWPose可視化來強調(diào)骨骼關(guān)鍵點布局,以便更穩(wěn)健地理解姿態(tài)。這種組合在先前的工作中也被證明是有效的。

具體來說,視覺編碼模塊使用兩個并行的卷積編碼器來捕獲全面的姿態(tài)信息。一個編碼器處理DWPose可視化以捕獲緊湊的姿態(tài)信息,而另一個處理SMPL-X渲染,保留3D線索,如遮擋邊界和投影形狀。值得注意的是,為了豐富語義細節(jié),他們在渲染過程中使用SMPL-X彩色表面,為每個頂點分配唯一的顏色。

雖然3D模型渲染為VDM提供了對齊的圖像映射用于條件控制,但渲染操作丟棄了部分3D信息,特別是在遮擋區(qū)域。這導(dǎo)致對大幅度人體運動的關(guān)鍵幀進行插值時出現(xiàn)不合理的結(jié)果。為了增強可控性并直接獲取3D信息,研究團隊引入了SMPL-X編碼器,該編碼器在3D空間中處理SMPL-X模型,并將其轉(zhuǎn)換為圖像條件特征。

具體來說,SMPL-X模型通過姿態(tài)、形狀和表情參數(shù)進行參數(shù)化。他們通過將這些參數(shù)輸入SMPL-X模型來獲取結(jié)構(gòu)信息,生成3D空間中的頂點和關(guān)節(jié)坐標(biāo),并通過投影獲取它們對應(yīng)的2D坐標(biāo)。值得注意的是,投影步驟在3D空間和2D圖像平面之間建立了對應(yīng)關(guān)系,使得在生成圖像條件映射的同時保留3D空間結(jié)構(gòu)成為可能。

接下來,原始3D坐標(biāo)通過MLP處理,產(chǎn)生點級頂點特征和關(guān)節(jié)特征。這些關(guān)節(jié)特征通過時間殘差塊進行細化,將它們與姿態(tài)信息融合成富有表現(xiàn)力的關(guān)節(jié)級表示。為了將這些3D特征聚合到2D圖像控制映射中,他們使用了單獨的注意力機制。最終,這些輸出被連接并通過下采樣塊處理,產(chǎn)生最終的SMPL-X控制表示,作為底層3D人體結(jié)構(gòu)的信息豐富且緊湊的圖像嵌入。

條件融合模塊將來自2D和3D信號的控制特征組合成統(tǒng)一的表示,指導(dǎo)關(guān)鍵幀插值。為了獲得強大的特征表示,研究團隊引入了一種從粗到細的融合策略,逐步將3D特征中的豐富幾何信息整合到緊湊的2D姿態(tài)特征中。具體來說,他們采用兩個基于注意力的融合塊來執(zhí)行這種整合,每個塊包含三個注意力層用于漸進式細化。

第一層是自注意力模塊,通過對渲染編碼和SMPL-X特征的和進行操作來處理3D特征。第二層執(zhí)行交叉注意力,通過空間局部化的交互方案將3D特征與2D編碼對齊。值得注意的是,他們采用了移位窗口分區(qū)策略來限制注意力計算在相鄰區(qū)域,增強局部對齊。第三層應(yīng)用時間自注意力,捕獲融合表示中的時間動態(tài)相關(guān)性。研究團隊使用第二個融合塊的輸出作為最終的控制信號,將其注入基礎(chǔ)插值引擎,在合成過程中提供細粒度、結(jié)構(gòu)感知的指導(dǎo)。

四、CHKI-Video數(shù)據(jù)集:為人體中心關(guān)鍵幀插值提供全面標(biāo)注

現(xiàn)有的插值數(shù)據(jù)集如SportsSlomo針對的是小時間間隔,缺乏2D姿態(tài)或3D人體模型的標(biāo)注,并且人體中心運動多樣性有限。為了系統(tǒng)評估CHKI算法,研究團隊引入了CHKI-Video,這是一個專為可控人體中心關(guān)鍵幀插值(CHKI)設(shè)計的新數(shù)據(jù)集。

CHKI-Video包含來自SportsSlomo和Pexels網(wǎng)站的2,614個高質(zhì)量視頻片段,超過18萬幀。使用最先進的工具和手動驗證,每幀都被仔細標(biāo)注了邊界框、分割掩碼、2D人體姿態(tài)和SMPL-X參數(shù)。從這個集合中,研究團隊派生出專門用于CHKI任務(wù)的基準測試。

數(shù)據(jù)集構(gòu)建分三個階段進行。首先,他們從SportsSlomo和Pexels收集視頻片段,涵蓋從日常活動到高強度動作的關(guān)鍵詞。為了增強多樣性,他們編制了一個關(guān)鍵詞列表,包括"行走"、"踢"、"投擲"、"接球"和"攀爬"等基礎(chǔ)人體動作,確保涵蓋廣泛的人類活動。這些關(guān)鍵詞被分為三類:手臂運動、腿部運動和一般運動,確保后續(xù)訓(xùn)練-測試分割的標(biāo)簽平衡。

其次,他們進行預(yù)標(biāo)注處理,首先根據(jù)亮度變化和評估分數(shù)對低質(zhì)量視頻進行過濾。然后,使用Grounding-DINO和SAM2檢測、分割和跟蹤每個視頻中的人物實例。他們丟棄了包含超過三人或少于20個連續(xù)幀的任何視頻,以確保關(guān)鍵幀插值的足夠時間跨度。經(jīng)過自動處理后,他們手動審查和過濾復(fù)雜體育場景中的檢測結(jié)果。

最后,在第二階段獲得的準確人體檢測基礎(chǔ)上,他們對每個片段進行精確的人體中心信息標(biāo)注。首先,使用Sapiens提取2D人體關(guān)鍵點,并進行全身檢測以過濾出不完整的人物圖像。然后,應(yīng)用SMPLer-X,利用其高重投影準確性來擬合詳細的SMPL-X模型,為每一幀生成可靠的3D身體參數(shù)。

五、實驗結(jié)果:PoseFuse3D-KI的性能評估

研究團隊首先評估了PoseFuse3D中3D控制策略的有效性。他們比較了不同的3D控制策略,包括"VE"(視覺編碼)、"VE+DN"(視覺編碼加深度和法線)和"VE+SE"(視覺編碼加SMPL-X編碼)。實驗使用Wan2.1-I2V作為插值骨干網(wǎng)絡(luò),為了效率,這些策略被訓(xùn)練了40K次迭代。

為了評估3D信息的必要性,他們還與FCVG進行了比較,后者僅基于2D信號進行條件控制。為了公平比較,他們創(chuàng)建了VE的一個變體,將骨干網(wǎng)絡(luò)替換為SVD。這個變體被稱為VE-SVD,用于便于分析。

定量比較結(jié)果顯示,添加3D控制改善了插值性能。VE-SVD在所有指標(biāo)上都優(yōu)于FCVG,所有PSNR指標(biāo)都增加了超過0.50 dB,表明在整體圖像和人體中心級別都有改進。此外,研究還強調(diào)了顯式3D信息的重要性。VE+DN和VE+SE,它們分別納入了深度和法線圖或直接的SMPL-X信息,優(yōu)于更簡單的VE策略。VE+DN和VE+SE在感知質(zhì)量方面顯示出明顯的改進,這反映在LPIPS指標(biāo)上。值得注意的是,團隊的VE+SE策略,直接在3D空間中編碼信息,提供了最佳性能,實現(xiàn)了0.0653的最低LPIPSbbox和22.14 dB的最高PSNR。

定性比較進一步證實了這些發(fā)現(xiàn)。結(jié)合3D控制的方法在插值過程中更好地保留了人體形狀。例如,在網(wǎng)球案例中,使用3D控制策略的方法將球員的身體插值得接近地面實況,而FCVG則表現(xiàn)出明顯的失真。此外,團隊的VE+SE策略,直接從SMPL-X編碼3D信息,在處理遮擋的人體運動方面非常有效。在滑板和跳躍案例中,可以觀察到VE+SE策略為遮擋的手臂產(chǎn)生了合理的結(jié)果,展示了其在復(fù)雜場景中的優(yōu)勢。

接著,研究團隊將PoseFuse3D-KI與幾種先進的插值方法在CHKI-Video數(shù)據(jù)集上進行了比較。主要比較對象是FCVG,它也支持插值過程中的中間控制。為了更廣泛的覆蓋,他們還包括了關(guān)鍵幀插值方法GI和傳統(tǒng)的視頻幀插值方法GIMM-VFI。此外,他們還包括了Wan2.1-KI,這是Wan2.1為關(guān)鍵幀插值調(diào)整的版本。

在CHKI-Video基準測試上,PoseFuse3D-KI提供了最先進的性能。在整體圖像指標(biāo)上,它比最先進的方法FCVG提高了1.85 dB的PSNR,并降低了0.0796的LPIPS。關(guān)鍵的是,它在人體中心指標(biāo)上也優(yōu)于其他方法,實現(xiàn)了14.72 dB的PSNRbbox、0.045的LPIPSmask和0.9189的HA分數(shù)。這表明團隊的方法產(chǎn)生了合理的、高保真度的人體插值,緊密遵循地面實況動態(tài),證明了其方法的有效性。

在定性評估中,PoseFuse3D-KI與其他先進方法相比,提供了更準確的人體插值,忠實地遵循真實世界的運動并保留身體形狀。例如,在第二個"擊劍"案例和第四個"特技自行車"案例中,只有PoseFuse3D-KI正確地插值了腿部和手臂運動,同時保持一致的形狀。此外,該方法自然地處理了遮擋的人體運動,表現(xiàn)出對遮擋腿部和手臂的空間位置進行正確插值的能力,相比FCVG有顯著改進。此外,盡管無控制的關(guān)鍵幀插值方法GI和Wan2.1-KI偶爾產(chǎn)生未扭曲的人體,但它們經(jīng)常生成違反真實世界動態(tài)的不合理運動。

六、深入研究:模型組件的消融研究

為了驗證設(shè)計選擇的有效性,研究團隊對PoseFuse3D的視覺編碼和融合模塊進行了詳細的消融研究。他們使用SVD作為骨干網(wǎng)絡(luò),處理視頻片段為9個連續(xù)幀,分辨率為256×256。

首先,研究團隊評估了視覺編碼組件的重要性。PoseFuse3D的視覺編碼模塊包括兩個卷積編碼器,分別用于2D和3D控制圖。他們將包含整個模塊的變體稱為"Dual Conv-Enc",將僅使用2D編碼器的變體稱為"Conv-Enc (2D)"。移除3D視覺編碼導(dǎo)致PSNRbbox和PSNRmask都下降了0.26 dB,突顯了3D視覺編碼的重要性。

在PoseFuse3D中,條件特征通過精心設(shè)計的融合模塊進行融合。為了驗證其有效性,研究團隊將其替換為簡單的求和操作,在表格中標(biāo)記為"Sum"。這一變化導(dǎo)致性能顯著下降,特別是在感知質(zhì)量方面,LPIPSmask增加了0.0033。這些結(jié)果證明了融合模塊對提供高質(zhì)量插值的信息控制的貢獻。

PoseFuse3D采用帶有移位窗口分區(qū)策略的交叉注意力層來融合相鄰窗口的特征。為了驗證這一設(shè)計,他們移除了窗口分區(qū),標(biāo)記為"Non-WP"。這導(dǎo)致PSNRbbox和PSNRmask都顯著下降了0.11 dB,表明窗口分區(qū)策略增強了受控插值。

最后,為了證明融合模塊中時間自注意力(TSA)層的功效,研究團隊進行了排除TSA層的實驗(Non-TSA)。這一移除導(dǎo)致LPIPSbbox和LPIPSmask分別增加了0.0022和0.0017,證明了融合模塊中時間自注意力層的關(guān)鍵作用。

七、總結(jié)與未來展望

研究團隊提出了PoseFuse3D-KI,一個由新型3D信息增強控制模型PoseFuse3D驅(qū)動的可控人體中心關(guān)鍵幀插值框架。PoseFuse3D將豐富的空間幾何信息從3D人體信號與2D姿態(tài)融合為統(tǒng)一的控制特征,使生成的中間幀更加合理和真實。為了評估,他們構(gòu)建了帶有全面人體中心標(biāo)注的CHKI-Video數(shù)據(jù)集。在基準測試上的廣泛實驗證明,PoseFuse3D-KI優(yōu)于以往的插值方法,PSNR提高了9%,LPIPS減少了38%。

這項研究的價值不僅在于提高了關(guān)鍵幀插值的質(zhì)量,更在于為人體中心視頻處理領(lǐng)域帶來了新的思路。通過將3D幾何信息直接融入生成過程,PoseFuse3D-KI解決了以往方法在處理復(fù)雜人體動作時面臨的根本限制。這種方法也可能啟發(fā)其他涉及人體建模的計算機視覺任務(wù),如動作識別、姿態(tài)估計和人體重建等。

未來的研究方向可能包括進一步改進3D人體模型的編碼方式,探索更高效的融合策略,以及擴展到多人場景或人-物交互的復(fù)雜情境。此外,將這種方法與文本到動作模型結(jié)合,可能實現(xiàn)更靈活的人體動畫生成,為創(chuàng)意內(nèi)容制作提供更強大的工具。

總之,PoseFuse3D-KI代表了人體中心視頻處理的重要進步,通過將3D幾何理解引入生成模型,為創(chuàng)建更自然、更真實的人體動作提供了新的可能性。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-