av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 當(dāng)你不在時(shí),動(dòng)物們是如何跳舞的?——華盛頓大學(xué)與加州大學(xué)伯克利的奇妙動(dòng)物舞蹈研究

當(dāng)你不在時(shí),動(dòng)物們是如何跳舞的?——華盛頓大學(xué)與加州大學(xué)伯克利的奇妙動(dòng)物舞蹈研究

2025-06-04 10:13
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-04 10:13 ? 科技行者

近日,一篇來自華盛頓大學(xué)和加州大學(xué)伯克利的有趣研究《當(dāng)你不在時(shí),動(dòng)物們是如何跳舞的》(How Animals Dance (When You're Not Looking))在arXiv(arXiv:2505.23738v1)上發(fā)表。這項(xiàng)研究由華盛頓大學(xué)的Xiaojuan Wang、Steven M. Seitz、Brian Curless、Ira Kemelmacher-Shlizerman以及加州大學(xué)伯克利的Aleksander Holynski共同完成。研究團(tuán)隊(duì)開發(fā)了一種全新的框架,用于生成與音樂同步、遵循特定編舞模式的動(dòng)物舞蹈視頻。有興趣深入了解的讀者可訪問項(xiàng)目主頁:how-animals-dance.github.io。

一、動(dòng)物也會(huì)跳舞?研究背景與靈感

"宇宙中的一切都有節(jié)奏;一切都在跳舞。"——瑪雅·安杰洛(Maya Angelou)的這句名言,成為了研究團(tuán)隊(duì)的靈感來源。

想象一下,在生日派對上看到一個(gè)蹣跚學(xué)步的孩子隨著音樂歡快地跳躍。人類天生就會(huì)隨著音樂自發(fā)地跳舞,而動(dòng)物也不例外!研究者提到了一只名叫"雪球"的葵花鳳頭鸚鵡,它能夠根據(jù)不同的音樂提示表演多達(dá)14種不同的舞蹈動(dòng)作。研究團(tuán)隊(duì)幽默地假設(shè),當(dāng)我們不在場時(shí),我們的動(dòng)物朋友可能一直都在跳舞。

現(xiàn)有的生成式模型在創(chuàng)建舞蹈視頻方面面臨幾個(gè)主要挑戰(zhàn):大多數(shù)模型只能生成幾秒鐘的短片,不能生成音頻與視頻同步的內(nèi)容,且缺乏對長時(shí)間動(dòng)作的直觀控制。目前大多數(shù)視頻生成控制方法都是細(xì)粒度的,只能一次操作一幀,比如身體姿勢、相機(jī)位置或動(dòng)作筆刷等。

而本研究團(tuán)隊(duì)提出了一種全新的視頻生成控制方式——"編舞模式"(choreography patterns)。用戶可以指定一個(gè)結(jié)構(gòu)化的舞蹈動(dòng)作序列或"節(jié)拍",例如A-B-A-B-C-D-A,其中每個(gè)字母對應(yīng)一個(gè)特定的動(dòng)作,并約束視頻中的動(dòng)作遵循該編舞模式。更棒的是,研究團(tuán)隊(duì)展示了如何從現(xiàn)有的(人類)舞蹈視頻中自動(dòng)提取這些編舞模式。

二、如何讓動(dòng)物翩翩起舞?研究方法與技術(shù)創(chuàng)新

一支優(yōu)秀的舞蹈遵循基本的編舞規(guī)則,這些規(guī)則使動(dòng)作與伴奏音樂的節(jié)奏流動(dòng)相協(xié)調(diào),并且通常涉及鏡像和重復(fù)等重復(fù)模式,以幫助強(qiáng)化音樂結(jié)構(gòu)。研究團(tuán)隊(duì)利用舞蹈的這種內(nèi)在結(jié)構(gòu)使生成任務(wù)更加可行。

想象一下拼圖游戲。研究團(tuán)隊(duì)首先生成幾張關(guān)鍵幀圖像(就像拼圖的主要塊),每個(gè)關(guān)鍵幀代表一個(gè)獨(dú)特的姿勢。然后,他們將舞蹈合成表述為一個(gè)圖優(yōu)化問題:找到通過這些關(guān)鍵幀的最佳路徑,以滿足指定的編舞模式。每個(gè)在路徑中選擇的關(guān)鍵幀都與音樂節(jié)拍對齊。最終,通過使用生成式視頻模型合成關(guān)鍵幀之間的中間幀,產(chǎn)生完整的舞蹈視頻。

這項(xiàng)研究做出了幾個(gè)關(guān)鍵技術(shù)貢獻(xiàn):首先,他們引入了從人類舞蹈視頻(如YouTube和TikTok上的視頻)中推斷編舞模式的技術(shù);其次,他們將滿足這些約束條件表述為圖優(yōu)化問題并解決它;最后,他們展示了一種在圖像領(lǐng)域進(jìn)行姿勢鏡像的方法,同時(shí)保留前景和背景特征中的不對稱性。

### 關(guān)鍵幀生成與鏡像姿勢創(chuàng)建

研究開始于生成一小組關(guān)鍵幀。研究人員使用文本到圖像提示或GPT-4o生成這些關(guān)鍵幀,每個(gè)關(guān)鍵幀展示動(dòng)物的不同姿勢,同時(shí)保持一致的背景和靜態(tài)相機(jī)視角。

舞蹈中的鏡像動(dòng)作是一個(gè)重要組成部分。想象一下,當(dāng)舞者向左邁步,然后對稱地向右邁步。為了捕捉這種對稱性,研究團(tuán)隊(duì)開發(fā)了一種生成鏡像姿勢圖像的方法。他們首先在輸入關(guān)鍵幀集上微調(diào)預(yù)訓(xùn)練的文本到圖像模型,使其捕捉特定主體實(shí)例和背景的外觀。為了提供結(jié)構(gòu)指導(dǎo),他們使用ControlNet,以從輸入圖像中提取的canny邊緣圖作為條件輸入。

對于每個(gè)關(guān)鍵幀,他們提取主體的邊緣圖并水平翻轉(zhuǎn)它,創(chuàng)建一個(gè)鏡像主體邊緣圖。這個(gè)翻轉(zhuǎn)的邊緣圖與共享的背景邊緣圖合成,生成完整的鏡像邊緣圖,然后用作微調(diào)模型的輸入,生成相應(yīng)的鏡像圖像。為確保視覺一致性,他們還使用相同的模型和共享背景邊緣圖重新生成原始關(guān)鍵幀。

### 編舞模式提取與圖優(yōu)化

編舞與音樂的節(jié)奏結(jié)構(gòu)密切相關(guān)。在音樂理論中,一個(gè)拍子是基本的時(shí)間單位,而一個(gè)小節(jié)(或小節(jié))將固定數(shù)量的拍子分組。在這項(xiàng)研究中,團(tuán)隊(duì)專注于4/4拍音樂——每個(gè)小節(jié)包含四個(gè)四分音符拍——這是流行音樂中最常見的結(jié)構(gòu)。

給定一個(gè)4/4拍的音樂曲目和同步的舞蹈視頻,研究團(tuán)隊(duì)首先檢測拍子時(shí)間,然后構(gòu)建一系列動(dòng)作片段,每個(gè)片段從一個(gè)拍子跨越到下一個(gè)拍子。"編舞模式"標(biāo)記任務(wù)輸出一個(gè)標(biāo)簽序列,例如A-A'-B-C-D-D,其中每個(gè)標(biāo)簽對應(yīng)一個(gè)動(dòng)作片段。不同的動(dòng)作接收不同的標(biāo)簽,相同的動(dòng)作共享相同的標(biāo)簽,而鏡像動(dòng)作則用帶有撇號的對應(yīng)標(biāo)簽表示(例如,A和A')。

為了對動(dòng)作片段進(jìn)行分類,研究人員將其表述為一個(gè)量化問題:聚類相似的動(dòng)作片段并將每個(gè)群集ID作為其標(biāo)簽分配。他們使用從視頻中恢復(fù)的SMPL-X姿勢序列表示每個(gè)片段,并利用動(dòng)態(tài)時(shí)間規(guī)整(DTW)來計(jì)算片段之間的距離,考慮到拍子之間可能存在的輕微時(shí)間偏移。

在量化階段之后,他們通過兩個(gè)步驟識別鏡像動(dòng)作片段:首先,他們尋找鏡像姿勢聚類,通過反射關(guān)節(jié)旋轉(zhuǎn)并進(jìn)行左右關(guān)節(jié)交換;其次,對于沒有鏡像對應(yīng)項(xiàng)的聚類,他們檢查它們是否可以在內(nèi)部劃分為兩個(gè)方向上鏡像的組,提取每個(gè)動(dòng)作片段的整體運(yùn)動(dòng)方向,并利用二分匹配尋找鏡像對。

### 基于編舞模式的舞蹈合成

有了增強(qiáng)的關(guān)鍵幀集和編舞模式標(biāo)簽序列,目標(biāo)是找到通過關(guān)鍵幀集的最佳路徑,使每個(gè)關(guān)鍵幀與對應(yīng)的拍子對齊。由于每個(gè)標(biāo)簽對應(yīng)兩個(gè)關(guān)鍵幀之間的動(dòng)作片段,研究團(tuán)隊(duì)將路徑規(guī)劃表述為圖優(yōu)化,其中每個(gè)節(jié)點(diǎn)代表一個(gè)候選關(guān)鍵幀對。編舞標(biāo)簽序列指定了分配約束:相同標(biāo)簽映射到相同的對,不同標(biāo)簽映射到不同的對,鏡像標(biāo)簽映射到鏡像對。

研究團(tuán)隊(duì)構(gòu)建了一個(gè)有向圖,其中每個(gè)節(jié)點(diǎn)代表從增強(qiáng)關(guān)鍵幀集中選擇的一個(gè)有序關(guān)鍵幀對。為確保表達(dá)性動(dòng)作和合成可行性,他們基于兩個(gè)關(guān)鍵幀之間的平均每像素流量大小過濾節(jié)點(diǎn)。流動(dòng)太?。▌?dòng)作不足)或太大(合成挑戰(zhàn))的節(jié)點(diǎn)被丟棄。他們將兩個(gè)節(jié)點(diǎn)之間的邊緣成本定義為第一個(gè)節(jié)點(diǎn)的結(jié)束關(guān)鍵幀與下一個(gè)節(jié)點(diǎn)的開始關(guān)鍵幀之間的流量大小,并剪枝高成本的轉(zhuǎn)換。

最終,研究團(tuán)隊(duì)通過應(yīng)用視頻擴(kuò)散模型來合成沿著優(yōu)化關(guān)鍵幀路徑的中間幀,生成最終的舞蹈視頻。為了與音樂同步,他們扭曲視頻時(shí)間線,使路徑中每個(gè)關(guān)鍵幀的時(shí)機(jī)與音頻中相應(yīng)的拍子時(shí)間對齊。遵循"視覺節(jié)奏"策略,他們加速拍點(diǎn)的扭曲率,并在拍點(diǎn)前后減速,以保持拍子顯著性,同時(shí)確保時(shí)間平滑性。

三、動(dòng)物們跳舞啦!實(shí)驗(yàn)結(jié)果與應(yīng)用

研究團(tuán)隊(duì)展示了他們方法的有效性,生成了長達(dá)30秒的舞蹈視頻,涵蓋約25個(gè)動(dòng)物實(shí)例和10個(gè)物種——包括土撥鼠、海獺、刺猬和貓——搭配各種歌曲。這些視頻代表了這些動(dòng)物表演如此復(fù)雜的音樂舞蹈例程的首次記錄,無疑會(huì)被幾代動(dòng)物學(xué)家研究(當(dāng)然,這是研究團(tuán)隊(duì)的幽默說法)。

由于沒有真實(shí)的動(dòng)物舞蹈視頻或現(xiàn)有方法可以直接比較,研究團(tuán)隊(duì)進(jìn)行了用戶研究來評估他們的方法。他們使用6種不同歌曲的40個(gè)生成舞蹈視頻,邀請31名參與者參加。每位參與者被隨機(jī)展示8個(gè)舞蹈視頻,并被要求在0到5的尺度上評價(jià)以下方面:

1. 拍子準(zhǔn)確性——動(dòng)物的動(dòng)作是否看起來與音樂拍子同步? 2. 舞蹈感知——你有多確信這是一支舞蹈而不是隨機(jī)動(dòng)作? 3. 解剖學(xué)合理性——動(dòng)物的外觀是否符合其解剖結(jié)構(gòu)? 4. 視覺連貫性——視頻在視覺上是否連貫?

生成的舞蹈視頻在這些因素上獲得了令人印象深刻的平均分?jǐn)?shù):拍子準(zhǔn)確性4.37,舞蹈感知4.35,解剖學(xué)合理性4.11,視覺連貫性3.70。

研究團(tuán)隊(duì)還展示了他們方法的多樣控制能力。用戶可以使用姿勢網(wǎng)格模板來指導(dǎo)輸入關(guān)鍵幀姿勢,控制圖中允許的動(dòng)作范圍,并在圖優(yōu)化過程中定義自定義約束。例如,給定關(guān)鍵幀姿勢網(wǎng)格作為模板,他們提示GPT-4o生成一個(gè)新網(wǎng)格,其中另一種動(dòng)物"模仿"原始網(wǎng)格中的每個(gè)姿勢,盡管姿勢不必完全相同,因?yàn)椴煌瑒?dòng)物有不同的解剖結(jié)構(gòu)。這提供了一種指導(dǎo)或定制輸入姿勢的方式,允許生成不同動(dòng)物以相似方式跳舞的視頻。

四、局限性與未來展望

研究團(tuán)隊(duì)也坦率地指出了當(dāng)前方法的局限性。在關(guān)鍵幀圖中,他們使用兩個(gè)關(guān)鍵幀之間的平均每像素流量大小作為動(dòng)作強(qiáng)度的代理。然而,在某些情況下,這個(gè)度量變得不可靠,特別是當(dāng)兩個(gè)關(guān)鍵幀代表鏡像側(cè)視圖時(shí),流量大小無法反映姿勢之間的真實(shí)動(dòng)作復(fù)雜性。

他們還使用離線視頻擴(kuò)散模型生成關(guān)鍵幀之間的短動(dòng)作片段,例如120 BPM歌曲的0.5秒。雖然結(jié)果通常在視覺上連貫,但動(dòng)作有時(shí)可能看起來不真實(shí);動(dòng)物可能看起來在姿勢之間滑動(dòng)或變形,而不是以物理上合理的方式移動(dòng)。這反映了視頻擴(kuò)散模型在為鉸接主體生成自然動(dòng)作方面的當(dāng)前局限性。

展望未來,研究團(tuán)隊(duì)提出了兩個(gè)方向可以探索生成更高級和音樂對齊的舞蹈:首先是舞蹈動(dòng)作真實(shí)性,視頻擴(kuò)散模型生成的動(dòng)作可能并不總是反映合理或富有表現(xiàn)力的舞蹈動(dòng)作,因此可以考慮加入能優(yōu)先考慮自然、舞蹈般動(dòng)作的先驗(yàn)知識。其次是風(fēng)格兼容性,盡管他們的方法遵循編舞模式,但它沒有考慮音樂風(fēng)格,建模特定流派的動(dòng)作特征可以增強(qiáng)生成舞蹈的風(fēng)格連貫性。

五、結(jié)語:當(dāng)動(dòng)物翩翩起舞

這項(xiàng)研究開創(chuàng)了一種新穎的基于關(guān)鍵幀的范式,用于生成與音樂同步、具有編舞意識的動(dòng)物舞蹈視頻。它不僅為娛樂和社交媒體中的跳舞動(dòng)物應(yīng)用開辟了令人興奮的機(jī)會(huì),也展示了如何以一種創(chuàng)新的方式控制視頻生成。

想象一下,當(dāng)你下次看到一只土撥鼠在野外,或者一只企鵝在南極冰面上,或者你家的貓咪獨(dú)自在家時(shí),它們可能正在跳一支你從未見過的舞蹈。正如研究團(tuán)隊(duì)幽默地指出的,這些視頻代表了這些動(dòng)物表演如此復(fù)雜的音樂舞蹈例程的首次記錄,開啟了一個(gè)全新的研究領(lǐng)域。

雖然這項(xiàng)研究帶有明顯的幽默和創(chuàng)意色彩,但它也展示了視頻生成技術(shù)的進(jìn)步,特別是在長時(shí)間、結(jié)構(gòu)化內(nèi)容生成方面。隨著大規(guī)模視頻擴(kuò)散模型的持續(xù)進(jìn)步,我們可以期待在未來看到更加自然、富有表現(xiàn)力的動(dòng)物舞蹈視頻。

如果你對跳舞的動(dòng)物感興趣,或者想要了解更多關(guān)于這項(xiàng)研究的信息,可以訪問研究團(tuán)隊(duì)的項(xiàng)目主頁:how-animals-dance.github.io,查看更多精彩的動(dòng)物舞蹈視頻。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-