av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<ruby id="ozzl4"></ruby>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計(jì)算的「力量」

RoboMaster：協(xié)作式軌跡控制讓機(jī)器人抓取物體變得更加真實(shí)自然

機(jī)器人學(xué)習(xí)視頻生成軌跡控制

RoboMaster：協(xié)作式軌跡控制讓機(jī)器人抓取物體變得更加真實(shí)自然

作者：科技行者

2025-06-05 15:19

分享至：

RoboMaster是一項(xiàng)由中國香港中文大學(xué)和快手科技聯(lián)合開發(fā)的創(chuàng)新研究，它通過"協(xié)作式軌跡控制"解決了機(jī)器人操作視頻生成中的關(guān)鍵挑戰(zhàn)。與傳統(tǒng)方法不同，該系統(tǒng)將交互過程分解為前、中、后三個階段，并在每個階段明確主導(dǎo)對象，有效避免了特征糾纏問題。結(jié)合掩碼基礎(chǔ)的對象表示，RoboMaster不僅提高了視頻真實(shí)度和軌跡準(zhǔn)確性，還大大簡化了用戶交互體驗(yàn)。實(shí)驗(yàn)證明，該方法在Bridge V2數(shù)據(jù)集和野外場景中均優(yōu)于現(xiàn)有技術(shù)，為機(jī)器人操作視頻生成樹立了新標(biāo)準(zhǔn)。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-05 15:19 ? 科技行者

本篇研究來自中國香港中文大學(xué)、快手科技和浙江大學(xué)的聯(lián)合團(tuán)隊(duì)，由Xiao Fu、Xintao Wang、Xian Liu、Jianhong Bai、Runsen Xu、Pengfei Wan、Di Zhang和Dahua Lin共同完成，發(fā)表于2025年6月的arXiv預(yù)印本平臺（arXiv:2506.01943v1）。

一、讓機(jī)器人在視頻中表現(xiàn)得更加自然：RoboMaster的誕生背景

想象一下，你正在教一個機(jī)器人如何拿起桌子上的勺子并把它放在平底鍋的左邊。你希望機(jī)器人的動作看起來自然流暢，就像人類一樣，而不是僵硬機(jī)械的。這正是本研究要解決的核心問題。

近年來，基于視頻生成的技術(shù)取得了顯著進(jìn)步，這些技術(shù)能夠模擬逼真的環(huán)境，為機(jī)器人學(xué)習(xí)提供豐富的訓(xùn)練數(shù)據(jù)。尤其是軌跡控制型的視頻生成方法，更是為精細(xì)控制機(jī)器人規(guī)劃提供了可能。但現(xiàn)有的方法主要關(guān)注單個物體的運(yùn)動，難以捕捉機(jī)器人與物體之間的復(fù)雜交互過程，尤其是在抓取和操作物體時，視覺效果往往會變得不自然。

為什么會出現(xiàn)這個問題呢？就像兩個舞者同時在同一個舞臺上表演不同的舞蹈會相互干擾一樣，現(xiàn)有方法在處理機(jī)器人手臂與物體重疊區(qū)域時，會出現(xiàn)特征糾纏的問題，導(dǎo)致生成質(zhì)量下降。研究團(tuán)隊(duì)形象地將這種現(xiàn)象描述為"重疊區(qū)域的特征混淆"，就像兩種顏色的顏料混在一起，難以保持各自的特性。

為了解決這個問題，來自中國香港中文大學(xué)和快手科技的研究團(tuán)隊(duì)提出了一個名為"RoboMaster"的創(chuàng)新框架。與以往將物體分解的方法不同，RoboMaster采用了一種全新的思路：將交互過程分解為三個階段，并通過"協(xié)作式軌跡"來建模整個交互動態(tài)。

二、協(xié)作式軌跡：RoboMaster的核心創(chuàng)新

傳統(tǒng)方法像是在指揮兩個獨(dú)立的演員，一個是機(jī)器人手臂，一個是被操作的物體，各自按照自己的劇本（軌跡）演出。這在交互區(qū)域會造成"表演沖突"——視覺質(zhì)量下降、物體變形甚至消失。而RoboMaster則像一位優(yōu)秀的導(dǎo)演，將整個表演分為三幕：前奏（交互前）、高潮（交互中）和尾聲（交互后），在每一幕中都明確誰是主角，誰是配角。

具體來說，RoboMaster將機(jī)器人操作任務(wù)分解為三個階段： 1. 交互前階段：機(jī)器人手臂作為主導(dǎo)者向目標(biāo)物體移動 2. 交互階段：物體作為主導(dǎo)者被機(jī)器人手臂操作 3. 交互后階段：機(jī)器人手臂再次成為主導(dǎo)者，完成任務(wù)

這種分解方式的靈感來自于一個簡單的觀察：在真實(shí)的抓取過程中，機(jī)器人手臂先主動接近物體；當(dāng)接觸發(fā)生時，物體的運(yùn)動實(shí)際上反映了對機(jī)器人手臂操作的物理響應(yīng)；最后，手臂完成任務(wù)并可能離開。

通過這種方式，RoboMaster避免了特征糾纏問題，因?yàn)樵诿總€階段都有一個明確的"主角"。就像在電影中，導(dǎo)演會確保重要場景中主角得到適當(dāng)?shù)溺R頭關(guān)注，而其他角色則適當(dāng)?shù)觥?/p>

三、對象表示：保持物體的一致性

除了創(chuàng)新的軌跡設(shè)計(jì)，RoboMaster還解決了另一個關(guān)鍵問題：如何確保物體在整個視頻中保持一致的外觀和形狀。想象一下，如果你看到一個紅色的蘋果突然變成了綠色，或者一個方形的盒子變成了圓形，那么視頻就會顯得非常不真實(shí)。

研究團(tuán)隊(duì)采用了一種巧妙的方法來解決這個問題。他們使用了基于掩碼的表示方法，將物體的外觀（如顏色、紋理）和形狀信息編碼到一個統(tǒng)一的表示中。這就像是給每個物體創(chuàng)建了一個"身份證"，確保它在整個視頻中保持一致的身份。

具體來說，他們首先通過VAE（變分自編碼器）將輸入圖像編碼為潛在特征。然后，他們對物體掩碼進(jìn)行下采樣，使其與潛在特征的空間分辨率匹配。接著，他們使用掩碼從潛在特征中提取物體特征，并應(yīng)用池化操作生成物體的嵌入表示。最后，他們將這些特征表示為以軌跡點(diǎn)為中心的圓形體積，半徑與掩碼區(qū)域成比例。

這種方法就像是給每個物體配備了一個"身份保護(hù)罩"，即使在復(fù)雜的交互過程中，也能保持其外觀和形狀的一致性。

四、用戶友好的交互設(shè)計(jì)

RoboMaster不僅在技術(shù)上有創(chuàng)新，還特別注重用戶體驗(yàn)。想象一下，如果你要教一個朋友如何使用一個新工具，你肯定希望這個過程盡可能簡單直觀。同樣，RoboMaster的設(shè)計(jì)也考慮到了用戶的使用便捷性。

傳統(tǒng)方法通常要求用戶為機(jī)器人手臂和物體分別提供完整的軌跡，這就像要求同時指揮兩個演員的每一個動作，非常繁瑣。而RoboMaster簡化了這個過程，用戶只需要： 1. 提供一個文本提示，描述要執(zhí)行的任務(wù)（如"拿起勺子放在鍋的左邊"） 2. 使用簡單的刷子工具標(biāo)記要操作的物體 3. 指定交互的起始和結(jié)束時間點(diǎn) 4. 在一個統(tǒng)一的運(yùn)動路徑中定義分解的子軌跡

這種設(shè)計(jì)大大提高了用戶交互的靈活性和容錯性。即使用戶提供的物體掩碼不完整或粗糙，系統(tǒng)也能保持穩(wěn)健的性能。這就像是一個智能助手，即使你的指令不夠精確，它也能理解你的意圖并正確執(zhí)行。

五、實(shí)驗(yàn)結(jié)果：RoboMaster的優(yōu)越性

研究團(tuán)隊(duì)在Bridge V2數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn)，該數(shù)據(jù)集包含各種機(jī)器人操作技能，如移動、拿取、打開、關(guān)閉、豎直放置、傾倒、倒出、擦拭和折疊等。他們將RoboMaster與現(xiàn)有的軌跡控制視頻生成方法進(jìn)行了比較，包括Tora、MotionCtrl、DragAnything和IRAsim。

實(shí)驗(yàn)結(jié)果表明，RoboMaster在視覺質(zhì)量和軌跡準(zhǔn)確性方面都優(yōu)于現(xiàn)有方法。具體來說，RoboMaster的FVD（Frechet視頻距離）為147.31，而最接近的競爭對手Tora為152.28；在PSNR（峰值信噪比）方面，RoboMaster達(dá)到了21.55，而Tora為21.24。軌跡誤差方面，RoboMaster的機(jī)器人軌跡誤差為16.47，物體軌跡誤差為24.16，均低于其他方法。

這些數(shù)字可能看起來有點(diǎn)抽象，但簡單來說，就像是在比賽中，RoboMaster在所有評分項(xiàng)目上都獲得了第一名。更重要的是，在用戶研究中，47.33%的參與者更喜歡RoboMaster生成的視頻，遠(yuǎn)高于其他方法。

研究團(tuán)隊(duì)還在野外（in-the-wild）場景中測試了RoboMaster的泛化能力，結(jié)果表明它能夠處理各種不同的物體和環(huán)境，展現(xiàn)出強(qiáng)大的適應(yīng)能力。就像一個經(jīng)驗(yàn)豐富的廚師不僅能在自己熟悉的廚房工作，還能適應(yīng)各種不同的廚房環(huán)境一樣。

六、技術(shù)細(xì)節(jié)：深入了解RoboMaster的工作原理

RoboMaster基于預(yù)訓(xùn)練的CogVideoX-5B架構(gòu)實(shí)現(xiàn)，使用480×640分辨率和37幀長度進(jìn)行訓(xùn)練和推理。訓(xùn)練過程在8臺NVIDIA A800 GPU上進(jìn)行，使用AdamW優(yōu)化器，DiT塊的學(xué)習(xí)率為2×10^-5，運(yùn)動注入器的學(xué)習(xí)率為1×10^-4，總批量大小為16。訓(xùn)練進(jìn)行了30,000步。在推理時，使用50個DDIM步驟，CFG尺度設(shè)為6.0。

雖然這些技術(shù)細(xì)節(jié)聽起來可能有點(diǎn)復(fù)雜，但可以將其理解為制作一道精美菜肴的具體步驟：使用什么設(shè)備，火候調(diào)到幾度，烹飪多長時間等。這些細(xì)節(jié)確保了最終的"菜肴"——生成的視頻——具有高質(zhì)量和真實(shí)感。

模型注入器是RoboMaster的關(guān)鍵組件之一，它負(fù)責(zé)將協(xié)作軌跡潛在表示融入到基礎(chǔ)模型中。它首先將軌跡潛在表示V進(jìn)行分塊，然后通過2D空間卷積層和1D時間卷積層進(jìn)行編碼，生成緊湊的表示V。然后，它將前一個DiT塊的隱藏狀態(tài)h與軌跡潛在表示（V及其組歸一化輸出）結(jié)合，并傳遞給剩余的DiT塊。

這個過程就像是一位指揮家，將不同樂器（機(jī)器人手臂和物體）的樂譜（軌跡）融合成一個和諧的交響曲（生成的視頻）。

七、局限性與未來工作

盡管RoboMaster取得了顯著的進(jìn)步，研究團(tuán)隊(duì)也坦誠地指出了一些局限性：

首先，當(dāng)應(yīng)用于領(lǐng)域外輸入時，RoboMaster可能會產(chǎn)生不完整或變形的物體。這就像是一位廚師，雖然在烹飪意大利面方面經(jīng)驗(yàn)豐富，但在制作壽司時可能會遇到困難。解決這個問題的方法是使用更多樣化的物體類別進(jìn)行訓(xùn)練，豐富語義和幾何變化。

其次，當(dāng)前框架僅在2D像素空間中運(yùn)行，缺乏深度信息。這就像是在一個平面畫布上作畫，而不是在3D空間中雕刻。未來的工作可以考慮整合深度線索，實(shí)現(xiàn)更準(zhǔn)確的3D控制。

最后，泛化到各種機(jī)器人實(shí)體仍然是一個挑戰(zhàn)，需要擴(kuò)展訓(xùn)練數(shù)據(jù)以涵蓋更廣泛的機(jī)器人配置。這就像是讓一個演員能夠扮演各種不同的角色，需要更豐富的培訓(xùn)和經(jīng)驗(yàn)。

八、總結(jié)與展望

RoboMaster通過其創(chuàng)新的協(xié)作軌跡設(shè)計(jì)，成功解決了機(jī)器人操作視頻生成中的關(guān)鍵挑戰(zhàn)。它不僅在視覺質(zhì)量和軌跡準(zhǔn)確性方面超越了現(xiàn)有方法，還提供了更直觀的用戶交互體驗(yàn)。

這項(xiàng)研究的意義不僅限于計(jì)算機(jī)視覺或機(jī)器人學(xué)領(lǐng)域。它為創(chuàng)建更真實(shí)、更自然的機(jī)器人模擬環(huán)境鋪平了道路，這可能對機(jī)器人學(xué)習(xí)、人機(jī)交互、虛擬現(xiàn)實(shí)等多個領(lǐng)域產(chǎn)生深遠(yuǎn)影響。

就像一位優(yōu)秀的導(dǎo)演能夠指導(dǎo)演員自然流暢地表演，RoboMaster能夠生成自然、逼真的機(jī)器人操作視頻，為未來的機(jī)器人技術(shù)發(fā)展提供了有力的工具和思路。

有興趣深入了解這項(xiàng)研究的讀者可以訪問論文項(xiàng)目頁面：https://fuxiao0719.github.io/projects/robomaster/，或查閱原始論文獲取更多技術(shù)細(xì)節(jié)。

機(jī)器人學(xué)習(xí)視頻生成軌跡控制

分享至

0贊

好文章，需要你的鼓勵

推薦文章

計(jì)算機(jī)視覺
注意力機(jī)制
高效算法

2025-06-18 13:07

深度學(xué)習(xí)也能像人一樣"看重點(diǎn)"？揭秘視覺AI如何學(xué)會聰明地觀察世界

這項(xiàng)研究提出了"高效探測"方法，解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制，該方法在減少90%參數(shù)的同時實(shí)現(xiàn)10倍速度提升，在七個基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性，生成可解釋的注意力圖譜，展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼，推動技術(shù)普及應(yīng)用。
檢索增強(qiáng)生成
層次化分析
爭議分析

2025-06-18 13:07

伊利諾伊大學(xué)新突破：讓機(jī)器像法官一樣剖析復(fù)雜爭議，不再簡單判"真假"

伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng)，通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法，將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架，識別不同觀點(diǎn)及其支撐證據(jù)，為科學(xué)和政治爭議提供更全面客觀的分析，已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗(yàn)證有效性。
人工智能
情感認(rèn)知融合網(wǎng)絡(luò)
多模態(tài)情感分析

2025-06-18 13:07

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類一樣理解和表達(dá)情感的新方法

清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN)，讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu)，在情感識別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%，情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限，實(shí)現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模，為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
人工智能
多智能體強(qiáng)化學(xué)習(xí)
新型算法

2025-06-18 11:13

哈佛大學(xué)揭秘：AI如何像人類一樣通過"玩游戲"學(xué)會復(fù)雜推理

哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法，讓AI在戰(zhàn)略游戲中學(xué)會復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力，在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ)，展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。

深度學(xué)習(xí)也能像人一樣"看重點(diǎn)"？揭秘視覺AI如何學(xué)會聰明地觀察世界

深度學(xué)習(xí)也能像人一樣"看重點(diǎn)"？揭秘視覺AI如何學(xué)會聰明地觀察世界

2025-06-18 13:07

伊利諾伊大學(xué)新突破：讓機(jī)器像法官一樣剖析復(fù)雜爭議，不再簡單判"真假"

伊利諾伊大學(xué)新突破：讓機(jī)器像法官一樣剖析復(fù)雜爭議，不再簡單判"真假"

2025-06-18 13:07

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類一樣理解和表達(dá)情感的新方法

清華大學(xué)突破性發(fā)現(xiàn)：讓AI像人類一樣理解和表達(dá)情感的新方法

2025-06-18 13:07

哈佛大學(xué)揭秘：AI如何像人類一樣通過"玩游戲"學(xué)會復(fù)雜推理

哈佛大學(xué)揭秘：AI如何像人類一樣通過"玩游戲"學(xué)會復(fù)雜推理

2025-06-18 11:13

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn

<meter id="6pqcp"></meter>