這項(xiàng)由上海交通大學(xué)、香港大學(xué)、深圳大學(xué)等多家機(jī)構(gòu)聯(lián)合開展的研究發(fā)表于2025年8月的arXiv預(yù)印本平臺(tái),論文編號(hào)為arXiv:2508.02629v2。想要深入了解這項(xiàng)突破性成果的讀者可以通過(guò)該編號(hào)在arXiv官網(wǎng)查找完整論文。研究團(tuán)隊(duì)的主要成員包括來(lái)自上海交通大學(xué)ScaleLab實(shí)驗(yàn)室的劉藝斌、穆瑤教授,香港大學(xué)多媒體實(shí)驗(yàn)室的梁志軒,以及來(lái)自東北大學(xué)、D-Robotics公司、上海人工智能實(shí)驗(yàn)室等多個(gè)機(jī)構(gòu)的研究人員。
想象一個(gè)孩子第一次學(xué)習(xí)用筷子吃飯的場(chǎng)景。剛開始時(shí),食物總是掉到桌子上,但孩子會(huì)觀察自己哪里做錯(cuò)了,調(diào)整握筷子的方式,再次嘗試。經(jīng)過(guò)反復(fù)練習(xí)和調(diào)整,最終掌握了這項(xiàng)技能。現(xiàn)在,研究團(tuán)隊(duì)成功地讓機(jī)器人也具備了這種"從錯(cuò)誤中學(xué)習(xí)"的能力。
傳統(tǒng)的機(jī)器人就像只會(huì)按照固定食譜做菜的廚師,一旦遇到意外情況就束手無(wú)策。比如,當(dāng)機(jī)器人被指令"把杯子放到桌子上"時(shí),如果事先編寫的程序出現(xiàn)問(wèn)題,機(jī)器人就會(huì)徹底失敗,無(wú)法自我修正。這就好比一個(gè)嚴(yán)格按照食譜做菜的廚師,如果發(fā)現(xiàn)鹽放多了,卻不知道該如何補(bǔ)救,只能重新開始或者放棄。
研究團(tuán)隊(duì)開發(fā)的HyCodePolicy系統(tǒng)就像給機(jī)器人裝上了一雙"眼睛"和一個(gè)"大腦",讓它能夠觀察自己的行為,判斷哪里出了問(wèn)題,并且自動(dòng)修正錯(cuò)誤。這個(gè)系統(tǒng)的工作原理可以比作一個(gè)有經(jīng)驗(yàn)的廚師:不僅會(huì)按照食譜做菜,還會(huì)不斷品嘗、觀察、調(diào)整,直到做出滿意的菜品。
研究的核心突破在于創(chuàng)建了一個(gè)完整的"學(xué)習(xí)-執(zhí)行-反思-改進(jìn)"循環(huán)。當(dāng)機(jī)器人接到一個(gè)任務(wù)時(shí),它首先會(huì)將復(fù)雜任務(wù)分解成若干個(gè)簡(jiǎn)單步驟,就像做一道復(fù)雜菜品時(shí)會(huì)分解成備料、調(diào)味、烹飪等步驟。然后,機(jī)器人在模擬環(huán)境中執(zhí)行這些步驟,同時(shí)用"眼睛"(視覺(jué)系統(tǒng))記錄每個(gè)關(guān)鍵時(shí)刻的畫面。
最有趣的是,當(dāng)某個(gè)步驟失敗時(shí),系統(tǒng)會(huì)像一個(gè)細(xì)心的老師一樣分析問(wèn)題。它不僅會(huì)查看程序運(yùn)行時(shí)的錯(cuò)誤信息(就像檢查食譜是否有誤),還會(huì)通過(guò)分析拍攝的畫面來(lái)理解為什么會(huì)失?。ň拖裼^察菜品的顏色、形狀來(lái)判斷問(wèn)題所在)。這種結(jié)合程序日志和視覺(jué)觀察的雙重診斷方法,讓機(jī)器人能夠更準(zhǔn)確地找到問(wèn)題的根源。
為了驗(yàn)證這個(gè)系統(tǒng)的效果,研究團(tuán)隊(duì)設(shè)計(jì)了十個(gè)不同的機(jī)器人操作任務(wù),包括遞交物品、堆疊積木、放置鞋子等日常生活中常見(jiàn)的動(dòng)作。實(shí)驗(yàn)結(jié)果令人振奮:使用HyCodePolicy系統(tǒng)的機(jī)器人在任務(wù)成功率上有了顯著提升。在基礎(chǔ)平臺(tái)上,成功率從47.4%提升到了63.9%,而在改進(jìn)后的Bi2Code平臺(tái)上,成功率更是從62.1%躍升至71.3%。
這種提升就像一個(gè)學(xué)習(xí)能力很強(qiáng)的學(xué)生,通過(guò)不斷練習(xí)和反思,考試成績(jī)從不及格逐漸提升到良好水平。更重要的是,機(jī)器人現(xiàn)在需要的"練習(xí)次數(shù)"也大幅減少了,從平均2.42次嘗試減少到1.76次就能掌握一個(gè)新任務(wù),這意味著學(xué)習(xí)效率的顯著提高。
研究團(tuán)隊(duì)還開發(fā)了一個(gè)名為Bi2Code的全新機(jī)器人控制接口,就像為機(jī)器人設(shè)計(jì)了一套更加靈活的"工具箱"。這個(gè)工具箱不僅支持雙臂協(xié)作(想象一個(gè)人同時(shí)用兩只手協(xié)調(diào)工作),還具備了更加模塊化的設(shè)計(jì),讓機(jī)器人能夠處理更多類型的任務(wù)。
在具體的任務(wù)測(cè)試中,研究團(tuán)隊(duì)發(fā)現(xiàn)HyCodePolicy在需要精確空間推理和感知判斷的任務(wù)上表現(xiàn)尤其出色。比如在"堆疊三個(gè)積木"的任務(wù)中,傳統(tǒng)方法的成功率只有1%到4%,而使用新系統(tǒng)后成功率提升到了82%。這就像一個(gè)原本笨手笨腳的人,通過(guò)學(xué)習(xí)和練習(xí),最終能夠熟練地搭建復(fù)雜的積木城堡。
有趣的是,系統(tǒng)在某些任務(wù)上的表現(xiàn)差異也揭示了其工作原理。對(duì)于邏輯相對(duì)簡(jiǎn)單、步驟固定的任務(wù)(如抓取雙瓶子),各種方法的效果差異不大。但對(duì)于需要精細(xì)操作和感知判斷的復(fù)雜任務(wù),HyCodePolicy的優(yōu)勢(shì)就非常明顯了。這說(shuō)明這套系統(tǒng)特別擅長(zhǎng)處理那些需要"眼手協(xié)調(diào)"的復(fù)雜情況。
為了更全面地評(píng)估系統(tǒng)的能力,研究團(tuán)隊(duì)還在包含50個(gè)不同任務(wù)的大型測(cè)試集上進(jìn)行了驗(yàn)證。結(jié)果顯示,HyCodePolicy在各種類型的操作技能上都表現(xiàn)良好,平均成功率達(dá)到了43.34%。雖然這個(gè)數(shù)字聽(tīng)起來(lái)不算特別高,但要知道這是在沒(méi)有針對(duì)性訓(xùn)練的情況下實(shí)現(xiàn)的"零樣本"表現(xiàn),就像一個(gè)從未見(jiàn)過(guò)某道菜的廚師,僅憑經(jīng)驗(yàn)和觀察就能做出及格的菜品。
系統(tǒng)在不同技能類型上的表現(xiàn)也很有意思。在基礎(chǔ)的抓取、放置、堆疊等操作上,成功率普遍在60%以上,最高可達(dá)70%。但在一些需要特殊技巧的任務(wù)上,如傾倒、懸掛、按壓、掃描等,成功率還有待提高。這主要是因?yàn)楫?dāng)前的"工具箱"中還缺少這些特殊操作的專用工具,就像一個(gè)廚師工具齊全時(shí)能做各種菜,但缺少特殊工具時(shí)就無(wú)法完成某些特定料理。
從技術(shù)實(shí)現(xiàn)角度來(lái)看,HyCodePolicy的工作流程就像一個(gè)經(jīng)驗(yàn)豐富的工匠師傅帶徒弟的過(guò)程。首先,師傅(語(yǔ)言模型)根據(jù)任務(wù)要求制定詳細(xì)的工作計(jì)劃,并將其轉(zhuǎn)換成具體的操作代碼。然后,徒弟(機(jī)器人)在模擬車間里按照計(jì)劃進(jìn)行操作,同時(shí)師傅在關(guān)鍵節(jié)點(diǎn)進(jìn)行觀察和記錄。
當(dāng)操作出現(xiàn)問(wèn)題時(shí),師傅會(huì)從兩個(gè)角度進(jìn)行診斷:一是檢查計(jì)劃本身是否有邏輯錯(cuò)誤(通過(guò)程序日志),二是觀察實(shí)際操作過(guò)程是否有執(zhí)行偏差(通過(guò)視覺(jué)分析)。基于這種雙重診斷,師傅會(huì)對(duì)原計(jì)劃進(jìn)行針對(duì)性修改,然后讓徒弟重新嘗試。這個(gè)過(guò)程會(huì)持續(xù)進(jìn)行,直到任務(wù)成功完成或達(dá)到預(yù)設(shè)的嘗試次數(shù)上限。
這種方法的巧妙之處在于它模仿了人類學(xué)習(xí)的自然過(guò)程。我們?cè)趯W(xué)習(xí)新技能時(shí),通常會(huì)先制定計(jì)劃,然后實(shí)踐,觀察結(jié)果,分析問(wèn)題,調(diào)整方法,再次嘗試。HyCodePolicy正是將這種人類學(xué)習(xí)的智慧融入了機(jī)器人系統(tǒng)中。
在具體的觀察和診斷環(huán)節(jié),系統(tǒng)展現(xiàn)出了相當(dāng)?shù)闹悄苄?。它不?huì)對(duì)每個(gè)微小動(dòng)作都進(jìn)行記錄,而是會(huì)智能識(shí)別那些可能產(chǎn)生明顯場(chǎng)景變化的關(guān)鍵時(shí)刻。這就像一個(gè)攝影師不會(huì)拍攝每一個(gè)瞬間,而是會(huì)抓拍最重要的精彩瞬間。這種選擇性觀察不僅提高了效率,還確保了診斷的準(zhǔn)確性。
研究團(tuán)隊(duì)在論文中詳細(xì)展示了生成代碼與人類專家編寫代碼的對(duì)比。有趣的發(fā)現(xiàn)是,AI生成的代碼往往比人類編寫的更加詳細(xì)和謹(jǐn)慎。人類專家可能會(huì)省略一些看似顯而易見(jiàn)的步驟,而AI則會(huì)明確記錄每個(gè)中間狀態(tài),這反而有助于后續(xù)的錯(cuò)誤診斷和修正。這就像一個(gè)新手廚師會(huì)仔細(xì)記錄烹飪過(guò)程中的每個(gè)細(xì)節(jié),而經(jīng)驗(yàn)豐富的廚師可能會(huì)省略一些"常識(shí)性"步驟。
從實(shí)用性角度來(lái)看,這項(xiàng)研究最大的貢獻(xiàn)是證明了機(jī)器人可以具備真正的自主學(xué)習(xí)能力。以前的機(jī)器人系統(tǒng)就像是"一次性"的工具,編程完成后就固定不變。而HyCodePolicy展示了機(jī)器人系統(tǒng)可以成為"進(jìn)化型"工具,能夠在使用過(guò)程中不斷改進(jìn)和完善。
當(dāng)然,這個(gè)系統(tǒng)也有其局限性。研究團(tuán)隊(duì)坦誠(chéng)地指出,當(dāng)前版本在處理需要精細(xì)力控制的任務(wù)、涉及可變形物體的操作,以及需要復(fù)雜時(shí)序推理的任務(wù)上還有改進(jìn)空間。這就像一個(gè)剛學(xué)會(huì)基礎(chǔ)烹飪技巧的廚師,雖然能做出不錯(cuò)的家常菜,但要成為能夠駕馭所有料理類型的大廚,還需要更多的學(xué)習(xí)和練習(xí)。
研究的另一個(gè)重要貢獻(xiàn)是開發(fā)了Bi2Code這個(gè)新的機(jī)器人控制平臺(tái)。相比之前的RoboTwin 1.0平臺(tái),Bi2Code就像是從老式的手動(dòng)工具升級(jí)到了現(xiàn)代化的電動(dòng)工具套裝。它不僅支持更復(fù)雜的雙臂協(xié)作操作,還提供了更加模塊化和用戶友好的編程接口,讓研究人員能夠更容易地開發(fā)和測(cè)試新的機(jī)器人行為。
在代碼生成質(zhì)量方面,Bi2Code平臺(tái)展現(xiàn)出了顯著優(yōu)勢(shì)。生成的代碼不僅更加簡(jiǎn)潔(平均代碼長(zhǎng)度從1236.6個(gè)標(biāo)記減少到569.4個(gè)標(biāo)記),而且與人類專家編寫的代碼相似度也更高。這就像從冗長(zhǎng)復(fù)雜的古文翻譯成了簡(jiǎn)潔明了的現(xiàn)代文,既保持了原意,又大大提高了可讀性和可維護(hù)性。
值得注意的是,研究團(tuán)隊(duì)在評(píng)估系統(tǒng)性能時(shí)采用了非常嚴(yán)格的標(biāo)準(zhǔn)。每個(gè)任務(wù)都會(huì)進(jìn)行10次獨(dú)立測(cè)試,然后取平均成功率,這確保了結(jié)果的可靠性。同時(shí),他們還引入了"收斂迭代次數(shù)"這個(gè)指標(biāo),用來(lái)衡量系統(tǒng)學(xué)習(xí)新任務(wù)的效率。這種全面的評(píng)估方法就像是對(duì)一個(gè)學(xué)生進(jìn)行多科目、多次考試,以確保評(píng)估結(jié)果的客觀性和全面性。
在技術(shù)架構(gòu)設(shè)計(jì)上,HyCodePolicy采用了分層模塊化的設(shè)計(jì)理念。整個(gè)系統(tǒng)就像一個(gè)精心設(shè)計(jì)的工廠流水線,每個(gè)模塊都有明確的職責(zé)和接口,既保證了整體功能的完整性,又允許單獨(dú)優(yōu)化和升級(jí)某個(gè)模塊。這種設(shè)計(jì)哲學(xué)不僅提高了系統(tǒng)的可維護(hù)性,也為未來(lái)的功能擴(kuò)展留下了充足的空間。
從更宏觀的角度來(lái)看,這項(xiàng)研究代表了機(jī)器人技術(shù)發(fā)展的一個(gè)重要里程碑。它不僅解決了機(jī)器人操作的技術(shù)問(wèn)題,更重要的是展示了一種全新的機(jī)器人智能范式:從被動(dòng)執(zhí)行指令轉(zhuǎn)向主動(dòng)學(xué)習(xí)和適應(yīng)。這種轉(zhuǎn)變就像計(jì)算機(jī)從早期的專用計(jì)算器演進(jìn)為現(xiàn)代的通用智能設(shè)備一樣,具有深遠(yuǎn)的意義。
研究團(tuán)隊(duì)還特別關(guān)注了系統(tǒng)的泛化能力。他們發(fā)現(xiàn),在核心任務(wù)集上訓(xùn)練的系統(tǒng)能夠很好地推廣到其他相關(guān)任務(wù)上,這說(shuō)明HyCodePolicy學(xué)到的不僅是特定任務(wù)的執(zhí)行方法,更是一種通用的問(wèn)題解決策略。這就像一個(gè)學(xué)會(huì)了基礎(chǔ)數(shù)學(xué)原理的學(xué)生,不僅能解決教科書上的練習(xí)題,還能應(yīng)用這些原理解決生活中的實(shí)際問(wèn)題。
在實(shí)際應(yīng)用前景方面,這項(xiàng)技術(shù)有著廣闊的應(yīng)用空間。在制造業(yè)中,配備了HyCodePolicy的機(jī)器人可以更快地適應(yīng)新的生產(chǎn)任務(wù),減少重新編程的時(shí)間和成本。在服務(wù)機(jī)器人領(lǐng)域,這種自學(xué)習(xí)能力將使機(jī)器人能夠更好地適應(yīng)不同家庭的具體環(huán)境和需求。在醫(yī)療、教育、娛樂(lè)等領(lǐng)域,這種能夠從互動(dòng)中學(xué)習(xí)和改進(jìn)的機(jī)器人也將提供更加個(gè)性化和有效的服務(wù)。
研究還揭示了一個(gè)有趣的現(xiàn)象:不同類型的任務(wù)對(duì)這種學(xué)習(xí)方法的依賴程度不同。簡(jiǎn)單、重復(fù)性的任務(wù)可能不需要太多的自適應(yīng)學(xué)習(xí),而復(fù)雜、變化多樣的任務(wù)則能從這種學(xué)習(xí)能力中獲得巨大收益。這提醒我們,技術(shù)的應(yīng)用應(yīng)該根據(jù)具體場(chǎng)景和需求來(lái)選擇,而不是盲目追求最先進(jìn)的方法。
從科學(xué)方法論的角度來(lái)看,這項(xiàng)研究展現(xiàn)了現(xiàn)代AI研究的一個(gè)重要趨勢(shì):多模態(tài)融合和閉環(huán)學(xué)習(xí)。通過(guò)將符號(hào)推理、視覺(jué)感知、語(yǔ)言理解等多種AI能力有機(jī)結(jié)合,創(chuàng)造出了超越單一技術(shù)局限的綜合智能系統(tǒng)。這種跨學(xué)科融合的研究方法為未來(lái)AI技術(shù)的發(fā)展提供了有益的啟示。
總的來(lái)說(shuō),HyCodePolicy不僅是一個(gè)技術(shù)突破,更是對(duì)機(jī)器人智能發(fā)展方向的有益探索。它證明了機(jī)器人不僅可以執(zhí)行預(yù)定的任務(wù),還可以像人類一樣從經(jīng)驗(yàn)中學(xué)習(xí),不斷改進(jìn)自己的能力。這種"會(huì)學(xué)習(xí)的機(jī)器人"將為我們的生活和工作帶來(lái)更多的便利和可能性。
隨著這項(xiàng)技術(shù)的不斷完善和推廣,我們有理由期待在不久的將來(lái),能夠看到更多智能化、自適應(yīng)的機(jī)器人系統(tǒng)出現(xiàn)在我們的日常生活中。它們不再是冷冰冰的機(jī)器,而是能夠理解、學(xué)習(xí)、成長(zhǎng)的智能伙伴,真正實(shí)現(xiàn)人機(jī)協(xié)作的美好愿景。
Q&A
Q1:HyCodePolicy機(jī)器人系統(tǒng)是什么?它與傳統(tǒng)機(jī)器人有什么區(qū)別?
A:HyCodePolicy是由上海交通大學(xué)等機(jī)構(gòu)開發(fā)的新型機(jī)器人控制系統(tǒng),最大特點(diǎn)是讓機(jī)器人具備了"自我反思"的學(xué)習(xí)能力。傳統(tǒng)機(jī)器人就像按固定食譜做菜的廚師,一旦出錯(cuò)就束手無(wú)策。而HyCodePolicy讓機(jī)器人像有經(jīng)驗(yàn)的廚師一樣,能夠觀察自己的操作過(guò)程,分析失敗原因,自動(dòng)調(diào)整策略直到成功完成任務(wù)。
Q2:HyCodePolicy系統(tǒng)是如何讓機(jī)器人學(xué)會(huì)自我改進(jìn)的?
A:系統(tǒng)采用了"觀察-分析-改進(jìn)"的循環(huán)機(jī)制。當(dāng)機(jī)器人執(zhí)行任務(wù)時(shí),系統(tǒng)會(huì)在關(guān)鍵節(jié)點(diǎn)拍照記錄,同時(shí)監(jiān)控程序運(yùn)行狀態(tài)。一旦失敗,系統(tǒng)就像老師批改作業(yè)一樣,既檢查程序邏輯是否正確,又通過(guò)分析照片了解實(shí)際操作哪里出了問(wèn)題,然后針對(duì)性地修改代碼,讓機(jī)器人重新嘗試直到成功。
Q3:這項(xiàng)技術(shù)在實(shí)際應(yīng)用中效果如何?能用在哪些地方?
A:實(shí)驗(yàn)結(jié)果顯示,使用HyCodePolicy的機(jī)器人任務(wù)成功率從47.4%提升到63.9%,學(xué)習(xí)效率也大幅提高。這項(xiàng)技術(shù)可以廣泛應(yīng)用于制造業(yè)、服務(wù)機(jī)器人、醫(yī)療輔助等領(lǐng)域。比如工廠中的機(jī)器人能更快適應(yīng)新產(chǎn)品生產(chǎn),家用機(jī)器人能更好地適應(yīng)不同家庭環(huán)境,醫(yī)療機(jī)器人能在復(fù)雜手術(shù)中自我調(diào)整操作策略。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。