想象一下,有一個機器人管家能夠幫你做飯、整理房間、照顧寵物,甚至還能操作各種不同的設(shè)備——從咖啡機到洗衣機,再到復(fù)雜的工業(yè)機械。聽起來像科幻電影對吧?不過,來自德國卡爾斯魯厄理工學(xué)院直覺機器人實驗室的研究團隊剛剛讓這個夢想離現(xiàn)實又近了一大步。
這項由莫里茨·羅伊斯(Moritz Reuss)領(lǐng)導(dǎo)的研究團隊發(fā)表于2025年首爾機器人學(xué)習(xí)會議(CoRL 2025)的突破性成果,開發(fā)出了一個名為FLOWER的機器人"大腦"。這個大腦的神奇之處在于,它不僅能讓機器人理解人類的語言指令,還能控制各種不同類型的機器人完成復(fù)雜任務(wù),而且運行時所需的計算資源比現(xiàn)有技術(shù)少了99%。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過論文鏈接https://intuitive-robots.github.io/flower_vla/獲取完整研究資料。
要理解這項研究的重要性,我們可以把機器人想象成剛學(xué)會走路的孩子。傳統(tǒng)的機器人就像只會做一件事的專才——掃地機器人只會掃地,工業(yè)機械臂只會焊接。而研究團隊想要創(chuàng)造的,是像人類一樣的通才——既能做飯又能打掃,既能照顧小孩又能修理家電。
但這里有個巨大的挑戰(zhàn),就像要培養(yǎng)一個超級管家,需要讓他既懂得精致的法式料理,又能操作重型起重機。現(xiàn)有的機器人"大腦"要么太笨重(需要幾十億個參數(shù),相當(dāng)于背著一個圖書館走路),要么太專一(只會一種技能),要么訓(xùn)練成本太高(需要數(shù)萬小時的超級計算機時間)。
研究團隊面臨的核心問題可以用一個生動的比喻來解釋:假如你要培訓(xùn)一個萬能助手,傳統(tǒng)方法就像讓他把整個百科全書都背下來,然后再學(xué)習(xí)各種技能。這樣不僅學(xué)習(xí)速度慢,而且大腦裝不下這么多信息。FLOWER的創(chuàng)新就像發(fā)明了一種新的學(xué)習(xí)方法——只記住百科全書的核心內(nèi)容,然后用一套靈活的"動作模板"來應(yīng)對各種不同的任務(wù)。
FLOWER這個名字其實是"Florence With Embodied Flow"的縮寫,聽起來很技術(shù)化,但理解起來并不復(fù)雜。Florence是一種能夠同時"看懂"圖像和"理解"文字的人工智能系統(tǒng),就像給機器人配備了既能看又能聽懂人話的感官系統(tǒng)。而"Embodied Flow"指的是一種特殊的動作生成技術(shù),可以讓機器人的動作變得流暢自然,就像熟練的舞者能夠?qū)⒁幌盗袕?fù)雜的舞步串聯(lián)成優(yōu)美的舞蹈一樣。
研究團隊最令人印象深刻的創(chuàng)新在于他們的"中間層融合"技術(shù)。傳統(tǒng)的方法就像讓機器人先完整地"看懂"和"想明白"所有信息,然后再決定怎么行動。而FLOWER采用的方法更像是讓機器人在理解過程中就開始規(guī)劃動作,這樣不僅速度更快,效果也更好。
具體來說,研究團隊發(fā)現(xiàn)了一個有趣的現(xiàn)象:當(dāng)機器人"大腦"在處理信息時,前面幾層主要負(fù)責(zé)理解基本概念(比如識別這是一個杯子),中間幾層負(fù)責(zé)理解復(fù)雜關(guān)系(比如杯子在桌子上,旁邊有個蘋果),而最后幾層主要負(fù)責(zé)生成下一個詞匯的預(yù)測。對于機器人控制來說,最關(guān)鍵的其實是中間層的信息——既包含了豐富的語義理解,又沒有過多冗余的細(xì)節(jié)。
基于這個發(fā)現(xiàn),研究團隊開發(fā)出了一個巧妙的解決方案:他們把原來需要完整運行的機器人"大腦"砍掉了30%到50%的部分,就像給一臺過于復(fù)雜的機器進行精簡改造。對于編碼器-解碼器結(jié)構(gòu)的系統(tǒng)(比如Florence-2),他們完全移除了解碼器部分,只保留編碼器;對于純解碼器結(jié)構(gòu)的系統(tǒng),他們則去掉了最后30%的層次。這樣做的結(jié)果是參數(shù)減少了20%到35%,每步計算時間顯著降低,但性能反而有所提升。
更進一步,研究團隊還開發(fā)了一種叫做"動作空間全局自適應(yīng)層歸一化"的技術(shù),這個名字聽起來很復(fù)雜,但原理卻很直觀。傳統(tǒng)方法就像給每個工人都配備一套完整的工具箱,即使他們只需要用其中幾樣工具。而FLOWER的方法更像是建立一個工具共享系統(tǒng)——所有工人共享一套基礎(chǔ)工具,但每個人可以根據(jù)自己的具體任務(wù)獲得專門的調(diào)整。這樣既節(jié)省了資源(減少了20%的參數(shù)),又保持了效果。
為了驗證這些創(chuàng)新的效果,研究團隊進行了大規(guī)模的實驗測試,涵蓋了190個不同的任務(wù),跨越10個不同的測試環(huán)境。這些測試就像給機器人安排了一場全能比賽,既要在虛擬環(huán)境中完成精密操作,又要在真實世界中處理各種復(fù)雜情況。
在虛擬環(huán)境的測試中,F(xiàn)LOWER在CALVIN基準(zhǔn)測試中創(chuàng)造了新的記錄,達(dá)到了4.53分的最高成績。CALVIN測試就像給機器人布置連續(xù)的家務(wù)任務(wù)——先開抽屜,再把物品放進去,然后關(guān)上抽屜,最后打開燈泡。這需要機器人不僅能理解每個單獨的指令,還要能夠?qū)⑺鼈兇?lián)成一個完整的動作序列。
更令人印象深刻的是FLOWER在處理不同類型機器人方面的表現(xiàn)。研究團隊測試了單臂機器人、雙臂機器人、使用關(guān)節(jié)控制的機器人、使用末端執(zhí)行器控制的機器人等各種配置。這就像讓同一個老師能夠教授不同年齡、不同背景的學(xué)生,每個學(xué)生都有自己的學(xué)習(xí)方式和能力特點。
在LIBERO基準(zhǔn)測試中,F(xiàn)LOWER在所有變體上都取得了93%以上的成功率,特別是在Long任務(wù)(需要完成較長序列動作的復(fù)雜任務(wù))上,F(xiàn)LOWER是唯一超過90%成功率的通用策略,達(dá)到了93.5%,而其他通用方法只有50-54%的成功率。這就像在一場需要完成多個步驟的復(fù)雜任務(wù)比賽中,F(xiàn)LOWER幾乎從不出錯,而其他選手經(jīng)常在中途失敗。
在雙臂機器人的高頻率控制測試(Aloha基準(zhǔn))中,F(xiàn)LOWER展現(xiàn)了處理精密操作的能力。雙臂協(xié)調(diào)就像讓一個人同時用兩只手做不同的精細(xì)工作——一只手握住物體,另一只手進行精密操作。FLOWER在"立方體轉(zhuǎn)移"和"插銷插入"等需要高度協(xié)調(diào)的任務(wù)中都表現(xiàn)出色,特別是在插銷任務(wù)上明顯超越了專門為雙臂設(shè)計的ACT算法。
真實世界的測試更加令人興奮,因為這意味著技術(shù)已經(jīng)走出了實驗室。研究團隊在一個配備了Franka Panda機器人的真實廚房環(huán)境中進行了測試,這個廚房就像普通家庭的廚房一樣,有各種電器、餐具和食材。他們讓機器人執(zhí)行20種不同的任務(wù),從簡單的"把鍋從右邊爐子移到水槽"到復(fù)雜的"打開烤箱并把物品放到烤箱托盤上"。
在這些真實世界測試中,F(xiàn)LOWER達(dá)到了61%的平均成功率,比第二名的OpenVLA(31%)高出了一倍。更重要的是,研究團隊還測試了機器人面對從未見過的情況時的表現(xiàn)——這叫做泛化能力測試。
泛化能力測試就像考察一個廚師能否用從未見過的食材做出美味的菜肴。研究團隊設(shè)計了四種挑戰(zhàn)情況:新物體(使用訓(xùn)練時從未見過的物品,如網(wǎng)球、手套、胡蘿卜等)、手電筒照明(在黑暗環(huán)境中只用手電筒照明)、背景干擾(在廚房中放置各種雜物制造視覺干擾)、以及新任務(wù)組合(將多個已知任務(wù)組合成從未練習(xí)過的長序列)。
結(jié)果令人驚喜:FLOWER在所有泛化測試中的平均成功率達(dá)到了51.0%,而OpenVLA只有23.4%。特別值得注意的是,在處理全新物體時,F(xiàn)LOWER仍然能夠保持33.3%的成功率,這意味著它真正具備了舉一反三的能力,而不是單純的記憶和重復(fù)。
從計算效率的角度來看,F(xiàn)LOWER的優(yōu)勢更加明顯。在相同的硬件環(huán)境下,F(xiàn)LOWER的推理速度達(dá)到了311Hz,比π0快8%,比OpenVLA快50倍。內(nèi)存占用方面,F(xiàn)LOWER只需要1.85GB的顯存,相當(dāng)于π0的27.6%和OpenVLA的12.7%。這意味著FLOWER可以在普通消費級硬件上運行,而不需要昂貴的專業(yè)設(shè)備。
訓(xùn)練成本的差異更加驚人。OpenVLA需要35000個GPU小時的訓(xùn)練時間,RDT-1B需要21500個GPU小時,而FLOWER只需要192個GPU小時——僅僅是傳統(tǒng)方法的0.5%到0.9%。這就像原來需要數(shù)年時間才能培養(yǎng)出的專家,現(xiàn)在只需要幾個月就能達(dá)到同樣甚至更好的水平。
研究團隊的技術(shù)創(chuàng)新主要體現(xiàn)在三個方面。首先是中間層融合策略,這是整個系統(tǒng)的核心創(chuàng)新。傳統(tǒng)方法要么在最開始就把所有信息混合在一起(早期融合),要么等到最后才整合不同來源的信息(晚期融合)。FLOWER采用的中間層融合就像在做菜時選擇最佳的調(diào)味時機——不是一開始就把所有調(diào)料都放進去,也不是等菜快熟了才調(diào)味,而是在恰當(dāng)?shù)臅r候加入恰當(dāng)?shù)恼{(diào)料。
其次是全局自適應(yīng)層歸一化技術(shù)。這個技術(shù)解決的是不同類型機器人之間的協(xié)調(diào)問題。每種機器人就像有不同口音的人,即使說同一種語言,表達(dá)方式也會有差異。傳統(tǒng)方法需要為每種機器人準(zhǔn)備一套完整的"翻譯系統(tǒng)",而FLOWER開發(fā)了一套"通用翻譯器",能夠自動適應(yīng)不同的"口音",大大減少了系統(tǒng)復(fù)雜度。
第三個創(chuàng)新是使用了名為"矯正流"的動作生成技術(shù)。傳統(tǒng)的擴散模型生成動作就像在迷霧中摸索前進,需要很多步才能找到正確的路徑。而矯正流技術(shù)就像有了一張清晰的地圖,能夠直接規(guī)劃出從起點到終點的最短路徑,因此只需要4到8步就能生成高質(zhì)量的動作序列。
這些技術(shù)創(chuàng)新的組合產(chǎn)生了協(xié)同效應(yīng)。中間層融合提供了最優(yōu)質(zhì)的語義信息,全局自適應(yīng)層歸一化確保了跨機器人的兼容性,矯正流技術(shù)保證了高效的動作生成。三者結(jié)合,就像一個訓(xùn)練有素的管弦樂隊,每個部分都恰到好處地配合,產(chǎn)生了遠(yuǎn)超單獨部分的整體效果。
為了確保研究結(jié)果的可靠性,研究團隊進行了詳盡的對比分析。他們將FLOWER與當(dāng)前最先進的各種方法進行了比較,包括OpenVLA、π0、RDT-1B、Octo等。這些比較就像舉辦一場機器人技能大賽,每個參賽者都要在相同的條件下完成相同的任務(wù),確保比較的公平性。
結(jié)果顯示,F(xiàn)LOWER在幾乎所有測試中都表現(xiàn)最佳或接近最佳。更重要的是,F(xiàn)LOWER達(dá)到這些性能只用了其他方法1%的訓(xùn)練資源,這種效率提升是革命性的。這就像發(fā)現(xiàn)了一種新的學(xué)習(xí)方法,能讓學(xué)生用十分之一的時間掌握同樣的知識,而且理解得更深入。
從技術(shù)架構(gòu)的角度來看,F(xiàn)LOWER采用了模塊化設(shè)計。整個系統(tǒng)就像一套積木,不同的組件可以靈活組合。視覺語言模型負(fù)責(zé)理解環(huán)境和指令,流變換器負(fù)責(zé)生成動作序列,動作空間編碼器和解碼器負(fù)責(zé)適配不同類型的機器人。這種設(shè)計的好處是易于擴展和維護,新的機器人類型或新的任務(wù)只需要添加相應(yīng)的模塊,而不需要重新設(shè)計整個系統(tǒng)。
研究團隊還特別關(guān)注了系統(tǒng)的實用性。他們選擇的預(yù)訓(xùn)練數(shù)據(jù)集相對較小但質(zhì)量很高,只使用了約25萬條軌跡數(shù)據(jù),主要來自Droid、Google Robot和BridgeV2等數(shù)據(jù)集。這些數(shù)據(jù)集的特點是場景多樣、干擾因素豐富,更接近真實世界的復(fù)雜情況。這就像選擇在真實的城市道路而不是封閉的測試場地學(xué)習(xí)駕駛,雖然學(xué)習(xí)過程更具挑戰(zhàn)性,但學(xué)到的技能更實用。
在數(shù)據(jù)處理方面,研究團隊采用了智能的采樣策略。他們將75%的訓(xùn)練重點放在了場景變化豐富的數(shù)據(jù)上,這些數(shù)據(jù)包含了各種背景、物體和干擾因素。剩下的25%則用于學(xué)習(xí)精確的操作技能。這種平衡就像培養(yǎng)一個全能型人才,既要有廣博的知識面,也要有精深的專業(yè)技能。
FLOWER的訓(xùn)練過程也經(jīng)過了精心設(shè)計。整個訓(xùn)練分為360000步,在4塊H100 GPU上用48小時完成。研究團隊發(fā)現(xiàn),繼續(xù)延長訓(xùn)練時間并不能帶來更好的效果,這表明FLOWER能夠高效地從數(shù)據(jù)中學(xué)習(xí),不需要過度訓(xùn)練。這就像一個天資聰穎的學(xué)生,能夠快速掌握要點,而不需要反復(fù)死記硬背。
從系統(tǒng)性能的角度來看,F(xiàn)LOWER實現(xiàn)了多個方面的平衡:準(zhǔn)確性、效率、泛化能力和實用性。準(zhǔn)確性體現(xiàn)在各種基準(zhǔn)測試中的優(yōu)異表現(xiàn),效率體現(xiàn)在低計算資源需求和快速推理速度,泛化能力體現(xiàn)在處理未見過情況時的良好表現(xiàn),實用性體現(xiàn)在能夠在真實環(huán)境中穩(wěn)定工作。
研究團隊的實驗設(shè)計也很有啟發(fā)性。他們不僅測試了FLOWER的最佳性能,還進行了大量的消融實驗,系統(tǒng)性地分析了每個組件的貢獻(xiàn)。比如他們發(fā)現(xiàn),如果使用傳統(tǒng)的AdaLN而不是全局AdaLN,性能會略有下降;如果不進行中間層融合而使用傳統(tǒng)的晚期融合,性能下降會更明顯。這些分析就像解剖一臺精密機器,了解每個零件的作用,確保整個設(shè)計的合理性。
在處理跨機器人適應(yīng)性方面,F(xiàn)LOWER展現(xiàn)了出色的能力。研究團隊測試了單臂機器人(如Franka Panda)、雙臂機器人(如Aloha)、使用末端執(zhí)行器控制的機器人、使用關(guān)節(jié)控制的機器人等各種配置。每種配置就像不同的樂器,有著不同的"發(fā)聲方式"和控制邏輯,但FLOWER都能很好地適應(yīng)。
特別值得注意的是FLOWER在處理高頻控制任務(wù)方面的表現(xiàn)。在Aloha雙臂機器人測試中,控制頻率高達(dá)50Hz,這意味著機器人每秒需要做出50次決策和動作調(diào)整。這就像要求一個鋼琴家在演奏快速段落時保持每個音符的準(zhǔn)確性,對系統(tǒng)的響應(yīng)速度和精確性都提出了極高要求。FLOWER在這種高要求情況下仍然表現(xiàn)出色,證明了其技術(shù)架構(gòu)的先進性。
研究團隊還特別關(guān)注了失敗案例的分析,這種科學(xué)態(tài)度值得贊賞。他們發(fā)現(xiàn)FLOWER的主要失敗模式包括空間定位的輕微不準(zhǔn)確(比如推拉烤面包機杠桿時會偏差約1厘米)、在復(fù)雜環(huán)境中的路徑規(guī)劃問題(比如在水槽邊緣容易卡?。?,以及偶爾出現(xiàn)的力度控制問題。這些問題的識別為未來的改進指明了方向。
從更廣闊的視角來看,F(xiàn)LOWER代表了機器人技術(shù)發(fā)展的一個重要里程碑。傳統(tǒng)的機器人要么是高度專業(yè)化的工業(yè)設(shè)備,要么是功能有限的消費級產(chǎn)品。FLOWER展示的通用機器人智能為未來的服務(wù)機器人、家用機器人和協(xié)作機器人開辟了新的可能性。
這項研究的社會意義也不容忽視。高效的通用機器人智能技術(shù)可以顯著降低機器人部署的成本和技術(shù)門檻,使更多的中小企業(yè)和研究機構(gòu)能夠開發(fā)和使用先進的機器人系統(tǒng)。這就像從昂貴的大型機計算機發(fā)展到人人都能使用的個人電腦,技術(shù)的普及將帶來更多的創(chuàng)新和應(yīng)用。
研究團隊的開源策略也值得稱贊。他們不僅公開了論文和技術(shù)細(xì)節(jié),還提供了預(yù)訓(xùn)練的模型權(quán)重和完整的代碼庫,這為整個機器人研究社區(qū)提供了寶貴的資源。這種開放的態(tài)度促進了知識的傳播和技術(shù)的進步,體現(xiàn)了學(xué)術(shù)研究的本質(zhì)精神。
從技術(shù)發(fā)展趨勢來看,F(xiàn)LOWER所采用的中間層融合和流式生成技術(shù)可能會影響未來多模態(tài)AI系統(tǒng)的設(shè)計。這些創(chuàng)新不僅適用于機器人控制,還可能在其他需要實時決策和動作生成的領(lǐng)域找到應(yīng)用,比如自動駕駛、游戲AI、實時翻譯系統(tǒng)等。
最后,這項研究也展示了跨學(xué)科合作的力量。FLOWER融合了計算機視覺、自然語言處理、機器人學(xué)、控制理論等多個領(lǐng)域的最新成果,創(chuàng)造了一個全新的解決方案。這種綜合性的方法論可能會成為未來AI研究的重要模式。
說到底,F(xiàn)LOWER不僅僅是一個技術(shù)突破,更是向真正智能機器人邁出的重要一步。當(dāng)我們看到一個機器人能夠理解人類的指令,在不同的環(huán)境中靈活操作,處理從未見過的情況,而且還能以極高的效率運行時,我們就知道科幻電影中的場景正在變成現(xiàn)實。雖然目前的技術(shù)還有一些限制,比如在某些精細(xì)操作上還不夠完美,但FLOWER已經(jīng)證明了通用機器人智能的可行性和實用性。
這項研究可能會對我們的日常生活產(chǎn)生深遠(yuǎn)影響。在不久的將來,我們或許真的能看到既能幫助做飯又能整理房間的家用機器人,既能進行精密裝配又能處理物流的工業(yè)機器人,既能照顧老人又能輔助康復(fù)的醫(yī)療機器人。而這一切的實現(xiàn),都要歸功于像FLOWER這樣的基礎(chǔ)技術(shù)突破。
當(dāng)然,技術(shù)的發(fā)展也帶來了新的思考。隨著機器人變得越來越智能,我們需要考慮如何確保它們的安全性、如何處理就業(yè)市場的變化、如何維護人類的主導(dǎo)地位等問題。但無論如何,F(xiàn)LOWER所代表的技術(shù)進步都是令人興奮的,它讓我們看到了一個更加智能、更加便利的未來。
**Q&A**
Q1:FLOWER機器人系統(tǒng)能做什么?它和普通機器人有什么區(qū)別?
A:FLOWER是一個通用的機器人"大腦"系統(tǒng),能讓不同類型的機器人理解人類語言指令并完成各種復(fù)雜任務(wù)。與普通機器人不同,F(xiàn)LOWER可以控制單臂、雙臂等各種機器人,完成從做飯、清潔到精密操作等190種不同任務(wù),而且遇到?jīng)]見過的物品或環(huán)境也能靈活應(yīng)對。
Q2:FLOWER機器人系統(tǒng)為什么比其他系統(tǒng)更高效?
A:FLOWER的高效主要體現(xiàn)在三個方面:首先是參數(shù)更少,只有950M個參數(shù),比其他系統(tǒng)少幾十倍;其次是訓(xùn)練更快,只需要200個GPU小時,是傳統(tǒng)方法的1%;最后是運行更省資源,只需要1.85GB顯存,普通電腦就能運行。
Q3:普通人什么時候能用上FLOWER技術(shù)的機器人?
A:雖然FLOWER技術(shù)很先進,但目前還主要在實驗室和研究階段。研究團隊已經(jīng)開源了所有代碼和模型,這意味著技術(shù)公司可以基于FLOWER開發(fā)商用產(chǎn)品。預(yù)計在未來3-5年內(nèi),我們可能會看到基于這種技術(shù)的家用或商用機器人產(chǎn)品問世。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。