這項(xiàng)由亞馬遜前沿AI與機(jī)器人研究團(tuán)隊(duì)(Amazon FAR)的Lars Ankile、Zhenyu Jiang、Rocky Duan等研究人員完成的突破性工作,發(fā)表于2025年9月的arXiv預(yù)印本平臺(tái),論文編號(hào)為arXiv:2509.19301v2。該研究還匯集了斯坦福大學(xué)、卡內(nèi)基梅隆大學(xué)和加州大學(xué)伯克利分校的頂尖學(xué)者,共同攻克了機(jī)器人學(xué)習(xí)領(lǐng)域的一個(gè)核心難題。
想象一下,你剛學(xué)會(huì)開(kāi)車時(shí)需要教練在旁邊指導(dǎo),但隨著經(jīng)驗(yàn)的積累,你逐漸能夠獨(dú)自處理各種復(fù)雜路況。機(jī)器人的學(xué)習(xí)過(guò)程也是如此,但傳統(tǒng)方法存在一個(gè)根本矛盾:要么讓機(jī)器人完全模仿人類示范(就像永遠(yuǎn)需要教練),要么讓它完全自主探索(就像把新手直接扔到復(fù)雜路況中)。前者雖然安全但難以超越人類表現(xiàn),后者雖然有潛力但在現(xiàn)實(shí)世界中風(fēng)險(xiǎn)太大且效率極低。
亞馬遜團(tuán)隊(duì)提出的解決方案就像是給機(jī)器人配備了一個(gè)"智能副駕駛系統(tǒng)"。這個(gè)系統(tǒng)建立在他們稱為"殘差離線策略強(qiáng)化學(xué)習(xí)"(ResFiT)的創(chuàng)新框架之上。簡(jiǎn)單來(lái)說(shuō),就是讓機(jī)器人先通過(guò)觀察人類示范學(xué)會(huì)基本技能,然后在這個(gè)基礎(chǔ)上通過(guò)自主實(shí)踐來(lái)不斷改進(jìn)和完善。
研究的核心創(chuàng)新在于將學(xué)習(xí)過(guò)程分為兩個(gè)階段。第一階段類似于駕校學(xué)習(xí),機(jī)器人通過(guò)觀察大量人類操作示范來(lái)掌握基本動(dòng)作模式。這種學(xué)習(xí)方式被稱為行為克隆,就像學(xué)生看老師示范后模仿動(dòng)作一樣。然而,純粹的模仿有其局限性,就如同學(xué)生永遠(yuǎn)無(wú)法超越老師一樣。
第二階段是關(guān)鍵突破所在。研究團(tuán)隊(duì)設(shè)計(jì)了一種"殘差學(xué)習(xí)"機(jī)制,讓機(jī)器人在保持基礎(chǔ)技能的同時(shí),通過(guò)與環(huán)境的實(shí)際互動(dòng)來(lái)學(xué)習(xí)微調(diào)和改進(jìn)。這就好比一個(gè)已經(jīng)學(xué)會(huì)基本駕駛技能的新手司機(jī),在實(shí)際道路上通過(guò)不斷練習(xí)來(lái)完善技術(shù),學(xué)會(huì)處理各種意外情況。
最令人印象深刻的是,這套系統(tǒng)在現(xiàn)實(shí)世界中的表現(xiàn)。研究團(tuán)隊(duì)使用了一臺(tái)擁有29個(gè)自由度的輪式人形機(jī)器人,配備兩只五指靈巧手,讓它執(zhí)行復(fù)雜的雙手協(xié)調(diào)任務(wù)。這臺(tái)機(jī)器人不僅要處理視覺(jué)信息,還要精確控制多達(dá)29個(gè)關(guān)節(jié)的協(xié)調(diào)運(yùn)動(dòng),復(fù)雜程度可想而知。
在實(shí)驗(yàn)中,機(jī)器人需要完成諸如雙手傳遞包裹這樣的復(fù)雜任務(wù)。初始時(shí),基于純模仿學(xué)習(xí)的基礎(chǔ)策略只能達(dá)到23%的成功率。但經(jīng)過(guò)ResFiT系統(tǒng)的在線學(xué)習(xí)改進(jìn)后,僅用了約76分鐘的實(shí)際操作數(shù)據(jù),成功率就提升到了64%。這種改進(jìn)幅度在機(jī)器人學(xué)習(xí)領(lǐng)域是相當(dāng)顯著的。
研究團(tuán)隊(duì)還在仿真環(huán)境中進(jìn)行了大量對(duì)比實(shí)驗(yàn)。他們測(cè)試了從簡(jiǎn)單的單臂操作到復(fù)雜的雙臂協(xié)調(diào)等多種任務(wù)。結(jié)果顯示,ResFiT方法在樣本效率方面比傳統(tǒng)強(qiáng)化學(xué)習(xí)方法提高了約200倍。這意味著機(jī)器人能用少得多的練習(xí)時(shí)間達(dá)到相同甚至更好的表現(xiàn)。
技術(shù)層面上,ResFiT的巧妙之處在于它解決了現(xiàn)代機(jī)器人學(xué)習(xí)的一個(gè)根本矛盾。當(dāng)前最先進(jìn)的行為克隆模型通常包含數(shù)千萬(wàn)到數(shù)十億個(gè)參數(shù),結(jié)構(gòu)極其復(fù)雜。直接對(duì)這樣的模型進(jìn)行強(qiáng)化學(xué)習(xí)優(yōu)化就像試圖調(diào)整一臺(tái)精密儀器的所有部件,既困難又危險(xiǎn)。ResFiT的解決方案是保持原有復(fù)雜模型不變,只學(xué)習(xí)簡(jiǎn)單的"修正項(xiàng)",就像在原有駕駛技能基礎(chǔ)上只學(xué)習(xí)一些微調(diào)動(dòng)作。
這種設(shè)計(jì)還帶來(lái)了安全性優(yōu)勢(shì)。由于基礎(chǔ)策略保持不變,機(jī)器人不會(huì)偏離太遠(yuǎn)或做出危險(xiǎn)動(dòng)作。修正項(xiàng)的幅度可以被嚴(yán)格控制,確保機(jī)器人的行為始終在安全范圍內(nèi)。這對(duì)于在現(xiàn)實(shí)世界中部署機(jī)器人學(xué)習(xí)系統(tǒng)至關(guān)重要。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一些有趣的現(xiàn)象。他們注意到基礎(chǔ)策略不僅提供了學(xué)習(xí)起點(diǎn),還起到了兩個(gè)重要作用:一是作為隱含的安全約束,防止機(jī)器人學(xué)習(xí)到過(guò)于激進(jìn)的行為;二是提供了強(qiáng)有力的探索指導(dǎo),幫助機(jī)器人在高維度空間中找到有效的學(xué)習(xí)方向。
在實(shí)驗(yàn)設(shè)計(jì)方面,研究團(tuán)隊(duì)采用了嚴(yán)格的評(píng)估協(xié)議。特別是在現(xiàn)實(shí)世界實(shí)驗(yàn)中,他們使用了盲測(cè)A/B對(duì)比方法,隨機(jī)分配任務(wù)條件,避免了評(píng)估偏差。這種嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)設(shè)計(jì)增強(qiáng)了結(jié)果的可信度。
值得強(qiáng)調(diào)的是,這項(xiàng)工作在機(jī)器人學(xué)習(xí)歷史上具有重要意義。據(jù)研究團(tuán)隊(duì)所知,這是首次在配備五指靈巧手的雙臂人形機(jī)器人上完全在現(xiàn)實(shí)世界中進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練并取得成功的案例。這標(biāo)志著機(jī)器人學(xué)習(xí)技術(shù)向?qū)嵱没~出了重要一步。
當(dāng)然,該方法也存在一些限制。學(xué)習(xí)到的行為仍然受到基礎(chǔ)策略的約束,機(jī)器人難以發(fā)現(xiàn)完全不同的解決方案。此外,當(dāng)前系統(tǒng)仍需要人工監(jiān)督來(lái)重置環(huán)境和判斷任務(wù)成敗,距離完全自主的技能改進(jìn)還有距離。
研究團(tuán)隊(duì)對(duì)未來(lái)發(fā)展也提出了展望。他們認(rèn)為關(guān)鍵在于找到合適的方式來(lái)放松對(duì)基礎(chǔ)策略的約束,同時(shí)保持學(xué)習(xí)的穩(wěn)定性。另一個(gè)有前景的方向是將改進(jìn)后的行為蒸餾回基礎(chǔ)策略,為進(jìn)一步的殘差學(xué)習(xí)創(chuàng)造更大空間。在多任務(wù)設(shè)置中,這種方法可能特別有效。
這項(xiàng)研究的意義不僅僅在于技術(shù)突破,更在于為機(jī)器人學(xué)習(xí)提供了一條切實(shí)可行的道路。它證明了在現(xiàn)實(shí)世界中部署樣本高效的強(qiáng)化學(xué)習(xí)是完全可能的,這為未來(lái)開(kāi)發(fā)能夠在真實(shí)環(huán)境中持續(xù)學(xué)習(xí)和改進(jìn)的機(jī)器人系統(tǒng)奠定了基礎(chǔ)。隨著技術(shù)的進(jìn)一步發(fā)展,我們可能很快就會(huì)看到能夠真正適應(yīng)和學(xué)習(xí)的智能機(jī)器人走進(jìn)我們的日常生活。
Q&A
Q1:ResFiT技術(shù)和傳統(tǒng)機(jī)器人學(xué)習(xí)方法有什么不同?
A:ResFiT將學(xué)習(xí)分為兩個(gè)階段:先讓機(jī)器人通過(guò)模仿人類示范掌握基本技能,再通過(guò)與環(huán)境互動(dòng)學(xué)習(xí)改進(jìn)。這就像先在駕校學(xué)基礎(chǔ),再在實(shí)際道路上練習(xí)提高。傳統(tǒng)方法要么只會(huì)模仿無(wú)法超越,要么完全自主探索但效率太低風(fēng)險(xiǎn)太大。
Q2:這個(gè)技術(shù)在現(xiàn)實(shí)世界中的表現(xiàn)如何?
A:研究團(tuán)隊(duì)在29自由度人形機(jī)器人上測(cè)試了雙手傳遞包裹等復(fù)雜任務(wù)?;A(chǔ)模仿學(xué)習(xí)只有23%成功率,但經(jīng)過(guò)ResFiT改進(jìn)后,僅用76分鐘實(shí)際操作數(shù)據(jù)就提升到64%成功率。這是首次在真實(shí)世界完全訓(xùn)練五指靈巧手雙臂機(jī)器人的成功案例。
Q3:ResFiT技術(shù)有什么局限性和未來(lái)發(fā)展方向?
A:主要局限是學(xué)習(xí)行為仍受基礎(chǔ)策略約束,難以發(fā)現(xiàn)完全不同的解決方案,且仍需人工監(jiān)督環(huán)境重置和任務(wù)判斷。未來(lái)發(fā)展方向包括適當(dāng)放松基礎(chǔ)策略約束同時(shí)保持穩(wěn)定性,以及將改進(jìn)行為蒸餾回基礎(chǔ)策略創(chuàng)造更大學(xué)習(xí)空間。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。