這項由上海AI實驗室、浙江大學、香港中文大學等多家機構(gòu)合作完成的研究發(fā)表于2025年3月,論文名為《Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy》,感興趣的讀者可以通過arXiv:2503.19757v1訪問完整論文。研究團隊開發(fā)了一個名為Dita的通用機器人策略模型,這個模型就像一個聰明的助手,能夠通過觀察和理解指令來完成各種復雜的機器人任務。
想象一下,如果你要教一個全新的員工做各種工作,傳統(tǒng)的方法需要為每個任務單獨培訓很長時間。但Dita就像一個特別有天賦的學徒,只需要看10個示例就能學會開抽屜、倒咖啡、整理物品等復雜任務,甚至能在完全不同的環(huán)境中靈活應對。這種能力的背后,是研究團隊創(chuàng)新性地將擴散模型(一種先進的AI技術(shù))與Transformer架構(gòu)(類似ChatGPT使用的技術(shù))相結(jié)合,讓機器人能夠像人類一樣"察言觀色"——通過仔細觀察環(huán)境細節(jié)來做出精準的動作決策。
研究團隊發(fā)現(xiàn),傳統(tǒng)的機器人學習方法就像是讓學生背誦標準答案,而Dita更像是教會學生理解題目的本質(zhì)。它不是簡單地記憶固定的動作序列,而是真正理解了如何觀察環(huán)境變化并做出相應調(diào)整。這種理解能力讓它在面對不同的光照條件、物品擺放位置,甚至是完全不同的背景環(huán)境時,依然能夠準確完成任務。
更令人印象深刻的是,Dita展現(xiàn)出了執(zhí)行長期任務的能力。它能夠完成"先關(guān)閉上層抽屜,然后打開下層抽屜,接著把碗放進抽屜,最后關(guān)閉下層抽屜"這樣包含多個步驟的復雜任務序列。這就像一個優(yōu)秀的管家,不僅能完成單個指令,還能理解和執(zhí)行一系列相關(guān)聯(lián)的任務,并在每個步驟之間保持邏輯的連貫性。
一、傳統(tǒng)機器人學習的困境與新思路的誕生
傳統(tǒng)的機器人學習就像是讓每個機器人都成為某個特定工作的專家,比如專門負責裝配汽車零件的機器人,或者專門用于搬運貨物的機器人。這種方法雖然在特定任務上表現(xiàn)出色,但問題是每當環(huán)境稍有變化,或者需要執(zhí)行新任務時,就必須重新收集大量數(shù)據(jù)進行訓練,就像重新培訓一個全新的員工一樣耗時耗力。
研究團隊觀察到,人類之所以能夠快速適應新環(huán)境和新任務,是因為我們具備強大的泛化能力。我們可以將在一個場景中學到的知識遷移到另一個完全不同的場景中。比如,你學會了在自己家里泡茶,到朋友家時也能很快找到茶具并完成同樣的任務,即使廚房布局完全不同。
基于這個觀察,研究團隊提出了一個大膽的想法:能否創(chuàng)建一個通用的機器人"大腦",就像人類的大腦一樣,能夠理解各種不同的任務,并在遇到新情況時快速適應?這個想法的核心是讓機器人不再依賴于針對特定任務的專門訓練,而是通過觀察大量不同類型的機器人執(zhí)行各種任務的數(shù)據(jù),學會一種通用的"做事方法"。
現(xiàn)有的一些研究嘗試通過擴散模型來解決這個問題。擴散模型原本用于圖像生成,它的工作原理就像一個藝術(shù)家從一團模糊的顏色開始,逐步細化直到創(chuàng)造出清晰的畫作。但是,當研究人員嘗試將這種技術(shù)應用到機器人控制時,他們遇到了一個重要問題:現(xiàn)有方法通常使用較小的網(wǎng)絡來處理動作生成,這就像用一支細筆來畫大幅畫作,難以處理復雜多樣的機器人行為。
Dita的創(chuàng)新之處在于,它不再使用小型的輔助網(wǎng)絡來生成動作,而是直接讓主要的大型神經(jīng)網(wǎng)絡來處理動作的生成和優(yōu)化。這就像讓一位經(jīng)驗豐富的總指揮直接協(xié)調(diào)所有細節(jié),而不是通過多個中間環(huán)節(jié)傳遞信息。這種直接的處理方式讓機器人能夠更好地理解視覺觀察和語言指令之間的精細關(guān)聯(lián),從而做出更加準確和靈活的動作決策。
二、Dita的核心設計理念:像人類一樣觀察和思考
Dita的設計哲學可以用一個生動的比喻來理解:它就像一個經(jīng)驗豐富的工匠,能夠通過仔細觀察環(huán)境中的每一個細節(jié)來指導自己的手部動作。與傳統(tǒng)方法不同,Dita采用了一種叫做"上下文條件化"的機制,這種機制讓機器人能夠直接基于觀察到的圖像細節(jié)來調(diào)整自己的動作策略。
具體來說,當Dita接收到一個任務指令時,比如"把咖啡豆倒進碗里",它不是簡單地執(zhí)行一個預設的動作序列,而是像一個細心的廚師一樣,首先仔細觀察當前的環(huán)境:咖啡豆在哪里,碗的位置如何,周圍有什么障礙物,光線條件如何等等。然后,它將這些視覺信息與語言指令結(jié)合起來,在腦海中形成一個完整的任務理解。
這種處理方式的技術(shù)實現(xiàn)涉及幾個關(guān)鍵組件。首先是視覺處理模塊,它使用了先進的DINOv2模型來分析圖像。這個模塊就像機器人的"眼睛",能夠識別和理解場景中的各種物體、它們的位置關(guān)系以及環(huán)境特征。接著是語言理解模塊,它使用CLIP模型來處理人類的指令,將自然語言轉(zhuǎn)換為機器人能夠理解的內(nèi)部表示。
最核心的創(chuàng)新在于動作生成模塊。傳統(tǒng)方法通常是將視覺信息和語言信息融合成一個抽象的表示,然后用一個小型網(wǎng)絡來生成具體的動作。但Dita采用了完全不同的策略:它讓一個大型的Transformer網(wǎng)絡直接處理所有信息,包括視覺觀察、語言指令、時間信息以及需要生成的動作。這就像讓一個經(jīng)驗豐富的指揮家同時協(xié)調(diào)交響樂團的所有聲部,而不是通過多個副指揮來傳遞指令。
在實際工作過程中,Dita使用擴散過程來生成動作。這個過程可以想象為雕塑家創(chuàng)作的過程:開始時,雕塑家面對的是一塊粗糙的石料(對應于隨機噪聲),然后通過反復的觀察、思考和精細調(diào)整,逐步雕琢出精美的作品(對應于精確的動作序列)。在每一步調(diào)整中,雕塑家都會參考自己對最終作品的構(gòu)想以及當前作品的狀態(tài),這正對應于Dita如何結(jié)合任務目標和當前環(huán)境狀態(tài)來優(yōu)化動作。
三、突破性的學習能力:從大規(guī)模數(shù)據(jù)中提取智慧
Dita的學習過程就像一個勤奮的學生通過閱讀大量不同類型的書籍來積累知識和智慧。研究團隊使用了Open X-Embediment(OXE)數(shù)據(jù)集來訓練Dita,這個數(shù)據(jù)集包含了來自不同機器人平臺、不同任務類型、不同環(huán)境設置的大量演示數(shù)據(jù)。這就相當于讓Dita觀看了成千上萬個不同的"師傅"如何完成各種工作,從中學習通用的技能和策略。
這種大規(guī)模的跨領(lǐng)域?qū)W習帶來了顯著的優(yōu)勢。就像一個見多識廣的人能夠在面對新情況時迅速找到解決方案一樣,Dita通過觀察各種不同的機器人執(zhí)行任務的方式,學會了一套通用的"做事方法論"。當它遇到新的任務或新的環(huán)境時,能夠靈活地調(diào)用這些經(jīng)驗來快速適應。
訓練過程本身也體現(xiàn)了Dita設計的精妙之處。傳統(tǒng)的擴散模型訓練通常需要大量的計算資源和時間,但Dita通過優(yōu)化的架構(gòu)設計,在保持高性能的同時顯著提高了訓練效率。整個模型包含3.34億個參數(shù),這個規(guī)模足夠處理復雜的任務,但又不會過于龐大而難以訓練和部署。
特別值得注意的是Dita對歷史信息的處理方式。它不僅考慮當前時刻的觀察,還會參考之前的觀察歷史來做決策。這就像一個經(jīng)驗豐富的工人不僅看當前的工作狀態(tài),還會回憶之前的操作步驟來指導下一步行動。這種時序建模能力讓Dita能夠執(zhí)行需要多個步驟協(xié)調(diào)的復雜任務,比如先準備工具,再執(zhí)行主要操作,最后進行清理工作。
四、卓越的實驗表現(xiàn):多個基準測試中的優(yōu)異成績
研究團隊在四個不同的仿真環(huán)境中測試了Dita的能力,這些測試就像給一個全能選手安排了四種不同類型的比賽,每種比賽都考察不同方面的能力。
在SimplerEnv測試中,Dita展現(xiàn)出了令人印象深刻的零樣本泛化能力。這個測試模擬了從真實機器人數(shù)據(jù)訓練的模型在仿真環(huán)境中的表現(xiàn)。Dita在"拿取可樂罐"任務中達到了83.7%的成功率,在"移動物體到指定位置"任務中達到了76.0%的成功率,這些數(shù)字遠超其他現(xiàn)有方法。更重要的是,即使在環(huán)境發(fā)生變化的情況下(比如背景不同、物體位置變化等),Dita依然保持了很高的成功率,體現(xiàn)了其強大的適應能力。
LIBERO基準測試更加全面地評估了Dita在多任務學習方面的能力。這個測試包含四個子任務類型:空間關(guān)系理解、物體識別和操作、目標導向的任務執(zhí)行,以及長序列任務處理。Dita在所有子任務中都表現(xiàn)出色,特別是在最具挑戰(zhàn)性的長序列任務中,成功率達到了63.8%,比之前的最佳方法提高了約10個百分點。這個結(jié)果說明Dita不僅能夠處理單個簡單任務,還能協(xié)調(diào)執(zhí)行復雜的多步驟任務序列。
CALVIN基準測試專門考察機器人執(zhí)行長期任務的能力。在這個測試中,機器人需要在一個場景中連續(xù)完成最多五個相關(guān)任務,就像一個管家需要按照主人的要求依次完成打掃、整理、準備等一系列工作。Dita在這個極具挑戰(zhàn)性的測試中展現(xiàn)出了優(yōu)秀的表現(xiàn),平均能夠連續(xù)完成3.61個任務,這個成績在僅使用單個RGB攝像頭的方法中是最好的。
最后的ManiSkill2測試專門評估了Dita在不同攝像頭視角下的泛化能力。研究團隊創(chuàng)建了一個包含300,000個隨機攝像頭位置的數(shù)據(jù)集,然后測試Dita是否能夠在完全未見過的視角下準確執(zhí)行任務。結(jié)果顯示,Dita的平均成功率達到了65.8%,顯著超過了其他方法。這個結(jié)果特別有意義,因為在實際應用中,機器人經(jīng)常需要在不同的環(huán)境和視角下工作。
五、真實世界的驗證:10樣本學習的驚人效果
最令人興奮的部分是Dita在真實機器人平臺上的表現(xiàn)。研究團隊使用了一個配備Franka Panda機械臂和Robotiq夾爪的機器人系統(tǒng),通過一個位于第三人稱視角的RGB-D攝像頭來觀察環(huán)境。這個設置就像給機器人配備了一雙"眼睛",讓它能夠觀察和理解周圍的環(huán)境。
在真實世界的測試中,Dita展現(xiàn)出了令人印象深刻的快速學習能力。僅僅通過觀看10個演示樣本,它就能學會執(zhí)行各種復雜的任務。比如在"拿香蕉放入盒子"的任務中,Dita學會了如何精確地抓取形狀不規(guī)則的香蕉,如何調(diào)整抓取姿態(tài)以避免損壞水果,以及如何準確地將香蕉放置到目標位置。這種學習速度和準確性遠超傳統(tǒng)方法。
更加令人驚嘆的是Dita處理復雜操作任務的能力。在"倒咖啡豆到碗里"的任務中,機器人需要準確地抓取裝有咖啡豆的容器,控制傾倒的角度和速度,確??Х榷箿蚀_落入目標碗中而不會散落。這類任務對機器人的精細操作能力要求極高,因為需要實時調(diào)整手部姿態(tài)和力度。Dita通過其先進的視覺理解和動作生成能力,成功地掌握了這些精細操作技巧。
在多步驟任務方面,Dita展現(xiàn)出了接近人類水平的任務規(guī)劃和執(zhí)行能力。例如,在"先關(guān)閉上層抽屜,然后打開下層抽屜,接著把碗放進抽屜,最后關(guān)閉下層抽屜"這個包含四個步驟的復雜任務中,Dita不僅能夠理解每個子任務的要求,還能夠保持整個任務序列的邏輯連貫性。當執(zhí)行某個步驟時,它會記住之前的操作狀態(tài),并為后續(xù)步驟做好準備。
特別值得注意的是Dita在環(huán)境變化下的魯棒性表現(xiàn)。研究團隊故意在測試環(huán)境中引入了各種干擾因素:改變背景顏色、調(diào)整光照條件、在工作區(qū)域放置非目標物體等。在這些具有挑戰(zhàn)性的條件下,Dita依然能夠準確識別目標物體,規(guī)劃合適的運動軌跡,并成功完成任務。這種適應能力對于實際應用來說至關(guān)重要,因為真實世界的環(huán)境總是在不斷變化的。
六、技術(shù)創(chuàng)新的深層價值:重新定義機器人學習范式
Dita的成功不僅僅體現(xiàn)在具體的性能數(shù)字上,更重要的是它代表了機器人學習領(lǐng)域的一個重要范式轉(zhuǎn)變。傳統(tǒng)的機器人開發(fā)模式就像手工作坊,每個任務都需要專門的定制和調(diào)試。而Dita開創(chuàng)的新模式更像現(xiàn)代的智能制造系統(tǒng),通過統(tǒng)一的平臺和方法來處理各種不同的需求。
這種范式轉(zhuǎn)變的核心在于從"任務特定"轉(zhuǎn)向"任務通用"。過去,研究人員需要為每種特定的機器人任務設計專門的算法和控制策略,這個過程既耗時又容易出錯。Dita證明了一個通用的學習框架可以有效地處理各種不同類型的任務,只需要通過少量的任務樣本進行快速適應即可。
從工程實踐的角度來看,Dita的設計理念也具有重要的實用價值。它的模型大小相對較?。?.34億參數(shù)),計算需求合理,這意味著它可以在普通的計算硬件上運行,而不需要昂貴的專用設備。同時,其開源的性質(zhì)為廣大研究人員和開發(fā)者提供了一個強大的基礎平臺,可以在此基礎上開發(fā)各種具體的應用。
在實際部署方面,Dita展現(xiàn)出了良好的實時性能。在真實機器人實驗中,系統(tǒng)能夠以3Hz的頻率進行控制決策,這個速度對于大多數(shù)機械操作任務來說是足夠的。更重要的是,通過優(yōu)化推理過程,Dita在保持高精度的同時將擴散過程的步數(shù)減少到了10步甚至更少,大大提高了響應速度。
七、對未來機器人發(fā)展的深遠影響
Dita的成功為未來機器人技術(shù)的發(fā)展指明了幾個重要方向。首先是通用人工智能在機器人領(lǐng)域的應用前景。Dita證明了大規(guī)模預訓練模型在機器人控制中的有效性,這為開發(fā)更加智能、更加通用的機器人系統(tǒng)奠定了基礎。
在商業(yè)應用方面,Dita的快速學習能力為機器人的商業(yè)化部署開辟了新的可能性。傳統(tǒng)上,將機器人部署到新環(huán)境或新任務中需要大量的工程工作和調(diào)試時間。而Dita只需要很少的演示樣本就能快速適應新環(huán)境,這大大降低了機器人系統(tǒng)的部署成本和時間。
從技術(shù)發(fā)展趨勢來看,Dita代表了多模態(tài)人工智能技術(shù)向機器人領(lǐng)域的深度滲透。它成功地將計算機視覺、自然語言處理和機器人控制三個領(lǐng)域的先進技術(shù)整合在一起,創(chuàng)造出了超越各個單獨領(lǐng)域能力總和的系統(tǒng)性能。這種跨領(lǐng)域的技術(shù)融合將成為未來機器人技術(shù)發(fā)展的重要趨勢。
對于普通消費者來說,Dita所代表的技術(shù)進步意味著未來的家用機器人將更加智能和實用。一個基于類似技術(shù)的家用機器人助手可能只需要主人演示幾次如何整理房間或準備簡單的食物,就能學會這些技能并在日常生活中提供幫助。
不過,研究團隊也坦誠地指出了當前技術(shù)的一些限制。例如,Dita目前主要處理的是桌面級的操作任務,對于需要全身協(xié)調(diào)或移動的復雜任務還有待進一步研究。此外,雖然10樣本學習已經(jīng)相當高效,但在某些高度專業(yè)化的任務中,可能還需要更多的訓練數(shù)據(jù)才能達到理想的性能。
總的來說,Dita的研究成果標志著機器人學習技術(shù)的一個重要里程碑。它不僅在技術(shù)層面實現(xiàn)了顯著的突破,更重要的是為整個行業(yè)展示了一條通向通用機器人智能的可行路徑。隨著技術(shù)的進一步發(fā)展和完善,我們有理由期待在不久的將來看到更加智能、更加實用的機器人系統(tǒng)進入我們的日常生活,為人類提供更好的服務和幫助。
Q&A
Q1:Dita相比傳統(tǒng)機器人學習方法有什么獨特優(yōu)勢? A:Dita最大的優(yōu)勢是只需要10個示例就能學會新任務,而傳統(tǒng)方法通常需要大量數(shù)據(jù)。它采用了創(chuàng)新的"上下文條件化"機制,能像人類一樣通過觀察環(huán)境細節(jié)來調(diào)整動作,而不是簡單執(zhí)行預設程序。這讓它在面對環(huán)境變化時具有更強的適應能力。
Q2:普通人什么時候能用上基于Dita技術(shù)的機器人? A:雖然Dita目前還處于研究階段,但其快速學習能力和較低的計算需求為商業(yè)化提供了良好基礎。預計在未來3-5年內(nèi),基于類似技術(shù)的家用機器人助手可能會逐步進入市場,幫助人們完成家務整理、簡單烹飪等日常任務。
Q3:Dita能處理哪些類型的機器人任務?它有什么限制? A:Dita擅長處理桌面級的精細操作任務,如抓取、傾倒、開關(guān)抽屜、多步驟組合任務等。它能在不同光照、背景變化的環(huán)境中穩(wěn)定工作。但目前主要限制在桌面操作范圍內(nèi),對于需要全身移動或高度專業(yè)化的任務還需進一步發(fā)展。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。