這項由韓國NAVER AI實驗室的金泰慶、韓東允、許炳浩和尹相斗,以及韓國大學的樸廷恩共同完成的研究發(fā)表于2025年7月,目前正在評審中。感興趣的讀者可以通過arXiv:2507.06543v1查閱完整論文。這個研究團隊提出了一種名為"Token Bottleneck"(簡稱ToBo)的全新方法,讓機器人能像人類一樣,通過觀察和記憶來學習復雜的操作技能。
當我們看電影時,即使中間有人暫停了幾分鐘,我們回來后依然能迅速理解劇情發(fā)展,這是因為我們的大腦會自動保存重要信息,并能將這些信息與新看到的畫面聯(lián)系起來。研究團隊發(fā)現(xiàn),讓機器人學會這種"觀察-記憶-理解"的能力,是實現(xiàn)智能機器人的關鍵所在。傳統(tǒng)的機器人視覺系統(tǒng)就像一個健忘的觀眾,每次看到新畫面都要從頭開始分析,完全忘記了之前看到的內容。
機器人要在真實世界中工作,就必須具備連續(xù)理解動態(tài)場景的能力。比如一個機器人要學會開門,它需要記住門的初始狀態(tài),理解手柄的位置變化,并預測下一步該怎么操作。這種能力被研究者稱為"序列場景理解",就像我們人類在日常生活中不斷觀察、記憶、預測和行動的過程。
研究團隊發(fā)現(xiàn),現(xiàn)有的機器學習方法主要存在兩個問題。第一個問題是,大部分方法只能處理靜態(tài)圖片,就像讓一個從沒見過電影的人僅僅通過幾張截圖來理解整部電影的故事情節(jié),這顯然是不夠的。第二個問題是,即使是那些聲稱能處理動態(tài)場景的方法,實際效果也很有限,因為它們往往只是簡單地比較前后兩幀畫面的差異,而沒有真正理解場景變化的深層含義。
為了解決這些問題,研究團隊開發(fā)了一種巧妙的"瓶頸令牌"機制。這個機制的工作原理就像一個經驗豐富的偵探在案發(fā)現(xiàn)場的工作過程。當偵探到達現(xiàn)場時,他會仔細觀察每一個細節(jié),然后將所有重要線索壓縮成一份簡潔但信息豐富的案件摘要。接下來,當新的線索出現(xiàn)時,偵探會結合這份摘要和新線索來推斷事件的發(fā)展。
具體來說,ToBo方法包含兩個關鍵步驟:壓縮步驟和擴展步驟。在壓縮步驟中,系統(tǒng)會觀察一個參考場景(比如門的初始狀態(tài)),然后將所有重要的視覺信息壓縮成一個被稱為"瓶頸令牌"的數據包。這個令牌就像一個高度濃縮的記憶膠囊,包含了理解當前情況所需的所有關鍵信息。在擴展步驟中,系統(tǒng)會接收目標場景的少量視覺信息(比如只看到門把手的一小部分),然后結合瓶頸令牌中的記憶來預測完整的目標場景應該是什么樣子。
這種設計的巧妙之處在于,通過故意限制目標場景的可見信息,系統(tǒng)被迫高度依賴瓶頸令牌中存儲的知識。這就像要求一個學生僅僅根據考試題目的前幾個字和之前學過的知識來完成整道題目,這樣的訓練會迫使學生真正理解和記住課程內容的精髓。
研究團隊在多個不同的環(huán)境中測試了這種方法的效果。他們讓機器人學習各種復雜的操作任務,比如在Franka Kitchen環(huán)境中開門、開燈、開微波爐等。結果顯示,使用ToBo方法訓練的機器人在幾乎所有任務上都大幅超越了傳統(tǒng)方法。以開燈任務為例,傳統(tǒng)方法的成功率只有大約55%,而ToBo方法的成功率達到了82%,提升了近27個百分點。
更令人印象深刻的是,研究團隊還在真實的物理機器人上測試了這種方法。他們設計了三個真實世界的任務:開柜門、關抽屜和疊杯子。在開柜門這個對精確度要求很高的任務中,傳統(tǒng)方法幾乎完全失敗,成功率接近0%,而ToBo方法卻達到了65%的成功率。這個結果特別重要,因為真實世界的操作比模擬環(huán)境要復雜得多,涉及光線變化、物體磨損、操作誤差等各種不確定因素。
為了驗證方法的通用性,研究團隊還在視頻標簽傳播任務上進行了測試。這類任務要求系統(tǒng)能夠跟蹤視頻中物體或人物的位置變化,就像在一段視頻中持續(xù)標記一只貓的位置一樣。實驗結果顯示,ToBo方法在物體跟蹤、身體部位跟蹤和姿態(tài)追蹤等各個方面都表現(xiàn)優(yōu)異,證明了這種方法不僅適用于機器人操作,還能廣泛應用于其他需要時序理解的任務。
研究團隊深入分析了為什么這種方法如此有效。傳統(tǒng)的自監(jiān)督學習方法通常采用對比學習或掩碼重建的策略。對比學習就像讓學生通過比較不同的例子來學習概念,雖然能幫助學生理解事物的相似性和差異性,但在需要精確定位和操作的任務中表現(xiàn)不佳。掩碼重建方法就像讓學生看一幅被部分遮擋的圖片然后猜測被遮擋的部分,這種方法在單張圖片上效果不錯,但處理動態(tài)場景時就顯得力不從心。
現(xiàn)有的一些試圖處理動態(tài)場景的方法,如SiamMAE,嘗試通過建立前后幀之間的對應關系來理解時間變化。這就像讓學生比較兩張相似照片找出差異,雖然能發(fā)現(xiàn)變化,但往往無法深入理解變化的意義和后續(xù)發(fā)展趨勢。研究團隊通過實驗發(fā)現(xiàn),這類方法在機器人操作任務上的改進非常有限,有時甚至不如基礎的MAE方法。
相比之下,ToBo方法的核心洞察是:機器人不僅需要識別場景變化,更需要能夠保守地總結觀察到的場景信息,并將這些信息以支持時間推理的方式進行編碼。這就像訓練一個優(yōu)秀的新聞記者,不僅要能觀察到事件的發(fā)展,還要能將復雜的事件濃縮成簡潔而信息豐富的報道,并且這個報道要能幫助讀者理解事件的前因后果和可能的發(fā)展方向。
在技術實現(xiàn)上,ToBo使用了一種特殊的解碼器結構。與之前方法使用復雜的交叉注意力機制不同,ToBo采用了更簡單但更有效的自注意力機制。這種設計確保解碼器在擴展步驟中專注于利用給定的信息,而不會被復雜的交互機制分散注意力。這就像讓一個專注的工程師僅僅依靠手頭的工具和材料來完成任務,而不是提供太多可能造成干擾的選擇。
研究團隊還測試了方法的可擴展性。他們使用不同規(guī)模的視覺變換器模型進行實驗,從小型的ViT-S/16到大型的ViT-L/16。結果顯示,無論模型大小如何,ToBo方法都能持續(xù)帶來顯著的性能提升。這表明這種方法的有效性不依賴于特定的模型規(guī)模,具有良好的泛化能力。
為了進一步驗證方法的優(yōu)勢,研究團隊將ToBo與最近流行的機器人表示學習模型進行了比較。這些模型包括使用基礎模型監(jiān)督的方法(如Theia)、使用語言輔助監(jiān)督的方法(如R3M、MVP、Voltron、MPI)以及其他自監(jiān)督學習方法(如VC-1、data4robotics)。令人驚訝的是,盡管ToBo使用的參數數量更少,訓練數據也更少,且沒有使用任何人工標注的監(jiān)督信號,但它在MetaWorld環(huán)境中達到了最高的性能,甚至超過了那些使用140億標注樣本訓練的大型基礎模型。
這個結果特別有意義,因為它表明有效的學習策略比單純的數據規(guī)模更重要。就像一個聰明的學生通過找到合適的學習方法,可能比那些僅僅依靠大量練習的學生學得更好更快。ToBo方法的成功證明了,通過巧妙的設計讓模型學會真正重要的能力,比簡單地增加數據量或模型規(guī)模更加有效。
研究團隊還進行了細致的消融實驗來驗證設計選擇的合理性。他們特別測試了目標場景掩碼比例的影響。結果發(fā)現(xiàn),當掩碼比例從0.5增加到0.9時,性能持續(xù)改善,這驗證了"極度稀少的目標信息迫使模型高度依賴參考場景記憶"這一核心假設。但當掩碼比例過高(0.95)時,性能開始下降,說明模型仍然需要一些基本線索來進行合理的預測。
在實際應用中,研究團隊展示了ToBo方法在多個具有挑戰(zhàn)性的真實任務中的表現(xiàn)。開柜門任務要求機器人精確地抓取并轉動門把手,這涉及復雜的手眼協(xié)調和力的控制。關抽屜任務需要機器人理解推拉動作的方向和力度。疊杯子任務則要求機器人處理精細的物體操控和空間定位。在這些任務中,ToBo方法都展現(xiàn)出了明顯優(yōu)于傳統(tǒng)方法的性能,證明了其在真實世界應用中的實用價值。
視頻標簽傳播實驗進一步驗證了ToBo方法的通用性。在DAVIS視頻物體分割、VIP視頻部位分割和JHMDB姿態(tài)跟蹤等任務中,ToBo都取得了最佳性能。這些任務雖然與機器人操作在表面上很不相同,但都需要系統(tǒng)能夠理解視覺場景的時間演化,這正是ToBo方法的核心優(yōu)勢所在。
研究團隊還與當前流行的視覺-語言模型進行了比較,包括CLIP、DINOv2、SigLIP等。盡管這些模型使用了大量的人工標注數據和強大的語言監(jiān)督,ToBo方法仍然在機器人任務中表現(xiàn)更優(yōu)。這個結果表明,針對特定應用領域設計的學習方法可能比通用的大型模型更加有效。
從技術角度來看,ToBo方法的成功可以歸因于幾個關鍵因素。首先是保守信息壓縮的思想,即將觀察到的場景信息盡可能完整地保存在瓶頸令牌中。其次是時間推理的嵌入,通過預測任務迫使模型理解場景變化的規(guī)律。最后是適度的信息稀缺性,通過限制目標場景的可見信息來強化模型對記憶信息的依賴。
這項研究的意義不僅僅在于提出了一個有效的算法,更在于為機器人學習提供了一種新的思路。傳統(tǒng)的方法往往專注于提高模型的表達能力或增加訓練數據,而ToBo方法則從學習機制的角度入手,通過巧妙的任務設計來引導模型學會真正有用的能力。這種"以終為始"的設計思路可能會對未來的機器人學習研究產生深遠影響。
當然,這項研究也存在一些局限性。目前的實驗主要集中在相對簡單的操作任務上,對于更復雜的多步驟任務或需要長期規(guī)劃的任務,方法的有效性還需要進一步驗證。此外,瓶頸令牌的信息容量是有限的,對于信息量特別大的場景,如何有效地進行信息壓縮仍然是一個挑戰(zhàn)。
展望未來,這項研究為智能機器人的發(fā)展開辟了新的方向。隨著方法的進一步完善和優(yōu)化,我們可能很快就能看到具備更強學習和適應能力的機器人出現(xiàn)在工廠、醫(yī)院、家庭等各種環(huán)境中。這些機器人將能夠像人類一樣,通過觀察和經驗積累來不斷提高自己的工作能力。
說到底,ToBo方法的核心貢獻在于證明了一個簡單而重要的道理:有效的學習不在于記住更多的細節(jié),而在于學會如何提取和保存最有用的信息。這個洞察不僅對機器人學習有重要意義,對人工智能的其他領域也具有啟發(fā)價值。歸根結底,無論是人類還是機器,真正的智能都來自于能夠從有限的觀察中提取無限的洞察,而ToBo方法正是朝這個目標邁出的重要一步。
Q&A
Q1:瓶頸令牌是什么?它是怎么工作的? A:瓶頸令牌就像一個超級濃縮的記憶膠囊,它把機器人看到的所有重要視覺信息壓縮成一個數據包。當機器人需要做出決策時,它會結合這個記憶膠囊和當前看到的少量新信息來理解整個情況,就像經驗豐富的醫(yī)生僅憑幾個癥狀和過往經驗就能診斷疾病一樣。
Q2:ToBo方法會不會讓機器人變得更聰明? A:確實會讓機器人在理解動態(tài)場景方面更聰明。實驗顯示,使用這種方法的機器人在開門、開燈等任務上的成功率提高了20-40%,在真實世界的復雜任務中表現(xiàn)也明顯更好。它讓機器人具備了類似人類的"觀察-記憶-理解"能力。
Q3:這種方法有什么實際應用?普通人能用到嗎? A:目前主要應用在機器人研究和工業(yè)自動化領域,比如讓工廠機器人學會更復雜的操作。雖然普通人暫時還不能直接使用,但隨著技術發(fā)展,未來的家庭服務機器人、醫(yī)療輔助機器人可能都會采用類似技術,讓它們更能理解和適應我們的日常生活環(huán)境。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據不同問題靈活調整內部專家配置。該方法在數學、編程等任務上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術,實現(xiàn)AI視頻實時流式生成的重大突破。該技術通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質量視頻,延遲僅0.76秒,質量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構建了包含約30000個幾何題目的Euclid30K數據集,使用強化學習方法訓練多個AI模型。實驗結果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎幾何知識對培養(yǎng)AI空間智能的重要價值。