av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 紐約大學最新研究:機器人"想得很美,做得不行"的尷尬現(xiàn)狀被徹底揭露

紐約大學最新研究:機器人"想得很美,做得不行"的尷尬現(xiàn)狀被徹底揭露

2025-06-25 14:54
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-25 14:54 ? 科技行者

這項由紐約大學的Irving Fang、Juexiao Zhang、Shengbang Tong和Chen Feng等研究者完成的重要研究發(fā)表于2025年6月的arXiv預印本平臺(論文編號:arXiv:2506.09930v1),有興趣深入了解的讀者可以通過https://ai4ce.github.io/INT-ACT/ 訪問完整論文和研究代碼。

機器人技術正處在一個有趣的發(fā)展階段?,F(xiàn)在的智能機器人就像是擁有博士學位的大腦卻裝在了三歲孩子身體里的奇怪生物。它們能夠理解復雜的語言指令,知道該做什么,甚至能在腦海中規(guī)劃出完美的行動方案,但一旦開始實際操作,就變得笨手笨腳,經常把簡單的任務搞砸。

近年來,研究人員開發(fā)出了一種叫做"視覺-語言-動作"(VLA)模型的機器人大腦。這種大腦的特別之處在于它結合了三種能力:能看懂周圍環(huán)境的"眼睛",能理解人類語言的"耳朵",以及能控制機器人行動的"手腳"。理論上,這樣的組合應該讓機器人變得非常聰明和靈活,就像一個既能聽懂你說話,又能看懂現(xiàn)場情況,還能準確執(zhí)行任務的完美助手。

然而,紐約大學的研究團隊發(fā)現(xiàn)了一個令人意外的問題。他們設計了一套全面的測試系統(tǒng),叫做INT-ACT,包含了50個不同難度的任務,就像給機器人設置了一個全方位的考試。這些測試涵蓋了三個主要方面:處理沒見過的物體、理解復雜的語言指令,以及在混亂環(huán)境中進行推理。

測試結果揭示了一個有趣而尷尬的現(xiàn)象:機器人們普遍患上了"理想很豐滿,現(xiàn)實很骨感"的毛病。當研究人員要求機器人執(zhí)行一個簡單任務,比如"把胡蘿卜放到盤子上"時,機器人的大腦能夠正確理解這個指令,甚至能夠準確識別出胡蘿卜和盤子的位置。用研究者的話說,機器人展現(xiàn)出了"良好的意圖"。但是,當它真正開始行動時,卻經常在關鍵的執(zhí)行環(huán)節(jié)出現(xiàn)失誤。

這種現(xiàn)象就像是一個廚師知道如何做菜,能夠準確說出每一個步驟,甚至能指出所有食材的位置,但一旦開始動手,就會把鹽當成糖,把油倒成醋。研究團隊將這種現(xiàn)象稱為"意圖-行動差距",這個名字非常形象地描述了機器人當前面臨的核心問題。

研究團隊測試了幾種目前最先進的機器人大腦,包括π0、SpatialVLA、Magma和Octo等模型。這些模型就像不同品牌的智能助手,各有特色,但都存在相似的問題。當面對標準的、訓練時見過的場景時,它們表現(xiàn)得相對不錯。但一旦環(huán)境稍有變化,比如換了個沒見過的物體,或者指令稍微復雜一些,問題就暴露無遺。

為了深入理解這個問題,研究團隊設計了三大類測試場景。第一類是"物體多樣性"測試,就像讓機器人在一個從未去過的商店里購物。機器人需要處理那些在訓練時從未見過的物體,比如用螺母代替胡蘿卜,或者用鍵盤代替盤子。第二類是"語言復雜性"測試,相當于用更自然、更復雜的方式與機器人對話,而不是使用簡單的命令式語言。第三類是"視覺-語言思考"測試,模擬現(xiàn)實世界中常見的混亂和干擾情況。

在物體多樣性測試中,研究人員發(fā)現(xiàn)了一個特別有趣的現(xiàn)象。機器人們在識別新物體方面表現(xiàn)得相當不錯,這得益于它們強大的視覺理解能力。但問題出現(xiàn)在動作執(zhí)行上。比如,當要求機器人把可樂罐放到鍵盤上時,即使機器人能夠正確識別可樂罐和鍵盤,并且知道應該執(zhí)行"放置"動作,但在實際抓取和放置過程中卻經常失敗。更奇怪的是,即使只是改變目標物體而保持源物體不變,比如從"把胡蘿卜放到盤子上"改為"把胡蘿卜放到鍵盤上",機器人的抓取成功率也會發(fā)生顯著變化,這表明高層次的感知和規(guī)劃與低層次的動作控制之間存在脆弱的耦合關系。

語言復雜性測試揭示了另一個令人擔憂的問題?,F(xiàn)在的機器人大腦雖然基于強大的語言模型,理論上應該具備出色的語言理解能力,但在實際應用中卻表現(xiàn)得相當脆弱。當研究人員將簡單的指令"把胡蘿卜放到盤子上"改為更自然的表達"把兔子最喜歡的蔬菜放到盤子上"時,大多數(shù)機器人都出現(xiàn)了明顯的性能下降。這種現(xiàn)象特別令人困惑,因為機器人使用的語言模型在純語言任務中能夠輕松處理這類常識推理問題。

研究團隊還進行了一個有趣的對比實驗。他們直接測試了機器人使用的基礎語言模型PaliGemma,發(fā)現(xiàn)這個模型在純視覺問答任務中表現(xiàn)得相當不錯,能夠正確回答"圖片中兔子最喜歡的蔬菜是什么"這樣的問題。但一旦這個模型被整合到完整的機器人系統(tǒng)中并經過動作數(shù)據(jù)的訓練后,這種語言理解能力就大幅下降了。這就像是一個原本能夠流利對話的人,在學會了一些體力活動后,反而變得不會說話了。

視覺-語言思考測試可能是最接近現(xiàn)實世界挑戰(zhàn)的部分。研究人員在場景中加入了各種干擾物體,模擬日常環(huán)境中的雜亂情況。結果發(fā)現(xiàn),當單獨面對視覺干擾或語言歧義時,機器人還能勉強應對,但當兩種挑戰(zhàn)同時出現(xiàn)時,它們就完全崩潰了。

最典型的例子是橙汁任務。當研究人員要求機器人"把從橙子中榨出的果汁放到盤子上",同時在場景中放置一個真正的橙子作為干擾物時,機器人們普遍出現(xiàn)了混亂。它們不再能夠正確識別橙汁盒,而是錯誤地嘗試抓取橙子。這種現(xiàn)象表明,當語言線索與視覺干擾發(fā)生沖突時,機器人的推理能力會發(fā)生系統(tǒng)性的故障。

研究團隊還發(fā)現(xiàn)了一個有趣的現(xiàn)象:機器人的"錯誤物體嘗試率"會在特定情況下急劇上升。在胡蘿卜任務中,當指令從"把胡蘿卜放到盤子上"變?yōu)?把兔子最喜歡的蔬菜放到盤子上",同時在場景中添加一個玩具兔子時,一些機器人開始錯誤地嘗試抓取兔子而不是胡蘿卜。這表明語言中的常識暗示與視覺線索發(fā)生沖突時,機器人會做出不合理的決策。

這些發(fā)現(xiàn)對于機器人技術的發(fā)展具有重要意義。目前的VLA模型雖然在某些方面表現(xiàn)出色,但它們的泛化能力遠沒有達到預期水平。研究結果表明,簡單地將強大的視覺語言模型與機器人控制系統(tǒng)結合,并不能自動獲得期望的泛化能力。反而,端到端的訓練過程可能會損害原本強大的視覺語言理解能力。

為了驗證這一點,研究團隊進行了額外的實驗。他們嘗試通過在訓練過程中加入更多樣化的語言表達來改善機器人的語言理解能力,這種方法確實在某些方面有所改善,但整體效果仍然有限。這表明問題的根源可能不在于數(shù)據(jù)的多樣性,而在于當前的訓練方法本身。

研究團隊指出,當前VLA模型面臨的核心挑戰(zhàn)是如何在保持強大的感知和推理能力的同時,實現(xiàn)精確的動作控制。這需要在架構設計上進行根本性的創(chuàng)新,而不是簡單地擴大模型規(guī)模或增加訓練數(shù)據(jù)。一些可能的方向包括模塊化設計,將感知、推理和控制分離成相對獨立的組件,或者開發(fā)新的訓練方法來避免端到端訓練對原有能力的損害。

這項研究的另一個重要貢獻是INT-ACT測試套件的開源發(fā)布。這個測試系統(tǒng)為研究社區(qū)提供了一個標準化的評估工具,讓不同的研究團隊能夠在相同的標準下比較各自的成果。測試套件包含了50個精心設計的任務,涵蓋了從簡單的物體操作到復雜的常識推理等各個層面。

研究團隊在設計測試時特別考慮了現(xiàn)實世界的應用需求。他們避免了一些現(xiàn)有基準測試的局限性,比如過于簡化的場景或者不切實際的任務設定。INT-ACT的任務都是基于日常生活中常見的操作,但通過系統(tǒng)性的變化來測試機器人的泛化能力。

測試結果還揭示了不同VLA模型之間的有趣差異。π0模型在大多數(shù)測試中表現(xiàn)最好,特別是在從頭開始訓練的版本。這可能是因為從頭訓練避免了預訓練模型中的一些偏置。SpatialVLA在某些空間推理任務中表現(xiàn)出色,但在語言變化方面較為脆弱。Magma模型由于采用了視覺語言共同訓練的策略,在語言理解方面表現(xiàn)相對較好,但在動作執(zhí)行上仍然存在問題。

研究還發(fā)現(xiàn),模型的大小并不總是決定性因素。一些較小的模型在特定任務上的表現(xiàn)可能比大型模型更好,這表明架構設計和訓練策略可能比純粹的規(guī)模擴展更重要。這為未來的研究提供了有價值的啟示:與其盲目追求更大的模型,不如專注于設計更合理的架構和訓練方法。

從技術實現(xiàn)的角度來看,這項研究采用了嚴格的實驗設計。所有測試都在ManiSkill2仿真環(huán)境中進行,這個環(huán)境被設計得盡可能接近現(xiàn)實世界的物理特性。每個任務都進行了多次重復實驗,確保結果的可靠性。研究團隊還引入了新的評估指標,特別是"意圖正確率",這個指標能夠區(qū)分感知推理能力和動作執(zhí)行能力,為分析模型的問題提供了更細粒度的工具。

這項研究的局限性也值得注意。由于所有實驗都在仿真環(huán)境中進行,結果能否完全適用于真實世界的機器人還需要進一步驗證。此外,測試主要基于BridgeV2數(shù)據(jù)集和相應的機器人配置,擴展到更多樣的機器人平臺可能會帶來新的挑戰(zhàn)和發(fā)現(xiàn)。

盡管如此,這項研究為機器人技術的發(fā)展提供了重要的指導意義。它不僅揭示了當前技術的局限性,更重要的是為未來的改進指明了方向。研究結果表明,要實現(xiàn)真正通用的機器人助手,我們還需要在感知-推理-行動的整合方面進行更多的基礎性研究。

從更廣闊的視角來看,這項研究反映了人工智能領域的一個普遍現(xiàn)象:將不同的AI能力有效整合仍然是一個巨大的挑戰(zhàn)。雖然我們在各個單獨領域都取得了令人矚目的進展,但將這些能力組合成一個協(xié)調工作的整體系統(tǒng)仍然困難重重。這不僅是技術問題,也是我們對智能本質理解的反映。

研究團隊的發(fā)現(xiàn)也為產業(yè)界提供了重要啟示。當前許多公司都在積極開發(fā)服務機器人和工業(yè)機器人,這項研究的結果提醒我們,僅僅擁有先進的AI算法是不夠的,如何將這些算法有效地轉化為可靠的實際行動能力,仍然需要大量的研究和開發(fā)工作。

說到底,這項研究用科學的方法驗證了一個樸素的直覺:知道怎么做和真正做好是兩回事。就像一個理論上的游泳高手跳進水里可能仍然會嗆水一樣,現(xiàn)在的智能機器人雖然在紙面上看起來很完美,但在實際操作中仍然問題重重。

這并不意味著我們應該對機器人技術的前景感到悲觀。相反,準確地識別和理解這些問題是解決它們的第一步。正如研究團隊所指出的,當前的VLA模型已經在某些方面表現(xiàn)出了令人驚喜的能力,特別是在理解復雜場景和語言指令方面。問題的關鍵在于如何將這些能力更好地轉化為可靠的行動。

這項研究也提醒我們,在評估AI系統(tǒng)時需要更加全面和細致的方法。傳統(tǒng)的評估往往關注整體性能,但這項研究表明,分別評估不同能力組件(如感知、推理、行動)可能更有助于理解系統(tǒng)的真實能力和局限性。這種分析方法不僅適用于機器人技術,也可能對其他AI應用領域產生啟發(fā)。

未來的機器人技術發(fā)展可能需要更多跨學科的合作。單純的計算機科學方法可能不足以解決感知-行動整合的復雜問題,需要結合認知科學、神經科學、甚至哲學的見解來理解智能行為的本質。這項研究為這種跨學科對話提供了一個具體的出發(fā)點。

研究團隊承諾將繼續(xù)改進和擴展INT-ACT測試套件,包括增加更多類型的任務、支持更多機器人平臺,以及開發(fā)自動生成新測試場景的工具。這將為整個研究社區(qū)提供持續(xù)的支持,推動機器人技術向更實用的方向發(fā)展。

有興趣進一步了解這項研究細節(jié)或使用INT-ACT測試套件的讀者,可以訪問項目主頁https://ai4ce.github.io/INT-ACT/ 獲取完整的代碼和數(shù)據(jù)。這種開放的研究方式體現(xiàn)了現(xiàn)代科學合作的精神,也將加速整個領域的進步。

Q&A

Q1:什么是"意圖-行動差距"?這個問題嚴重嗎? A:意圖-行動差距是指機器人能夠正確理解任務要求并識別相關物體(有好的意圖),但在實際執(zhí)行動作時卻經常失敗的現(xiàn)象。這個問題相當嚴重,因為它表明當前的智能機器人雖然"腦子很聰明",但"手腳不聽使喚",嚴重限制了它們在現(xiàn)實世界中的實用性。

Q2:為什么機器人會在語言理解上出現(xiàn)退步? A:研究發(fā)現(xiàn),當強大的語言模型被整合到機器人系統(tǒng)中并進行端到端訓練時,原本優(yōu)秀的語言理解能力會發(fā)生退化。這就像一個原本會說話的人在學習體力活動后反而不會說話了。問題可能出在當前的訓練方法上,需要開發(fā)新的架構設計來避免這種能力損失。

Q3:INT-ACT測試套件有什么特別之處? A:INT-ACT是首個專門設計來全面評估機器人泛化能力的測試系統(tǒng),包含50個精心設計的任務,涵蓋物體識別、語言理解和復雜推理三大類挑戰(zhàn)。與以往測試不同,它不僅評估整體性能,還能分別測量機器人的"意圖正確率"和"動作執(zhí)行率",幫助研究者精確定位問題所在。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-