這項(xiàng)來自意大利理工學(xué)院(IIT)和英國阿伯丁大學(xué)聯(lián)合研究團(tuán)隊(duì)的最新研究,剛剛于2025年5月在arXiv預(yù)印本平臺(tái)上發(fā)布。這篇題為《通過空間錨定的合成世界實(shí)現(xiàn)機(jī)器人的具身認(rèn)知》(Towards Embodied Cognition in Robots via Spatially Grounded Synthetic Worlds)的論文由Joel Currie、Gioele Migno、Enrico Piacenti等研究者共同完成,他們提出了一個(gè)令人興奮的新方法,希望教會(huì)機(jī)器人理解"別人看到的世界"是什么樣子。
想象這樣一個(gè)場景:你和朋友坐在餐桌兩側(cè),你說"請遞給我左邊的那杯咖啡"。對于人類來說,朋友會(huì)自然地理解你說的"左邊"是從你的視角出發(fā)的,而不是從他自己的視角。這種能力在人類社交中看似簡單,卻是機(jī)器人至今難以掌握的重要技能,專業(yè)上稱為"視覺視角采納"(Visual Perspective Taking,簡稱VPT)。
研究團(tuán)隊(duì)指出,具備視角轉(zhuǎn)換能力對于機(jī)器人與人類順暢互動(dòng)至關(guān)重要。想一想,如果機(jī)器人助手無法理解"在我左邊的杯子"和"在你左邊的杯子"之間的區(qū)別,它將如何正確執(zhí)行你的指令?這種看似簡單的能力實(shí)際上涉及復(fù)雜的空間認(rèn)知,是機(jī)器人實(shí)現(xiàn)"具身認(rèn)知"(即通過身體與環(huán)境互動(dòng)來理解世界)的關(guān)鍵一步。
現(xiàn)有的機(jī)器人視角采納解決方案通常依賴于復(fù)雜的幾何模型和手工設(shè)計(jì)的視角轉(zhuǎn)換規(guī)則,就像是給機(jī)器人提供一本詳細(xì)的地圖和轉(zhuǎn)向指南。雖然這些方法在受控環(huán)境中有效,但缺乏靈活性和適應(yīng)性,就像只會(huì)按固定路線行駛的自動(dòng)駕駛汽車,一旦遇到地圖上沒有的路況就不知所措。
與此相對,視覺語言模型(VLMs)展現(xiàn)出驚人的靈活性和適應(yīng)能力,就像能夠理解各種場景的通用翻譯器。然而,現(xiàn)有的視覺語言模型在精確的空間推理方面仍然表現(xiàn)不佳,特別是在推斷物體位置、相對方向或特定視角下的關(guān)系時(shí)。這就像一個(gè)能認(rèn)出各種物品的人,卻無法準(zhǔn)確描述它們之間的位置關(guān)系。
研究者認(rèn)為,這些空間推理能力的缺乏并非模型架構(gòu)的固有缺陷,而可能是由于缺少明確將空間關(guān)系與視覺場景聯(lián)系起來的訓(xùn)練數(shù)據(jù)造成的。這就像是試圖教一個(gè)孩子認(rèn)識(shí)方向,但從來沒有給他展示過真實(shí)的空間關(guān)系例子。
為了解決這個(gè)問題,研究團(tuán)隊(duì)提出了一個(gè)概念性框架,旨在訓(xùn)練視覺語言模型執(zhí)行視覺視角采納任務(wù)。作為實(shí)現(xiàn)這一愿景的第一步,他們創(chuàng)建了一個(gè)合成數(shù)據(jù)集,由NVIDIA Omniverse生成,用于空間推理任務(wù)的監(jiān)督學(xué)習(xí)。
數(shù)據(jù)集的每個(gè)實(shí)例都包含三個(gè)關(guān)鍵元素:一個(gè)RGB圖像(就像機(jī)器人的"眼睛"看到的圖像)、一個(gè)自然語言描述(比如"桌上有一個(gè)紅色立方體")、以及一個(gè)真實(shí)的4×4變換矩陣,代表物體相對于相機(jī)的精確位置姿態(tài)。這有點(diǎn)像給機(jī)器人同時(shí)提供一張照片、照片的文字描述,以及物體的準(zhǔn)確坐標(biāo)和方向。
當(dāng)前的研究專注于推斷Z軸距離(即物體到相機(jī)的遠(yuǎn)近距離)這一基礎(chǔ)能力,研究者計(jì)劃在未來將其擴(kuò)展到完整的六自由度(6 DOF)推理,包括物體的所有可能位置和旋轉(zhuǎn)角度。這就像是先教會(huì)孩子判斷物體的遠(yuǎn)近,然后再教他理解物體的左右、上下以及旋轉(zhuǎn)方向。
研究團(tuán)隊(duì)設(shè)計(jì)的概念性流程包括三個(gè)關(guān)鍵階段:首先,從圖像和文本輸入估計(jì)物體姿態(tài),得到一個(gè)變換矩陣;其次,推斷代理(如另一個(gè)機(jī)器人或人類)與相機(jī)之間的相對視角變換;最后,通過變換組合進(jìn)行視角映射,得出從代理視角看到的物體姿態(tài)。通過這種結(jié)構(gòu)化的空間監(jiān)督方式,研究者希望推動(dòng)能夠執(zhí)行具身認(rèn)知任務(wù)的機(jī)器人發(fā)展,如視角采納、空間推理和視角不變的物體理解。
團(tuán)隊(duì)將他們創(chuàng)建的合成數(shù)據(jù)集公開發(fā)布在Hugging Face平臺(tái)上,任何人都可以通過https://huggingface.co/datasets/jwgcurrie/synthetic-distance鏈接訪問,這為進(jìn)一步研究提供了寶貴資源。
這項(xiàng)工作得到了歐盟"下一代歐盟PNRR MUR"資助的"未來人工智能研究"(FAIR)項(xiàng)目的支持,為實(shí)現(xiàn)能夠在人機(jī)交互場景中進(jìn)行空間理解的具身AI系統(tǒng)邁出了關(guān)鍵的第一步。雖然現(xiàn)在的成果還是初步的,但它為未來機(jī)器人能夠真正理解"別人眼中的世界"鋪平了道路,這對實(shí)現(xiàn)自然、直觀的人機(jī)交互至關(guān)重要。
想象未來的機(jī)器人助手不僅能看到世界,還能理解你所看到的世界——當(dāng)你說"請拿那個(gè)靠近你的杯子"時(shí),機(jī)器人能夠準(zhǔn)確理解"靠近你"是從你的視角出發(fā)的空間關(guān)系。這種看似簡單的能力,實(shí)際上是人機(jī)協(xié)作的重要基石,而這項(xiàng)研究正是朝著這個(gè)方向邁出的重要一步。
好文章,需要你的鼓勵(lì)
這項(xiàng)研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機(jī)制,該方法在減少90%參數(shù)的同時(shí)實(shí)現(xiàn)10倍速度提升,在七個(gè)基準(zhǔn)測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強(qiáng)相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應(yīng)性。團(tuán)隊(duì)承諾開源全部代碼,推動(dòng)技術(shù)普及應(yīng)用。
伊利諾伊大學(xué)研究團(tuán)隊(duì)開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復(fù)雜爭議、智能檢索相關(guān)文獻(xiàn)、多角度收集觀點(diǎn)的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動(dòng)構(gòu)建爭議話題的分析框架,識(shí)別不同觀點(diǎn)及其支撐證據(jù),為科學(xué)和政治爭議提供更全面客觀的分析,已在生物醫(yī)學(xué)和國際關(guān)系領(lǐng)域驗(yàn)證有效性。
清華大學(xué)研究團(tuán)隊(duì)首次提出情感認(rèn)知融合網(wǎng)絡(luò)(ECFN),讓AI能像人類一樣理解和表達(dá)情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識(shí)別準(zhǔn)確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達(dá)自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實(shí)現(xiàn)了跨模態(tài)情感融合、動(dòng)態(tài)情感追蹤和個(gè)性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應(yīng)用前景。
哈佛大學(xué)研究團(tuán)隊(duì)通過創(chuàng)新的多智能體強(qiáng)化學(xué)習(xí)方法,讓AI在戰(zhàn)略游戲中學(xué)會(huì)復(fù)雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項(xiàng)突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應(yīng)用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學(xué)習(xí)過程培養(yǎng)真正智能AI的新路徑。