機(jī)器人要想真正融入我們的日常生活,有一個(gè)看似簡(jiǎn)單但實(shí)際復(fù)雜的能力至關(guān)重要:理解人類的指令并在現(xiàn)實(shí)環(huán)境中執(zhí)行相應(yīng)任務(wù)。比如當(dāng)你對(duì)家用機(jī)器人說(shuō)"把桌上的水果整理到果盤里"時(shí),機(jī)器人不僅要理解你的意圖,還要知道桌面應(yīng)該如何布置才能完成這個(gè)任務(wù)。然而,傳統(tǒng)的機(jī)器人訓(xùn)練方法在這個(gè)環(huán)節(jié)遇到了巨大瓶頸。
這項(xiàng)由上海交通大學(xué)的郝錦坤、上海人工智能實(shí)驗(yàn)室的梁乃富和許旭東等研究人員組成的團(tuán)隊(duì)在2025年9月發(fā)表的研究,首次提出了一個(gè)革命性的解決方案。該論文發(fā)表在計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議上,論文編號(hào)為arXiv:2509.22281v1,為機(jī)器人訓(xùn)練開辟了全新道路。
傳統(tǒng)機(jī)器人訓(xùn)練就像教孩子做家務(wù),需要先準(zhǔn)備好各種練習(xí)場(chǎng)景。想象你要教孩子整理房間,就得先布置一個(gè)亂糟糟的房間供他練習(xí)。同樣,訓(xùn)練機(jī)器人執(zhí)行桌面任務(wù)時(shí),研究人員需要手工設(shè)計(jì)無(wú)數(shù)個(gè)桌面場(chǎng)景,或者完全隨機(jī)擺放物品。這種方法不僅耗時(shí)耗力,更重要的是很難確保這些練習(xí)場(chǎng)景真的符合實(shí)際任務(wù)需求。就好比你想教孩子整理書桌,但給他的練習(xí)場(chǎng)景卻是廚房臺(tái)面的布局,效果自然大打折扣。
研究團(tuán)隊(duì)意識(shí)到,問(wèn)題的關(guān)鍵在于如何讓計(jì)算機(jī)直接從高層次的任務(wù)指令生成合適的桌面場(chǎng)景。這就像要求一個(gè)室內(nèi)設(shè)計(jì)師僅憑客戶的簡(jiǎn)單要求"我想要一個(gè)適合工作的書桌",就能直接設(shè)計(jì)出完美的桌面布局。這個(gè)看似不可能的任務(wù),正是研究團(tuán)隊(duì)要解決的核心問(wèn)題。
為了攻克這個(gè)難題,研究團(tuán)隊(duì)做了兩件開創(chuàng)性的工作。首先,他們構(gòu)建了一個(gè)名為MesaTask-10K的大規(guī)模數(shù)據(jù)集,包含約10700個(gè)精心設(shè)計(jì)的桌面場(chǎng)景。這個(gè)數(shù)據(jù)集就像一個(gè)巨大的"桌面布局百科全書",涵蓋了辦公桌、餐桌、廚房臺(tái)面、咖啡桌、洗手臺(tái)和化妝臺(tái)等六種常見(jiàn)室內(nèi)桌面類型。更重要的是,這些場(chǎng)景都是由專業(yè)人員手工精調(diào)的,確保每個(gè)布局都真實(shí)可信且符合物理常識(shí)。
數(shù)據(jù)集的構(gòu)建過(guò)程頗具創(chuàng)新性。研究團(tuán)隊(duì)首先使用大型語(yǔ)言模型生成多樣化的桌面場(chǎng)景描述,然后利用先進(jìn)的文本生成圖像模型創(chuàng)建參考圖片。接下來(lái),他們通過(guò)深度估計(jì)和物體檢測(cè)技術(shù)從圖片中提取粗略的三維布局,最后由專業(yè)標(biāo)注人員進(jìn)行精細(xì)調(diào)整。這個(gè)過(guò)程就像先用AI畫出桌面的草圖,再由專業(yè)設(shè)計(jì)師精心雕琢每個(gè)細(xì)節(jié),確保最終效果既美觀又實(shí)用。
這個(gè)數(shù)據(jù)集的規(guī)模和質(zhì)量都達(dá)到了前所未有的水平。它包含超過(guò)12000個(gè)不同的三維物體模型,涵蓋200多種物體類別,每個(gè)桌面場(chǎng)景平均包含15個(gè)物體。更令人印象深刻的是,這些場(chǎng)景展現(xiàn)了復(fù)雜的物體間關(guān)系,比如杯子里裝著水果,書本疊放在一起,這些細(xì)節(jié)都被精確地建模和標(biāo)注。
但僅有數(shù)據(jù)還不夠,研究團(tuán)隊(duì)還開發(fā)了一個(gè)名為MesaTask的智能框架來(lái)實(shí)現(xiàn)從任務(wù)指令到桌面場(chǎng)景的自動(dòng)生成。這個(gè)框架的核心創(chuàng)新在于提出了"空間推理鏈"的概念,將復(fù)雜的生成過(guò)程分解為三個(gè)相互關(guān)聯(lián)的步驟:物體推理、空間關(guān)系推理和場(chǎng)景圖構(gòu)建。
空間推理鏈的工作原理就像一個(gè)經(jīng)驗(yàn)豐富的管家在準(zhǔn)備一場(chǎng)聚餐。當(dāng)主人說(shuō)"準(zhǔn)備一個(gè)輕松的下午茶場(chǎng)景"時(shí),管家首先會(huì)思考需要哪些物品:茶具、點(diǎn)心盤、餐具、鮮花等(物體推理)。然后考慮這些物品應(yīng)該如何擺放:茶壺應(yīng)該在中央便于倒茶,點(diǎn)心盤應(yīng)該在客人容易取用的位置,鮮花作為裝飾可以放在角落(空間關(guān)系推理)。最后,管家會(huì)在腦中形成一個(gè)完整的布局圖(場(chǎng)景圖構(gòu)建),指導(dǎo)實(shí)際的擺放工作。
在技術(shù)實(shí)現(xiàn)上,MesaTask框架基于大型語(yǔ)言模型構(gòu)建,通過(guò)監(jiān)督微調(diào)的方式讓模型學(xué)會(huì)空間推理能力。研究團(tuán)隊(duì)發(fā)現(xiàn),僅僅進(jìn)行監(jiān)督學(xué)習(xí)還不夠完美,模型有時(shí)會(huì)生成物體碰撞或與任務(wù)不符的場(chǎng)景。為了解決這個(gè)問(wèn)題,他們引入了直接偏好優(yōu)化技術(shù),通過(guò)對(duì)比好壞場(chǎng)景的差異,進(jìn)一步提升模型的表現(xiàn)。
這種優(yōu)化過(guò)程就像訓(xùn)練一個(gè)室內(nèi)設(shè)計(jì)師。最初,設(shè)計(jì)師可能會(huì)犯一些小錯(cuò)誤,比如把椅子擺得太近導(dǎo)致無(wú)法移動(dòng),或者忘記放置任務(wù)必需的物品。通過(guò)不斷的反饋和修正,設(shè)計(jì)師逐漸學(xué)會(huì)避免這些錯(cuò)誤,最終能夠生成既美觀又實(shí)用的桌面布局。
為了全面評(píng)估MesaTask的性能,研究團(tuán)隊(duì)設(shè)計(jì)了多維度的評(píng)估指標(biāo)。除了傳統(tǒng)的圖像質(zhì)量指標(biāo),他們還開發(fā)了基于大型視覺(jué)語(yǔ)言模型的評(píng)分系統(tǒng),從任務(wù)一致性、物體尺寸合理性、擺放可信度、布局連貫性和物體可見(jiàn)性等五個(gè)維度對(duì)生成的場(chǎng)景進(jìn)行打分。這就像聘請(qǐng)多位專業(yè)評(píng)委從不同角度評(píng)價(jià)一件藝術(shù)作品的質(zhì)量。
實(shí)驗(yàn)結(jié)果令人振奮。在與現(xiàn)有方法的對(duì)比中,MesaTask在所有評(píng)估指標(biāo)上都取得了顯著優(yōu)勢(shì)。特別值得一提的是,該方法生成的場(chǎng)景在任務(wù)一致性和布局連貫性方面表現(xiàn)突出,這正是實(shí)際應(yīng)用中最關(guān)鍵的兩個(gè)指標(biāo)。研究團(tuán)隊(duì)還通過(guò)用戶研究驗(yàn)證了這一點(diǎn),127名參與者從視覺(jué)質(zhì)量、任務(wù)匹配度和空間合理性三個(gè)維度對(duì)不同方法生成的場(chǎng)景進(jìn)行評(píng)分,MesaTask獲得了最高的綜合評(píng)價(jià)。
更令人驚喜的是,MesaTask展現(xiàn)出了強(qiáng)大的泛化能力。當(dāng)研究團(tuán)隊(duì)用它來(lái)生成訓(xùn)練時(shí)未見(jiàn)過(guò)的桌面類型,如收銀臺(tái)、電視柜和床頭柜等場(chǎng)景時(shí),系統(tǒng)依然能夠產(chǎn)生高質(zhì)量的結(jié)果。這表明該方法學(xué)到的不是簡(jiǎn)單的模式記憶,而是真正的空間推理能力。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)突破本身。在機(jī)器人技術(shù)快速發(fā)展的今天,如何讓機(jī)器人更好地理解和適應(yīng)人類的工作生活環(huán)境是一個(gè)核心挑戰(zhàn)。MesaTask為這個(gè)問(wèn)題提供了一個(gè)全新的解決思路:與其依賴人工設(shè)計(jì)或隨機(jī)生成訓(xùn)練場(chǎng)景,不如讓AI直接從任務(wù)需求出發(fā),生成最適合的環(huán)境布局。
從實(shí)際應(yīng)用角度來(lái)看,這項(xiàng)技術(shù)可能會(huì)深刻改變機(jī)器人的訓(xùn)練方式。以往訓(xùn)練一個(gè)家用機(jī)器人可能需要在實(shí)體環(huán)境中進(jìn)行大量試錯(cuò),成本高昂且效率低下。有了MesaTask,研究人員可以根據(jù)具體任務(wù)快速生成大量多樣化的訓(xùn)練場(chǎng)景,大大加速機(jī)器人的學(xué)習(xí)過(guò)程。
此外,這項(xiàng)技術(shù)還可能在虛擬現(xiàn)實(shí)、游戲開發(fā)、室內(nèi)設(shè)計(jì)等領(lǐng)域找到應(yīng)用。比如,游戲開發(fā)者可以利用類似技術(shù)根據(jù)劇情需要自動(dòng)生成逼真的室內(nèi)場(chǎng)景,室內(nèi)設(shè)計(jì)師可以快速為客戶生成多種布局方案供選擇。
當(dāng)然,目前的研究還存在一些局限性。MesaTask主要專注于六種常見(jiàn)的室內(nèi)桌面類型,對(duì)于更多樣化的環(huán)境支持還有待擴(kuò)展。另外,系統(tǒng)依賴于現(xiàn)有的三維物體數(shù)據(jù)庫(kù),物體的多樣性仍然受到一定限制。研究團(tuán)隊(duì)已經(jīng)在論文中提出了未來(lái)的改進(jìn)方向,包括集成三維物體生成技術(shù)以支持更豐富的物體類型。
從技術(shù)發(fā)展的更大視角來(lái)看,這項(xiàng)研究代表了人工智能從簡(jiǎn)單的模式識(shí)別向復(fù)雜空間推理能力的重要進(jìn)步。讓計(jì)算機(jī)理解空間關(guān)系并進(jìn)行合理的三維布局規(guī)劃,這在以往是人類獨(dú)有的能力。MesaTask的成功表明,通過(guò)合適的數(shù)據(jù)和方法設(shè)計(jì),AI系統(tǒng)確實(shí)可以獲得這種高級(jí)認(rèn)知能力。
這種空間推理能力的突破也為更廣泛的AI應(yīng)用鋪平了道路。未來(lái)的智能系統(tǒng)可能不僅能理解語(yǔ)言和圖像,還能理解和操作三維空間,這將大大擴(kuò)展AI的應(yīng)用范圍。從自動(dòng)駕駛汽車的路徑規(guī)劃到建筑設(shè)計(jì)的自動(dòng)化,空間推理能力都將發(fā)揮關(guān)鍵作用。
研究團(tuán)隊(duì)在論文中詳細(xì)介紹了數(shù)據(jù)集構(gòu)建的技術(shù)細(xì)節(jié)。他們使用GPT-4o等先進(jìn)模型對(duì)三維物體進(jìn)行語(yǔ)義標(biāo)注,包括類別、描述、是否適合桌面擺放、質(zhì)量、標(biāo)準(zhǔn)朝向等屬性。這種細(xì)致的標(biāo)注為后續(xù)的物體檢索和擺放提供了重要基礎(chǔ)。在場(chǎng)景圖提取方面,研究團(tuán)隊(duì)設(shè)計(jì)了一套基于幾何規(guī)則的方法,能夠自動(dòng)識(shí)別物體間的空間關(guān)系,如左右關(guān)系、前后關(guān)系、包含關(guān)系等。
為了確保生成場(chǎng)景的物理合理性,研究團(tuán)隊(duì)還將所有場(chǎng)景導(dǎo)入IsaacSim物理仿真器進(jìn)行驗(yàn)證,自動(dòng)排除存在物體碰撞的不合理布局。這種嚴(yán)格的質(zhì)量控制確保了數(shù)據(jù)集的高品質(zhì),為模型訓(xùn)練提供了可靠的基礎(chǔ)。
在模型架構(gòu)方面,MesaTask基于Qwen3-8B大型語(yǔ)言模型構(gòu)建,通過(guò)全參數(shù)微調(diào)的方式進(jìn)行訓(xùn)練。研究團(tuán)隊(duì)發(fā)現(xiàn),相比于只訓(xùn)練部分參數(shù),全參數(shù)微調(diào)能夠更好地讓模型掌握空間推理能力。在直接偏好優(yōu)化階段,他們構(gòu)建了包含正負(fù)樣本對(duì)的訓(xùn)練數(shù)據(jù),通過(guò)三種不同的負(fù)樣本生成策略(幾何擾動(dòng)、場(chǎng)景圖損壞、物體移除)來(lái)覆蓋模型可能出現(xiàn)的各種錯(cuò)誤模式。
實(shí)驗(yàn)部分的設(shè)計(jì)也頗為周密。除了與現(xiàn)有方法的定量對(duì)比,研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),驗(yàn)證了空間推理鏈和直接偏好優(yōu)化的有效性。他們發(fā)現(xiàn),去除空間推理鏈會(huì)導(dǎo)致性能顯著下降,說(shuō)明這種結(jié)構(gòu)化的推理過(guò)程確實(shí)是必要的。同樣,去除直接偏好優(yōu)化也會(huì)影響生成質(zhì)量,特別是在避免物體碰撞和確保任務(wù)相關(guān)性方面。
用戶研究的結(jié)果進(jìn)一步證實(shí)了MesaTask的優(yōu)勢(shì)。127名參與者從視覺(jué)真實(shí)性、任務(wù)匹配度和空間合理性三個(gè)維度對(duì)不同方法生成的場(chǎng)景進(jìn)行了盲評(píng),MesaTask在所有維度都獲得了最高評(píng)分。這種一致性的優(yōu)勢(shì)表明,該方法的改進(jìn)不是針對(duì)某個(gè)特定方面,而是全面的質(zhì)量提升。
說(shuō)到底,這項(xiàng)研究最大的價(jià)值在于它提出了一個(gè)全新的研究范式。以往的場(chǎng)景生成研究主要關(guān)注視覺(jué)效果,而MesaTask將重點(diǎn)轉(zhuǎn)向了功能性和任務(wù)導(dǎo)向。這種轉(zhuǎn)變反映了AI研究從追求感官效果向追求實(shí)用價(jià)值的重要趨勢(shì)。機(jī)器人技術(shù)的最終目標(biāo)是服務(wù)人類,因此生成的場(chǎng)景不僅要看起來(lái)真實(shí),更要能夠支持實(shí)際的任務(wù)執(zhí)行。
歸根結(jié)底,MesaTask代表了人工智能向更高層次推理能力的重要邁進(jìn)。它不僅解決了機(jī)器人訓(xùn)練中的一個(gè)具體問(wèn)題,更重要的是展示了AI系統(tǒng)理解和生成復(fù)雜三維空間布局的可能性。隨著這類技術(shù)的不斷發(fā)展和完善,我們有理由期待在不遠(yuǎn)的將來(lái),智能機(jī)器人將能夠更好地理解我們的指令,在我們的生活空間中發(fā)揮更大的作用。
對(duì)于普通人來(lái)說(shuō),這項(xiàng)技術(shù)的成功意味著家用機(jī)器人的能力將得到顯著提升。未來(lái)的智能助手可能真正理解"整理一下客廳"或"準(zhǔn)備晚餐桌"這樣的指令,并知道如何合理安排物品布局。這不僅會(huì)讓人機(jī)交互變得更加自然,也會(huì)讓機(jī)器人在家庭環(huán)境中發(fā)揮更大的實(shí)用價(jià)值。同時(shí),這項(xiàng)技術(shù)的成功也為相關(guān)領(lǐng)域的研究者提供了寶貴的經(jīng)驗(yàn)和啟發(fā),必將推動(dòng)整個(gè)智能機(jī)器人領(lǐng)域的進(jìn)一步發(fā)展。
Q&A
Q1:MesaTask-10K數(shù)據(jù)集包含什么內(nèi)容?規(guī)模有多大?
A:MesaTask-10K是一個(gè)大規(guī)模桌面場(chǎng)景數(shù)據(jù)集,包含約10700個(gè)手工精調(diào)的三維桌面場(chǎng)景,覆蓋辦公桌、餐桌、廚房臺(tái)面、咖啡桌、洗手臺(tái)和化妝臺(tái)六種常見(jiàn)室內(nèi)桌面類型。數(shù)據(jù)集使用了超過(guò)12000個(gè)不同的三維物體模型,涵蓋200多種物體類別,每個(gè)場(chǎng)景平均包含15個(gè)物體,展現(xiàn)了疊放、包含等復(fù)雜的物體間關(guān)系。
Q2:MesaTask框架是如何從任務(wù)指令生成桌面場(chǎng)景的?
A:MesaTask框架采用"空間推理鏈"的方法,將生成過(guò)程分為三個(gè)步驟:首先進(jìn)行物體推理,確定任務(wù)需要哪些物品;然后進(jìn)行空間關(guān)系推理,判斷物品之間的擺放關(guān)系;最后構(gòu)建場(chǎng)景圖,生成完整的三維布局。整個(gè)過(guò)程基于大型語(yǔ)言模型,通過(guò)監(jiān)督微調(diào)和直接偏好優(yōu)化技術(shù)來(lái)提升生成質(zhì)量,確保場(chǎng)景既符合任務(wù)要求又物理合理。
Q3:這項(xiàng)技術(shù)在實(shí)際應(yīng)用中有什么意義?
A:這項(xiàng)技術(shù)將顯著改變機(jī)器人的訓(xùn)練方式,研究人員可以根據(jù)具體任務(wù)快速生成大量多樣化的訓(xùn)練場(chǎng)景,大大加速機(jī)器人學(xué)習(xí)過(guò)程,降低訓(xùn)練成本。對(duì)普通人而言,意味著未來(lái)的家用機(jī)器人將能更好地理解"整理客廳"等指令,知道如何合理安排物品布局。此外,該技術(shù)還可應(yīng)用于虛擬現(xiàn)實(shí)、游戲開發(fā)、室內(nèi)設(shè)計(jì)等領(lǐng)域。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問(wèn)題偏愛(ài)不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。