當(dāng)你在一個(gè)陌生的大型商場(chǎng)里尋找洗手間時(shí),你可能會(huì)先按照指示牌的方向走,但如果走錯(cuò)了路,你會(huì)根據(jù)之前的經(jīng)驗(yàn)調(diào)整策略,選擇更好的路線?,F(xiàn)在,來(lái)自上海AI實(shí)驗(yàn)室、北卡羅來(lái)納大學(xué)教堂山分校、復(fù)旦大學(xué)、阿德萊德大學(xué)和南京大學(xué)的研究團(tuán)隊(duì)開(kāi)發(fā)出了一套名為SID(Self-Improving Demonstrations,自我改進(jìn)演示)的智能導(dǎo)航系統(tǒng),這套系統(tǒng)就像一個(gè)會(huì)不斷從自己的經(jīng)驗(yàn)中學(xué)習(xí)的機(jī)器人導(dǎo)航專(zhuān)家。這項(xiàng)研究成果發(fā)表于2025年,論文編號(hào)為arXiv:2509.24910v1,為智能機(jī)器人的目標(biāo)導(dǎo)向?qū)Ш侥芰?lái)了重大突破。
這項(xiàng)研究解決的是一個(gè)看似簡(jiǎn)單卻極其復(fù)雜的問(wèn)題:如何讓機(jī)器人在完全陌生的環(huán)境中,僅僅根據(jù)一個(gè)簡(jiǎn)單的目標(biāo)描述(比如"幫我拿廚房里的勺子"),就能自主探索并準(zhǔn)確找到目標(biāo)物品。傳統(tǒng)的機(jī)器人導(dǎo)航系統(tǒng)往往依賴(lài)于詳細(xì)的逐步指令,就像GPS導(dǎo)航會(huì)告訴你"前行200米后左轉(zhuǎn)"一樣。但在現(xiàn)實(shí)生活中,人們更習(xí)慣給出簡(jiǎn)單的目標(biāo)描述,比如"去客廳拿遙控器",而不會(huì)詳細(xì)描述每一個(gè)轉(zhuǎn)彎和每一步行走路線。
研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的導(dǎo)航系統(tǒng)存在一個(gè)根本性缺陷:它們主要學(xué)習(xí)最短路徑,就像只會(huì)走直線的學(xué)生,缺乏真正的探索能力。當(dāng)機(jī)器人遇到復(fù)雜環(huán)境時(shí),往往會(huì)因?yàn)槿狈τ行У奶剿鞑呗远允Х较颉8匾氖?,?xùn)練這些系統(tǒng)需要大量人工標(biāo)注的探索軌跡數(shù)據(jù),這不僅成本高昂,而且難以大規(guī)模獲取。
SID系統(tǒng)的創(chuàng)新之處在于,它能夠像人類(lèi)一樣從自己的成功經(jīng)驗(yàn)中學(xué)習(xí)。系統(tǒng)首先在基礎(chǔ)的最短路徑數(shù)據(jù)上進(jìn)行初始訓(xùn)練,然后利用這個(gè)初始模型去探索環(huán)境,生成新的導(dǎo)航軌跡。關(guān)鍵是,系統(tǒng)只保留那些成功到達(dá)目標(biāo)的探索路徑,并用這些"成功案例"來(lái)訓(xùn)練下一代的導(dǎo)航模型。這就像一個(gè)學(xué)生通過(guò)不斷練習(xí)和總結(jié)成功經(jīng)驗(yàn)來(lái)提高自己的能力,每一次的成功都會(huì)讓下一次的表現(xiàn)更好。
這個(gè)自我改進(jìn)的循環(huán)過(guò)程可以持續(xù)進(jìn)行多輪。在每一輪中,更強(qiáng)的導(dǎo)航模型會(huì)生成質(zhì)量更高的探索軌跡,而這些軌跡又會(huì)被用來(lái)訓(xùn)練更加強(qiáng)大的模型。研究團(tuán)隊(duì)在實(shí)驗(yàn)中發(fā)現(xiàn),這種迭代過(guò)程能夠帶來(lái)持續(xù)的性能提升,就像滾雪球一樣越滾越大。
一、核心技術(shù)原理:機(jī)器人如何學(xué)會(huì)自主探索
SID系統(tǒng)的工作原理可以用學(xué)習(xí)駕駛來(lái)類(lèi)比。剛開(kāi)始學(xué)車(chē)時(shí),新手司機(jī)只能按照教練的指示進(jìn)行基本操作,走最簡(jiǎn)單、最直接的路線。但隨著經(jīng)驗(yàn)的積累,司機(jī)開(kāi)始能夠根據(jù)路況選擇更合適的路線,甚至在遇到堵車(chē)時(shí)能夠靈活地繞道而行。
SID系統(tǒng)采用了類(lèi)似的學(xué)習(xí)策略。系統(tǒng)首先在Matterport3D環(huán)境中進(jìn)行基礎(chǔ)訓(xùn)練,這是一個(gè)包含真實(shí)室內(nèi)場(chǎng)景的3D數(shù)據(jù)庫(kù)。研究團(tuán)隊(duì)從這些環(huán)境中采樣了超過(guò)18萬(wàn)條長(zhǎng)度在5到7個(gè)導(dǎo)航點(diǎn)之間的路徑作為初始訓(xùn)練數(shù)據(jù)。每個(gè)導(dǎo)航點(diǎn)都包含一個(gè)360度全景觀察,由36張圖像組成,最終生成了超過(guò)600萬(wàn)個(gè)視覺(jué)目標(biāo)軌跡對(duì)。
在基礎(chǔ)訓(xùn)練完成后,系統(tǒng)開(kāi)始了自我改進(jìn)的核心環(huán)節(jié)。訓(xùn)練好的導(dǎo)航智能體會(huì)在同樣的環(huán)境中進(jìn)行自主探索,生成新的導(dǎo)航軌跡。這個(gè)過(guò)程就像讓一個(gè)已經(jīng)掌握基本技能的機(jī)器人去實(shí)際"練手",通過(guò)真實(shí)的導(dǎo)航嘗試來(lái)積累經(jīng)驗(yàn)。
系統(tǒng)在生成新軌跡時(shí)有嚴(yán)格的篩選標(biāo)準(zhǔn)。只有那些在規(guī)定步數(shù)內(nèi)成功到達(dá)正確目標(biāo)的軌跡才會(huì)被保留。失敗的軌跡,比如走到了錯(cuò)誤的目標(biāo)點(diǎn)或者超出了最大步數(shù)限制,都會(huì)被直接丟棄。這種嚴(yán)格的篩選機(jī)制確保了用于訓(xùn)練的數(shù)據(jù)都是高質(zhì)量的成功案例。
值得注意的是,SID系統(tǒng)在訓(xùn)練時(shí)采用了一種巧妙的策略組合。在微調(diào)階段,系統(tǒng)不僅學(xué)習(xí)自己生成的探索軌跡,還繼續(xù)學(xué)習(xí)原始的最短路徑數(shù)據(jù)。這種策略平衡了探索能力和效率,既保證了系統(tǒng)能夠進(jìn)行有效的探索,又確保它不會(huì)忘記如何走最優(yōu)路徑。
二、突破性改進(jìn):從單一環(huán)境到多環(huán)境擴(kuò)展
當(dāng)SID系統(tǒng)在初始環(huán)境中的性能達(dá)到飽和后,研究團(tuán)隊(duì)實(shí)施了一個(gè)重要的擴(kuò)展策略。他們將訓(xùn)練環(huán)境從60個(gè)Matterport3D場(chǎng)景擴(kuò)展到了包含800個(gè)HM3D(Habitat-Matterport 3D)環(huán)境的大規(guī)模數(shù)據(jù)集。這就像讓一個(gè)已經(jīng)熟悉自己家鄉(xiāng)的人去到更多不同的城市和國(guó)家,通過(guò)更廣泛的經(jīng)歷來(lái)提升整體的導(dǎo)航能力。
這種環(huán)境擴(kuò)展帶來(lái)了顯著的性能提升。實(shí)驗(yàn)數(shù)據(jù)顯示,當(dāng)系統(tǒng)擴(kuò)展到新環(huán)境后,在未見(jiàn)過(guò)的測(cè)試環(huán)境中的成功率從65.45%大幅提升到了75%,同時(shí)路徑效率指標(biāo)SPL也從44.62%提升到了54.67%。這種提升不僅體現(xiàn)了系統(tǒng)的可擴(kuò)展性,更重要的是驗(yàn)證了SID方法在新環(huán)境中繼續(xù)自我改進(jìn)的能力。
研究團(tuán)隊(duì)還進(jìn)行了一個(gè)有趣的對(duì)比實(shí)驗(yàn)。他們將60個(gè)額外的HM3D環(huán)境添加到原有的60個(gè)MP3D環(huán)境中,繼續(xù)進(jìn)行兩輪SID訓(xùn)練。結(jié)果顯示,系統(tǒng)在新環(huán)境中仍然保持了自我改進(jìn)的特性,驗(yàn)證了這種方法在更大規(guī)模數(shù)據(jù)上的有效性。
在環(huán)境擴(kuò)展過(guò)程中,系統(tǒng)生成的軌跡數(shù)量也大幅增加。最終的訓(xùn)練語(yǔ)料包含了超過(guò)9300萬(wàn)條軌跡,平均長(zhǎng)度為9.01個(gè)導(dǎo)航點(diǎn)。這個(gè)龐大的數(shù)據(jù)集成為了系統(tǒng)強(qiáng)大性能的重要基礎(chǔ)。
三、語(yǔ)言理解能力:從圖像目標(biāo)到自然語(yǔ)言指令
SID系統(tǒng)的另一個(gè)重要突破是成功地將圖像目標(biāo)導(dǎo)航能力轉(zhuǎn)移到了自然語(yǔ)言指導(dǎo)的導(dǎo)航任務(wù)中。這個(gè)轉(zhuǎn)換過(guò)程就像教會(huì)一個(gè)只能看圖找東西的機(jī)器人理解人類(lèi)的語(yǔ)言描述。
為了實(shí)現(xiàn)這種轉(zhuǎn)換,研究團(tuán)隊(duì)使用了先進(jìn)的視覺(jué)語(yǔ)言模型InternVL2-26B來(lái)為目標(biāo)圖像生成詳細(xì)的文字描述。他們?cè)O(shè)計(jì)了三種不同風(fēng)格的描述模板:詳細(xì)風(fēng)格、REVERIE風(fēng)格和SOON風(fēng)格,分別對(duì)應(yīng)不同的應(yīng)用場(chǎng)景和描述詳細(xì)程度。
詳細(xì)風(fēng)格的描述會(huì)包含物體的精確位置信息,比如"在門(mén)的左側(cè)有一個(gè)開(kāi)關(guān)",以及環(huán)境上下文信息,如"樓梯連接著客廳和廚房"。這種描述方式為導(dǎo)航系統(tǒng)提供了豐富的視覺(jué)定位線索。
REVERIE風(fēng)格的描述則更注重導(dǎo)航指令的語(yǔ)言特征,包含空間關(guān)系、指代關(guān)系等復(fù)雜的語(yǔ)言現(xiàn)象。而SOON風(fēng)格的描述則專(zhuān)注于物體的屬性和與其他物體的關(guān)系,比如"圓柱形的金屬高臺(tái)燈,位于明亮的客廳中"。
通過(guò)大量實(shí)驗(yàn),研究團(tuán)隊(duì)發(fā)現(xiàn)詳細(xì)風(fēng)格的描述在最終的導(dǎo)航任務(wù)中表現(xiàn)最佳。這可能是因?yàn)樵敿?xì)的描述提供了更多的環(huán)境線索,幫助導(dǎo)航系統(tǒng)更好地理解目標(biāo)和環(huán)境的關(guān)系。
最終,研究團(tuán)隊(duì)生成了超過(guò)4650萬(wàn)條語(yǔ)言目標(biāo)探索軌跡,創(chuàng)建了首個(gè)大規(guī)模的探索策略演示數(shù)據(jù)集。這個(gè)數(shù)據(jù)集填補(bǔ)了目標(biāo)導(dǎo)向?qū)Ш筋I(lǐng)域的一個(gè)重要空白,為未來(lái)的研究提供了寶貴的資源。
四、實(shí)驗(yàn)驗(yàn)證:在多個(gè)任務(wù)中的卓越表現(xiàn)
SID系統(tǒng)在多個(gè)標(biāo)準(zhǔn)導(dǎo)航任務(wù)上都取得了突破性的表現(xiàn)。在SOON(場(chǎng)景導(dǎo)向?qū)ο髮?dǎo)航)任務(wù)中,系統(tǒng)在未見(jiàn)過(guò)的驗(yàn)證集上達(dá)到了50.9%的成功率,比之前的最佳方法提高了13.9個(gè)百分點(diǎn)。這種提升幅度在導(dǎo)航領(lǐng)域是非常顯著的,相當(dāng)于從及格水平躍升到了優(yōu)秀水平。
在REVERIE(遠(yuǎn)程體現(xiàn)視覺(jué)指代表達(dá))任務(wù)中,SID系統(tǒng)同樣表現(xiàn)出色。該任務(wù)要求系統(tǒng)根據(jù)自然語(yǔ)言描述在室內(nèi)環(huán)境中找到特定的物體,這對(duì)系統(tǒng)的語(yǔ)言理解和視覺(jué)定位能力都提出了很高的要求。實(shí)驗(yàn)結(jié)果顯示,SID系統(tǒng)在多個(gè)評(píng)估指標(biāo)上都超越了現(xiàn)有的最先進(jìn)方法。
更重要的是,SID系統(tǒng)生成的軌跡在房間探索能力上表現(xiàn)出了明顯優(yōu)勢(shì)。分析數(shù)據(jù)顯示,相比于使用最短路徑訓(xùn)練的系統(tǒng),SID訓(xùn)練的智能體能夠探索更多的房間(平均4.21個(gè)房間 vs 2.77個(gè)房間),接觸更多樣的房間類(lèi)型(3.05種 vs 2.62種),并且在目標(biāo)房間類(lèi)型上的探索也更加充分(1.38個(gè) vs 1.09個(gè))。
這種探索能力的提升直接反映了SID方法的核心優(yōu)勢(shì):通過(guò)學(xué)習(xí)自己的成功探索經(jīng)驗(yàn),系統(tǒng)不僅學(xué)會(huì)了到達(dá)目標(biāo)的路徑,更重要的是學(xué)會(huì)了如何在復(fù)雜環(huán)境中進(jìn)行有效的探索和錯(cuò)誤糾正。
五、關(guān)鍵創(chuàng)新點(diǎn):自監(jiān)督學(xué)習(xí)的新范式
SID系統(tǒng)的最大創(chuàng)新在于引入了一種全新的自監(jiān)督學(xué)習(xí)范式。傳統(tǒng)的導(dǎo)航系統(tǒng)訓(xùn)練需要大量人工標(biāo)注的探索軌跡,這種方法不僅成本高昂,而且難以擴(kuò)展到大規(guī)模應(yīng)用。SID系統(tǒng)通過(guò)讓智能體從自己的成功經(jīng)驗(yàn)中學(xué)習(xí),徹底改變了這種依賴(lài)人工標(biāo)注的模式。
這種自監(jiān)督學(xué)習(xí)的關(guān)鍵在于成功軌跡的自動(dòng)篩選和利用。系統(tǒng)能夠自動(dòng)識(shí)別哪些探索嘗試是成功的,并將這些成功案例作為下一輪訓(xùn)練的教學(xué)材料。這就像一個(gè)學(xué)生通過(guò)分析自己的成功案例來(lái)總結(jié)學(xué)習(xí)方法,不斷提高自己的能力。
另一個(gè)重要?jiǎng)?chuàng)新是SID系統(tǒng)的迭代改進(jìn)機(jī)制。每一輪的訓(xùn)練都會(huì)產(chǎn)生一個(gè)更強(qiáng)的導(dǎo)航模型,而這個(gè)更強(qiáng)的模型又能生成質(zhì)量更高的探索軌跡。這種正向循環(huán)機(jī)制使得系統(tǒng)能夠持續(xù)改進(jìn),突破傳統(tǒng)方法的性能上限。
研究團(tuán)隊(duì)還在訓(xùn)練策略上進(jìn)行了精心設(shè)計(jì)。他們采用了75%的自主探索軌跡和25%的困難負(fù)樣本的采樣策略,這種策略既保證了系統(tǒng)專(zhuān)注于學(xué)習(xí)探索技能,又提供了足夠的錯(cuò)誤糾正訓(xùn)練。這種平衡對(duì)于系統(tǒng)的穩(wěn)定性和性能都至關(guān)重要。
六、技術(shù)挑戰(zhàn)與解決方案
在開(kāi)發(fā)SID系統(tǒng)的過(guò)程中,研究團(tuán)隊(duì)遇到了多個(gè)技術(shù)挑戰(zhàn)。首先是如何確保自我改進(jìn)過(guò)程的穩(wěn)定性。由于系統(tǒng)是從自己生成的數(shù)據(jù)中學(xué)習(xí),存在學(xué)習(xí)到錯(cuò)誤模式或者性能退化的風(fēng)險(xiǎn)。為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)設(shè)計(jì)了嚴(yán)格的軌跡篩選標(biāo)準(zhǔn),只保留那些成功到達(dá)目標(biāo)且步數(shù)合理的軌跡。
另一個(gè)挑戰(zhàn)是如何平衡探索能力和效率。過(guò)度的探索可能導(dǎo)致系統(tǒng)走很多不必要的彎路,而探索不足又會(huì)影響系統(tǒng)在復(fù)雜環(huán)境中的適應(yīng)能力。研究團(tuán)隊(duì)通過(guò)在訓(xùn)練中同時(shí)使用探索軌跡和最短路徑數(shù)據(jù)來(lái)解決這個(gè)問(wèn)題,確保系統(tǒng)既具備探索能力又保持路徑效率。
在擴(kuò)展到語(yǔ)言指導(dǎo)的導(dǎo)航任務(wù)時(shí),最大的挑戰(zhàn)是如何生成高質(zhì)量的語(yǔ)言描述。研究團(tuán)隊(duì)嘗試了三種不同的描述風(fēng)格,并通過(guò)大量實(shí)驗(yàn)確定了最有效的描述方式。他們發(fā)現(xiàn),詳細(xì)的環(huán)境描述比簡(jiǎn)單的目標(biāo)名稱(chēng)更有助于導(dǎo)航系統(tǒng)的性能提升。
計(jì)算資源的管理也是一個(gè)重要考慮因素。整個(gè)SID訓(xùn)練過(guò)程需要大量的計(jì)算資源,包括視覺(jué)特征提取、軌跡生成、語(yǔ)言描述生成等多個(gè)環(huán)節(jié)。研究團(tuán)隊(duì)通過(guò)優(yōu)化計(jì)算流程和合理分配資源,最終在可接受的計(jì)算成本下完成了大規(guī)模的實(shí)驗(yàn)。
七、實(shí)際應(yīng)用前景與影響
SID系統(tǒng)的成功開(kāi)發(fā)為智能機(jī)器人在現(xiàn)實(shí)世界中的應(yīng)用開(kāi)辟了新的可能性。在家庭服務(wù)機(jī)器人領(lǐng)域,這種技術(shù)可以讓機(jī)器人更好地理解和執(zhí)行諸如"去廚房拿杯子"這樣的簡(jiǎn)單指令,而不需要用戶(hù)提供詳細(xì)的路徑規(guī)劃。
在商業(yè)環(huán)境中,SID技術(shù)可以應(yīng)用于購(gòu)物中心、醫(yī)院、辦公樓等復(fù)雜室內(nèi)環(huán)境的導(dǎo)航服務(wù)。機(jī)器人可以根據(jù)用戶(hù)的簡(jiǎn)單描述,自主探索并找到目標(biāo)位置,為用戶(hù)提供更加智能和便捷的導(dǎo)航服務(wù)。
對(duì)于老年人護(hù)理和輔助生活領(lǐng)域,這種技術(shù)也具有重要意義。配備SID系統(tǒng)的機(jī)器人可以幫助行動(dòng)不便的老年人獲取日常用品,只需要簡(jiǎn)單的語(yǔ)言指令就能完成復(fù)雜的室內(nèi)導(dǎo)航任務(wù)。
從技術(shù)發(fā)展的角度來(lái)看,SID系統(tǒng)代表了人工智能領(lǐng)域自監(jiān)督學(xué)習(xí)的一個(gè)重要進(jìn)展。這種從自身經(jīng)驗(yàn)中學(xué)習(xí)的能力是通向更加智能和自主的AI系統(tǒng)的重要一步。它不僅在導(dǎo)航領(lǐng)域有重要應(yīng)用,這種自我改進(jìn)的學(xué)習(xí)范式也可能被推廣到其他需要探索和學(xué)習(xí)的AI任務(wù)中。
研究團(tuán)隊(duì)還指出,SID系統(tǒng)生成的大規(guī)模探索軌跡數(shù)據(jù)本身就是一個(gè)寶貴的資源。這個(gè)數(shù)據(jù)集可以被其他研究者用來(lái)開(kāi)發(fā)和測(cè)試新的導(dǎo)航算法,推動(dòng)整個(gè)領(lǐng)域的發(fā)展。
八、技術(shù)局限性與未來(lái)發(fā)展方向
盡管SID系統(tǒng)取得了顯著的成果,但研究團(tuán)隊(duì)也坦誠(chéng)地指出了當(dāng)前技術(shù)的一些局限性。在某些復(fù)雜的導(dǎo)航場(chǎng)景中,特別是那些有大量選擇分支的關(guān)鍵導(dǎo)航點(diǎn),系統(tǒng)的探索能力仍然可能不足。如果智能體持續(xù)探索環(huán)境卻無(wú)法找到正確路徑,最終會(huì)因?yàn)槌鲎畲蟛綌?shù)限制而被迫停止,這在復(fù)雜的探索場(chǎng)景中仍然是一個(gè)挑戰(zhàn)。
另一個(gè)重要的局限性來(lái)自于從模擬環(huán)境到真實(shí)世界的轉(zhuǎn)換。SID系統(tǒng)目前基于機(jī)器人導(dǎo)航的假設(shè)進(jìn)行預(yù)訓(xùn)練,這些假設(shè)在實(shí)際的機(jī)器人部署中可能需要額外的適應(yīng)性調(diào)整。從離散環(huán)境到連續(xù)環(huán)境,以及從仿真到現(xiàn)實(shí)的轉(zhuǎn)換仍然存在一定的技術(shù)鴻溝。
在語(yǔ)言理解方面,SID系統(tǒng)對(duì)視覺(jué)語(yǔ)言模型生成的描述存在依賴(lài)性。這些描述可能因?yàn)槟P偷幕糜X(jué)問(wèn)題而包含不完整或不準(zhǔn)確的信息。評(píng)估導(dǎo)航領(lǐng)域中語(yǔ)言描述質(zhì)量的機(jī)制仍然是一個(gè)技術(shù)挑戰(zhàn),因?yàn)檫@需要同時(shí)考慮視覺(jué)、語(yǔ)言和行動(dòng)之間的復(fù)雜對(duì)齊關(guān)系。
為了解決這些局限性,研究團(tuán)隊(duì)提出了幾個(gè)未來(lái)的發(fā)展方向。首先是增強(qiáng)SID系統(tǒng)的錯(cuò)誤糾正和高效探索能力,特別是在困難場(chǎng)景中的成功率。其次是開(kāi)發(fā)更好的機(jī)制來(lái)驗(yàn)證和改進(jìn)視覺(jué)語(yǔ)言模型生成的描述,充分利用這些模型的視覺(jué)語(yǔ)言對(duì)齊能力來(lái)啟動(dòng)統(tǒng)一的目標(biāo)導(dǎo)向?qū)Ш较到y(tǒng)。
研究團(tuán)隊(duì)還計(jì)劃將SID方法擴(kuò)展到更多類(lèi)型的導(dǎo)航任務(wù)和環(huán)境中,探索這種自我改進(jìn)學(xué)習(xí)范式在其他體現(xiàn)智能任務(wù)中的應(yīng)用潛力。
說(shuō)到底,SID系統(tǒng)為機(jī)器人導(dǎo)航技術(shù)帶來(lái)了一個(gè)重要的突破。它不僅解決了傳統(tǒng)方法在探索能力上的不足,更重要的是開(kāi)創(chuàng)了一種全新的自監(jiān)督學(xué)習(xí)范式。這種讓機(jī)器人從自己的成功經(jīng)驗(yàn)中學(xué)習(xí)的方法,不僅降低了對(duì)人工標(biāo)注數(shù)據(jù)的依賴(lài),還實(shí)現(xiàn)了性能的持續(xù)改進(jìn)。
對(duì)于普通人來(lái)說(shuō),SID技術(shù)意味著未來(lái)的家庭服務(wù)機(jī)器人將會(huì)更加智能和實(shí)用。你只需要用簡(jiǎn)單的語(yǔ)言告訴機(jī)器人你的需求,它就能自主地在家中找到你想要的物品,而不需要你預(yù)先為它規(guī)劃詳細(xì)的路線。這種技術(shù)的成熟將為智能家居和服務(wù)機(jī)器人的普及奠定重要的技術(shù)基礎(chǔ)。
這項(xiàng)研究也為人工智能的發(fā)展提供了新的思路。通過(guò)讓AI系統(tǒng)從自己的經(jīng)驗(yàn)中學(xué)習(xí)和改進(jìn),我們正在向更加自主和智能的AI系統(tǒng)邁進(jìn)。雖然目前還存在一些技術(shù)挑戰(zhàn)需要解決,但SID系統(tǒng)已經(jīng)展示了這種方法的巨大潛力。有興趣深入了解這項(xiàng)研究的讀者可以通過(guò)論文編號(hào)arXiv:2509.24910v1查詢(xún)完整的技術(shù)細(xì)節(jié)和實(shí)驗(yàn)數(shù)據(jù)。
Q&A
Q1:SID系統(tǒng)是什么?它解決了什么問(wèn)題?
A:SID(Self-Improving Demonstrations)是上海AI實(shí)驗(yàn)室等機(jī)構(gòu)開(kāi)發(fā)的智能導(dǎo)航系統(tǒng),專(zhuān)門(mén)解決機(jī)器人在陌生環(huán)境中根據(jù)簡(jiǎn)單目標(biāo)描述進(jìn)行自主探索導(dǎo)航的問(wèn)題。它的核心特點(diǎn)是能夠從自己的成功經(jīng)驗(yàn)中學(xué)習(xí),不斷改進(jìn)導(dǎo)航能力,無(wú)需大量人工標(biāo)注的訓(xùn)練數(shù)據(jù)。
Q2:SID系統(tǒng)如何實(shí)現(xiàn)自我改進(jìn)?
A:SID系統(tǒng)采用迭代學(xué)習(xí)機(jī)制,首先用基礎(chǔ)最短路徑數(shù)據(jù)訓(xùn)練初始模型,然后讓模型自主探索生成新軌跡,只保留成功到達(dá)目標(biāo)的軌跡作為下一輪訓(xùn)練數(shù)據(jù)。每輪訓(xùn)練都會(huì)產(chǎn)生更強(qiáng)的模型,形成正向循環(huán),就像學(xué)生通過(guò)分析自己的成功案例來(lái)提高能力一樣。
Q3:SID系統(tǒng)在實(shí)際測(cè)試中表現(xiàn)如何?
A:SID系統(tǒng)在多個(gè)標(biāo)準(zhǔn)導(dǎo)航任務(wù)中都取得了突破性成果。在SOON任務(wù)中達(dá)到50.9%的成功率,比之前最佳方法提高13.9%;在房間探索能力上,能探索平均4.21個(gè)房間,遠(yuǎn)超傳統(tǒng)方法的2.77個(gè)房間,顯示出優(yōu)秀的探索和錯(cuò)誤糾正能力。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話(huà)多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。