這項由澳大利亞阿德萊德大學(xué)的Sourav Garg和Dustin Craggs領(lǐng)導(dǎo)的研究團隊,聯(lián)合印度IIIT海德拉巴大學(xué)和阿聯(lián)酋MBZUAI大學(xué),于2024年9月發(fā)表了一篇關(guān)于機器人視覺導(dǎo)航的重要研究成果。這項名為"ObjectReact: Learning Object-Relative Control for Visual Navigation"的論文,有興趣深入了解的讀者可以通過項目主頁https://object-react.github.io/訪問完整資料和演示視頻。
設(shè)想這樣一個場景:你走進一家從未去過的咖啡店,想找到洗手間。你不會像GPS那樣記住每一面墻壁、每一張桌子的精確位置,而是會記住"洗手間在收銀臺旁邊的椅子后面"這樣的物體關(guān)系。傳統(tǒng)的機器人導(dǎo)航系統(tǒng)就像一個過分依賴GPS的駕駛員,必須嚴格按照之前記錄的圖像路線行進,稍有變化就容易迷路。而這項研究提出的新方法,則讓機器人學(xué)會了像人類一樣,通過識別和理解物體之間的關(guān)系來導(dǎo)航。
研究團隊發(fā)現(xiàn),現(xiàn)有的機器人導(dǎo)航方法存在一個根本性問題:它們過分依賴圖像匹配。就好比讓一個人蒙著眼睛,只能通過對比手中的照片與眼前景象來找路。這種方法不僅笨拙,還很容易在環(huán)境稍有變化時失效。相比之下,這項研究提出的"物體相對導(dǎo)航"方法,讓機器人能夠建立一種基于物體關(guān)系的地圖,就像人類大腦中的認知地圖一樣,更加靈活和可靠。
一、突破傳統(tǒng)思維:從看圖找路到理解物體關(guān)系
傳統(tǒng)的機器人導(dǎo)航就像讓一個人拿著一本舊相冊找路。機器人會在探索環(huán)境時拍攝大量照片,然后在需要導(dǎo)航時,不斷對比當(dāng)前看到的景象和之前拍攝的照片,試圖找到匹配的圖像來確定自己的位置和前進方向。這種方法雖然在某些情況下有效,但問題顯而易見:如果椅子移動了位置,光線發(fā)生了變化,或者換了一個身高不同的機器人來執(zhí)行任務(wù),整個系統(tǒng)就可能崩潰。
研究團隊意識到,這種基于圖像匹配的導(dǎo)航方法本質(zhì)上受制于機器人的具體視角和身體特征。就像兩個身高差距很大的人看同一個房間會得到完全不同的視角一樣,不同高度的機器人拍攝的照片也會截然不同。這就導(dǎo)致一個在1.3米高度訓(xùn)練的導(dǎo)航系統(tǒng),在0.4米高度的機器人上可能完全失效。
相比之下,物體之間的關(guān)系是相對穩(wěn)定的。無論你是站著看還是坐著看,"椅子在桌子旁邊"這個關(guān)系基本不會改變。研究團隊正是基于這個洞察,提出了一種全新的導(dǎo)航方法:讓機器人學(xué)會識別和利用物體之間的空間關(guān)系,而不是單純依賴圖像的像素級匹配。
這種方法的優(yōu)勢顯而易見。當(dāng)機器人需要到達某個目標(biāo)物體時,它不再需要找到一張與當(dāng)前視角完全匹配的參考圖像,而是可以通過理解"目標(biāo)就在那個沙發(fā)后面的書架旁邊"這樣的物體關(guān)系來規(guī)劃路徑。即使房間里的一些物品發(fā)生了移動,或者換了一個完全不同的機器人來執(zhí)行任務(wù),這種基于物體關(guān)系的導(dǎo)航方法依然能夠可靠工作。
二、巧妙的地圖建構(gòu):構(gòu)建三維物體關(guān)系網(wǎng)絡(luò)
為了實現(xiàn)這種基于物體關(guān)系的導(dǎo)航,研究團隊首先要解決一個關(guān)鍵問題:如何讓機器人建立一種能夠描述物體關(guān)系的地圖?這就像要給一個初來乍到的人繪制一張不是基于街道名稱,而是基于地標(biāo)關(guān)系的特殊地圖。
傳統(tǒng)的機器人地圖通常是基于圖像的拓撲連接。每張圖像就像地圖上的一個點,相鄰的圖像之間用線條連接,形成一個類似地鐵線路圖的結(jié)構(gòu)。但這種地圖的問題在于,它記錄的是拍攝位置之間的連接關(guān)系,而不是實際物體之間的空間關(guān)系。
研究團隊提出的新方法則完全不同。他們讓機器人在探索環(huán)境時,不僅記錄圖像,還要識別出每張圖像中的所有物體,并計算這些物體之間的三維空間關(guān)系。這就像讓機器人成為一個細心的室內(nèi)設(shè)計師,不僅要記住房間里有什么東西,還要準確測量這些東西之間的距離和相對位置。
具體來說,機器人會使用先進的圖像分割技術(shù)(類似于人眼能夠自動區(qū)分不同物體的能力)來識別圖像中的各個物體。然后,利用深度估算技術(shù)來推斷這些物體在三維空間中的相對位置。這樣,機器人就能建立一個描述"椅子距離桌子2米,桌子在沙發(fā)的左前方1.5米"這樣精確關(guān)系的地圖。
更進一步,當(dāng)機器人在不同位置觀察到相同的物體時,它還能通過特征匹配技術(shù)將這些觀察結(jié)果連接起來。這就像一個人在房間里走動時,能夠意識到從不同角度看到的其實是同一張桌子。這種跨視角的物體關(guān)聯(lián)能力,使得機器人能夠建立一個連貫、完整的物體關(guān)系網(wǎng)絡(luò)。
三、智能路徑規(guī)劃:WayObject代價地圖的創(chuàng)新
有了描述物體關(guān)系的地圖,下一個挑戰(zhàn)就是如何讓機器人利用這個地圖來規(guī)劃路徑。這就像有了一張標(biāo)注著所有地標(biāo)位置的地圖后,還需要一個智能的導(dǎo)航算法來找到最佳路線。
研究團隊在這里引入了一個巧妙的概念:WayObject代價地圖。這個名字聽起來很專業(yè),但其實可以用一個簡單的比喻來理解:想象你正在玩一個尋寶游戲,地圖上的每個物體都有一個數(shù)字標(biāo)簽,數(shù)字越小表示這個物體離寶藏越近。那么,你自然會選擇朝著數(shù)字較小的物體方向前進。
WayObject代價地圖就是基于這個原理工作的。當(dāng)機器人接到前往某個目標(biāo)物體的任務(wù)時,系統(tǒng)會首先計算出當(dāng)前視野中每個物體到目標(biāo)位置的最短路徑長度。然后,將這些路徑長度信息疊加到物體的分割輪廓上,形成一個彩色編碼的代價地圖。在這個地圖中,接近目標(biāo)的物體會顯示為"低代價"(用冷色調(diào)表示),而遠離目標(biāo)的物體則顯示為"高代價"(用暖色調(diào)表示)。
這種表示方法的巧妙之處在于,它將復(fù)雜的路徑規(guī)劃問題轉(zhuǎn)換為一個視覺化的"下山"問題。機器人只需要朝著代價較低的區(qū)域移動,就能自然地找到通往目標(biāo)的路徑,就像水自然地向低處流淌一樣。
而且,這種代價地圖是動態(tài)更新的。隨著機器人的移動,它看到的物體會發(fā)生變化,代價地圖也會相應(yīng)地重新計算。這確保了機器人始終能夠根據(jù)當(dāng)前的觀察結(jié)果做出最優(yōu)的導(dǎo)航?jīng)Q策。
四、學(xué)習(xí)型控制器:ObjectReact的訓(xùn)練機制
有了WayObject代價地圖作為輸入,機器人還需要一個能夠理解這種特殊地圖并據(jù)此做出控制決策的"大腦"。這就是研究團隊開發(fā)的ObjectReact控制器的作用。
傳統(tǒng)的機器人控制器需要同時處理當(dāng)前的RGB圖像和目標(biāo)圖像,這就像讓一個人一邊看著眼前的路況,一邊對比手中的參考照片來駕駛車輛,既復(fù)雜又容易出錯。ObjectReact控制器的創(chuàng)新之處在于,它完全不需要RGB圖像輸入,只需要看懂WayObject代價地圖就能做出導(dǎo)航?jīng)Q策。
這種簡化帶來了巨大的好處。首先,它讓控制器的學(xué)習(xí)變得更加高效。就像學(xué)習(xí)開車時,如果只需要關(guān)注路況而不用分心看地圖,駕駛技能的掌握會快得多。其次,這種設(shè)計使得控制器對環(huán)境變化更加魯棒。即使房間的光線條件發(fā)生變化,或者一些裝飾品的位置有所調(diào)整,只要主要物體的關(guān)系沒有根本性改變,控制器依然能夠可靠工作。
ObjectReact控制器的訓(xùn)練過程也很有趣。研究團隊使用了一個名為Habitat-Matterport 3D的虛擬環(huán)境數(shù)據(jù)集,這就像為機器人創(chuàng)建了一個包含145個不同房間的虛擬訓(xùn)練場。在這個虛擬世界中,機器人可以進行大量的導(dǎo)航練習(xí),學(xué)習(xí)如何根據(jù)WayObject代價地圖來預(yù)測最佳的移動軌跡。
訓(xùn)練過程采用了模仿學(xué)習(xí)的方法,就像讓學(xué)生觀察老師的示范動作來學(xué)習(xí)技能一樣。系統(tǒng)會為每個訓(xùn)練場景計算出理論上的最優(yōu)路徑,然后讓ObjectReact控制器學(xué)習(xí)模仿這些最優(yōu)行為。經(jīng)過大量的練習(xí),控制器逐漸掌握了如何將代價地圖中的信息轉(zhuǎn)換為具體的移動指令。
五、全方位性能驗證:四大挑戰(zhàn)任務(wù)的測試
為了驗證這種新方法的有效性,研究團隊設(shè)計了四個具有挑戰(zhàn)性的導(dǎo)航任務(wù),每個任務(wù)都測試機器人的不同能力。這就像為一個剛學(xué)會開車的新手設(shè)計不同難度的駕駛測試,從簡單的直線行駛到復(fù)雜的城市道路導(dǎo)航。
第一個任務(wù)稱為"模仿任務(wù)",這是最基礎(chǔ)的測試。機器人需要沿著之前探索時記錄的路徑重新行進,就像讓人沿著自己之前走過的路線再走一遍。這個任務(wù)主要測試系統(tǒng)的基本導(dǎo)航能力和穩(wěn)定性。實驗結(jié)果顯示,基于物體關(guān)系的方法與傳統(tǒng)的圖像匹配方法在這個任務(wù)上表現(xiàn)相當(dāng),都達到了約60%的成功率。
第二個任務(wù)是"替代目標(biāo)任務(wù)",難度顯著提升。在這個任務(wù)中,機器人需要前往一個在探索階段見過但從未實際到達過的物體。這就像讓人根據(jù)路上看到的路標(biāo),找到一個之前只是路過但從未進入過的建筑。傳統(tǒng)的圖像匹配方法在這個任務(wù)上幾乎完全失敗,成功率只有約2%,因為它們?nèi)狈ψ銐蚪咏繕?biāo)的參考圖像。相比之下,ObjectReact方法達到了約22%的成功率,展現(xiàn)了明顯的優(yōu)勢。
第三個任務(wù)被稱為"捷徑任務(wù)",這個測試特別能體現(xiàn)基于物體關(guān)系導(dǎo)航的智能性。在這個場景中,機器人在探索階段走了一條繞遠路,但在執(zhí)行任務(wù)時需要找到更直接的路徑。這就像一個人第一次去某個地方時繞了很多彎,但熟悉環(huán)境后能找到更短的路線。傳統(tǒng)方法由于過度依賴之前的圖像序列,很難跳出原有路徑的束縛,成功率僅為8%。而ObjectReact方法能夠基于物體關(guān)系靈活規(guī)劃新路徑,成功率達到了23%。
最具挑戰(zhàn)性的是"反向任務(wù)",機器人需要沿著探索路徑的反方向行進,這相當(dāng)于讓人在一條只走過一次的路上反向行走。這個任務(wù)對于傳統(tǒng)方法來說異常困難,因為反向行進時看到的景象與正向探索時記錄的圖像完全不同。傳統(tǒng)方法的成功率降到了12%,而ObjectReact方法依然保持了27%的成功率,證明了基于物體關(guān)系導(dǎo)航的強大適應(yīng)性。
六、跨平臺適應(yīng)性:機器人身高不再是障礙
現(xiàn)實世界中的機器人有著各種各樣的形態(tài):有的像掃地機器人那樣貼近地面,有的像服務(wù)機器人那樣接近人類身高,還有的像工業(yè)機械臂那樣高高在上。這種多樣性給導(dǎo)航系統(tǒng)帶來了一個嚴峻挑戰(zhàn):為一種機器人開發(fā)的導(dǎo)航系統(tǒng),能否在另一種完全不同的機器人上正常工作?
研究團隊專門設(shè)計了一個實驗來測試這種跨平臺適應(yīng)性。他們讓機器人在1.3米的高度進行環(huán)境探索和地圖構(gòu)建,但在執(zhí)行導(dǎo)航任務(wù)時使用兩種不同的高度:1.3米(與探索時相同)和0.4米(模擬低矮的機器人)。這就像讓一個成年人繪制路線圖,但要同時適用于成年人和兒童使用。
實驗結(jié)果令人印象深刻。傳統(tǒng)的圖像匹配方法表現(xiàn)出嚴重的身高敏感性:當(dāng)機器人身高與探索時相同(1.3米)時,成功率達到82%;但當(dāng)身高降至0.4米時,成功率驟降至33%,下降了近50個百分點。這種急劇的性能衰減清楚地暴露了圖像匹配方法的根本局限性。
相比之下,ObjectReact方法展現(xiàn)了令人驚嘆的身高不變性。當(dāng)機器人身高從1.3米變?yōu)?.4米時,其導(dǎo)航成功率僅從58%下降到61%(實際上是輕微上升),幾乎沒有受到身高變化的影響。這個結(jié)果證明,基于物體關(guān)系的導(dǎo)航確實實現(xiàn)了對機器人具體形態(tài)的獨立性。
這種跨平臺適應(yīng)性的實現(xiàn)得益于物體關(guān)系的內(nèi)在穩(wěn)定性。無論觀察者的身高如何變化,"椅子在桌子旁邊"、"書架靠著墻壁"這樣的空間關(guān)系基本保持不變。通過專注于這些穩(wěn)定的關(guān)系特征而非易變的視覺外觀,ObjectReact方法成功地解決了傳統(tǒng)方法面臨的跨平臺部署難題。
七、真實世界的驗證:從仿真到現(xiàn)實的成功跨越
任何在實驗室或仿真環(huán)境中表現(xiàn)出色的技術(shù),最終都必須面臨現(xiàn)實世界的嚴峻考驗。研究團隊將ObjectReact系統(tǒng)部署到了一臺名為Unitree Go1的四足機器人上,這是一臺類似機器狗的設(shè)備,在真實的室內(nèi)環(huán)境中進行了廣泛的導(dǎo)航測試。
真實世界的測試環(huán)境比仿真復(fù)雜得多。光線條件會發(fā)生變化,從明亮的白天到昏暗的夜晚;家具可能會移動位置;甚至可能出現(xiàn)探索時不存在的新障礙物。這些都是仿真環(huán)境無法完全模擬的挑戰(zhàn)。
令人振奮的是,ObjectReact系統(tǒng)在真實環(huán)境中表現(xiàn)出了強大的適應(yīng)能力。在一個測試場景中,機器人成功地避開了一個在探索階段并不存在的障礙物,并重新規(guī)劃路徑到達目標(biāo)。這種行為展現(xiàn)了系統(tǒng)的智能性:當(dāng)某些物體被標(biāo)記為"高代價"(因為無法匹配到地圖中的已知物體)時,機器人會自然地避開這些區(qū)域,尋找替代路徑。
更有趣的是跨設(shè)備映射實驗。研究團隊使用普通的智能手機攝像頭進行環(huán)境探索和地圖構(gòu)建,然后讓機器狗根據(jù)這個地圖進行導(dǎo)航。這相當(dāng)于讓一個人用手機拍攝路線,然后指導(dǎo)一個完全不同的智能體按照這個路線行走。實驗成功了,證明了系統(tǒng)的高度通用性。
在光線條件變化的測試中,機器人在全光照環(huán)境下構(gòu)建地圖,但在昏暗環(huán)境下執(zhí)行導(dǎo)航任務(wù),依然能夠成功到達目標(biāo)。這得益于現(xiàn)代物體檢測技術(shù)的魯棒性,以及WayObject代價地圖對具體視覺外觀變化的不敏感性。
八、技術(shù)細節(jié)的深入剖析:每個組件的精巧設(shè)計
ObjectReact系統(tǒng)的成功并非偶然,而是多個精心設(shè)計的技術(shù)組件協(xié)同工作的結(jié)果。每個組件都像一個精密儀器的零件,必須完美配合才能實現(xiàn)整體的卓越性能。
在物體檢測環(huán)節(jié),系統(tǒng)使用了SAM2(Segment Anything Model 2)這樣的先進模型。這種技術(shù)就像給機器人裝上了一雙能夠精確識別物體邊界的"眼睛"。與傳統(tǒng)的邊框檢測不同,SAM2能夠提供像素級的精確分割,就像用畫筆仔細勾勒出每個物體的輪廓一樣。這種精度對于后續(xù)的空間關(guān)系計算至關(guān)重要。
在深度估算方面,系統(tǒng)采用了單目深度估算技術(shù)。這就像讓機器人具備了人類的深度感知能力,能夠僅憑一只"眼睛"就判斷物體的遠近關(guān)系。雖然這種方法無法提供毫米級的精度,但對于導(dǎo)航任務(wù)來說已經(jīng)足夠準確。
物體匹配環(huán)節(jié)使用了SuperPoint和LightGlue算法的組合。SuperPoint負責(zé)在圖像中找到穩(wěn)定的特征點,就像在照片中標(biāo)注出最具辨識度的細節(jié);LightGlue則負責(zé)在不同圖像之間建立這些特征點的對應(yīng)關(guān)系,就像拼圖時找到片段之間的匹配邊緣。
在代價編碼方面,系統(tǒng)使用了類似于Transformer中位置編碼的技術(shù),將路徑長度信息轉(zhuǎn)換為多維向量表示。這種編碼方法不僅能夠保持數(shù)值信息,還能增強模型的表達能力,就像將單調(diào)的數(shù)字轉(zhuǎn)換為豐富的音樂和弦。
九、局限性的誠實面對:技術(shù)發(fā)展的現(xiàn)實挑戰(zhàn)
盡管ObjectReact系統(tǒng)展現(xiàn)了令人印象深刻的能力,但研究團隊也誠實地承認了當(dāng)前技術(shù)的局限性。這種科學(xué)態(tài)度不僅體現(xiàn)了研究的嚴謹性,也為未來的改進指明了方向。
最主要的挑戰(zhàn)來自于感知精度。雖然現(xiàn)代物體檢測和匹配技術(shù)已經(jīng)相當(dāng)先進,但在復(fù)雜的真實環(huán)境中仍然可能出錯。有時候,同一個物體可能被識別為不同的物體;有時候,不同的物體可能被錯誤地認為是同一個。這就像人在光線不好的情況下可能把椅子誤認為是桌子一樣。
另一個挑戰(zhàn)是動態(tài)環(huán)境的處理。ObjectReact系統(tǒng)假設(shè)環(huán)境中的主要物體位置相對穩(wěn)定,但現(xiàn)實中總有一些物體會移動。當(dāng)一把椅子從餐桌旁邊移動到客廳中央時,基于原有物體關(guān)系構(gòu)建的地圖就可能過時。雖然系統(tǒng)有一定的容錯能力,但大規(guī)模的環(huán)境變化仍然可能導(dǎo)致導(dǎo)航失敗。
計算資源的需求也是一個實際考慮。實時的物體檢測、特征匹配和路徑規(guī)劃需要相當(dāng)?shù)挠嬎隳芰?。在資源受限的小型機器人上部署這樣的系統(tǒng)可能面臨性能瓶頸。
此外,當(dāng)前系統(tǒng)主要在室內(nèi)環(huán)境中進行了測試和驗證。戶外環(huán)境的復(fù)雜性可能帶來新的挑戰(zhàn),比如天氣變化、光線變化幅度更大、物體類型更加多樣等。這些都是未來研究需要解決的問題。
十、未來展望:技術(shù)演進的無限可能
站在這項研究的基礎(chǔ)上,可以預(yù)見未來機器人導(dǎo)航技術(shù)將朝著更加智能化的方向發(fā)展。WayObject代價地圖這種表示方法為多種擴展應(yīng)用打開了大門。
一個令人興奮的方向是與自然語言的結(jié)合。人們可以用普通話語來描述導(dǎo)航目標(biāo),比如"去找那個放著綠色植物的書架",系統(tǒng)就能理解這種描述并生成相應(yīng)的代價地圖。這將使人機交互變得更加自然和直觀。
另一個有潛力的發(fā)展方向是多機器人協(xié)作導(dǎo)航。多個機器人可以共享它們各自構(gòu)建的物體關(guān)系地圖,形成更加完整和準確的環(huán)境表示。這就像讓多個人分別探索一個大型建筑的不同區(qū)域,然后合并他們的發(fā)現(xiàn)來創(chuàng)建一個綜合地圖。
探索能力的集成也是一個重要方向。當(dāng)機器人遇到地圖中沒有的新區(qū)域或物體時,它應(yīng)該能夠自主地擴展地圖,而不是簡單地報告失敗。這種能力將使機器人在動態(tài)變化的環(huán)境中變得更加實用。
長期來看,這種基于物體關(guān)系的導(dǎo)航方法可能會擴展到更加復(fù)雜的任務(wù)中,比如物體操作和任務(wù)規(guī)劃。機器人不僅能夠?qū)Ш降侥繕?biāo)位置,還能理解如何與環(huán)境中的物體進行交互,執(zhí)行更加復(fù)雜的任務(wù)序列。
說到底,ObjectReact系統(tǒng)的真正價值不僅在于它解決了機器人導(dǎo)航的技術(shù)問題,更在于它展現(xiàn)了一種新的思維模式:從模仿人類的行為轉(zhuǎn)向理解人類認知的本質(zhì)。傳統(tǒng)方法試圖讓機器人像人類一樣"看圖找路",而這項研究則讓機器人學(xué)會了像人類一樣"理解空間關(guān)系"。這種認知層面的突破,可能是機器人真正融入人類生活的關(guān)鍵一步。
當(dāng)然,從研究原型到實用產(chǎn)品還有很長的路要走。但這項研究為我們描繪了一個令人興奮的未來:機器人將不再是需要精心編程和控制的機械工具,而是能夠理解環(huán)境、適應(yīng)變化的智能助手。在不久的將來,當(dāng)我們看到機器人在家中自如地穿行,避開新增的障礙物,找到我們臨時移動的物品時,請記住今天這項研究為這一切奠定的基礎(chǔ)。畢竟,讓機器人具備像人類一樣靈活導(dǎo)航的能力,正是我們向真正智能機器人時代邁進的重要一步。
Q&A
Q1:ObjectReact導(dǎo)航系統(tǒng)與傳統(tǒng)機器人導(dǎo)航有什么區(qū)別?
A:傳統(tǒng)機器人導(dǎo)航就像拿著照片找路,需要對比當(dāng)前看到的畫面和之前拍攝的參考圖像。ObjectReact系統(tǒng)則像人類一樣通過理解物體關(guān)系導(dǎo)航,比如"目標(biāo)在沙發(fā)后面的書架旁邊"。這讓機器人即使在環(huán)境發(fā)生變化或換了不同高度的機器人時,依然能夠可靠導(dǎo)航。
Q2:WayObject代價地圖是什么原理?
A:WayObject代價地圖就像尋寶游戲中的提示地圖。系統(tǒng)計算當(dāng)前視野中每個物體到目標(biāo)的距離,距離越近的物體標(biāo)記為"低代價"(冷色調(diào)),距離越遠的標(biāo)記為"高代價"(暖色調(diào))。機器人只需要朝著低代價區(qū)域移動,就能自然找到通往目標(biāo)的最佳路徑。
Q3:這種導(dǎo)航方法能在真實環(huán)境中正常工作嗎?
A:研究團隊已經(jīng)在真實環(huán)境中成功測試了ObjectReact系統(tǒng),包括使用四足機器人進行導(dǎo)航實驗。系統(tǒng)能夠適應(yīng)光線變化、避開新增障礙物,甚至支持用手機拍攝地圖、機器人執(zhí)行導(dǎo)航的跨設(shè)備應(yīng)用。不過目前主要在室內(nèi)環(huán)境測試,戶外復(fù)雜環(huán)境還需要進一步研究。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。