在廚房里倒水、端湯,或者在實(shí)驗(yàn)室里小心翼翼地移動裝滿化學(xué)試劑的燒杯——這些看似簡單的動作,對機(jī)器人來說卻是極大的挑戰(zhàn)。液體會晃動、會濺出、會因?yàn)槿萜鞯囊苿佣a(chǎn)生各種意想不到的波瀾。但現(xiàn)在,斯坦福大學(xué)的研究團(tuán)隊(duì)帶來了一個令人振奮的消息:他們成功讓機(jī)器人掌握了在各種復(fù)雜現(xiàn)實(shí)環(huán)境中搬運(yùn)液體的技能。
這項(xiàng)由斯坦福大學(xué)人工智能實(shí)驗(yàn)室的研究人員完成的重要研究發(fā)表于2024年的機(jī)器人學(xué)會議(Robotics: Science and Systems),有興趣深入了解的讀者可以通過該會議的官方網(wǎng)站訪問完整論文。研究團(tuán)隊(duì)開發(fā)出了一套名為"FluidLoco"的創(chuàng)新系統(tǒng),這是首個能讓機(jī)器人在真實(shí)世界的各種復(fù)雜地形上穩(wěn)定搬運(yùn)液體的人工智能系統(tǒng)。
這項(xiàng)研究的重要性遠(yuǎn)超我們的想象。在我們的日常生活中,從餐廳服務(wù)員端著滿滿一盤湯穿梭于擁擠的餐桌之間,到醫(yī)院護(hù)士小心搬運(yùn)藥物,再到工廠中需要精確控制的化學(xué)品運(yùn)輸,液體搬運(yùn)無處不在。然而,直到現(xiàn)在,這些工作幾乎完全依賴人類的精巧技能。機(jī)器人一直在這個看似簡單卻極其復(fù)雜的任務(wù)面前束手無策。
傳統(tǒng)的機(jī)器人在平坦的實(shí)驗(yàn)室地面上或許能夠小心翼翼地移動一杯水,但一旦面對真實(shí)世界的挑戰(zhàn)——比如需要走上臺階、越過障礙物、在不平整的地面上行走,或者應(yīng)對突發(fā)的碰撞和干擾時,它們往往會手忙腳亂,液體四處飛濺。這就像讓一個從未騎過自行車的人突然在山路上騎行一樣困難。
斯坦福團(tuán)隊(duì)的突破在于,他們沒有簡單地告訴機(jī)器人"要小心,不要讓液體濺出",而是讓機(jī)器人真正理解液體的物理特性,學(xué)會預(yù)測液體在各種情況下的行為,并相應(yīng)地調(diào)整自己的動作。這就像培養(yǎng)一個優(yōu)秀的調(diào)酒師,不僅要知道如何握杯子,更要理解液體在晃動時的物理規(guī)律,從而做出精準(zhǔn)的預(yù)判和反應(yīng)。
**一、讓機(jī)器人理解液體的"脾氣"**
要讓機(jī)器人學(xué)會搬運(yùn)液體,首先需要解決一個根本問題:如何讓機(jī)器人理解液體這種"變化無常"的物質(zhì)。與固體物品不同,液體沒有固定的形狀,它會根據(jù)容器的移動而產(chǎn)生各種復(fù)雜的運(yùn)動模式。
研究團(tuán)隊(duì)采用了一種巧妙的方法,他們把這個問題想象成教會機(jī)器人成為一名優(yōu)秀的船長。一位經(jīng)驗(yàn)豐富的船長不僅要會駕駛船只,更重要的是要理解海浪的規(guī)律,預(yù)測船只在不同海況下的搖擺情況,并相應(yīng)地調(diào)整航行策略。同樣,機(jī)器人需要學(xué)會"閱讀"液體的運(yùn)動模式,理解液體在不同情況下的行為規(guī)律。
FluidLoco系統(tǒng)的核心是一個叫做"液體動力學(xué)預(yù)測模型"的智能大腦。這個模型就像一個極其精密的天氣預(yù)報系統(tǒng),但預(yù)測的不是明天是否下雨,而是液體在接下來幾毫秒內(nèi)會如何運(yùn)動。當(dāng)容器稍微傾斜時,液體會向哪個方向流動?當(dāng)機(jī)器人需要轉(zhuǎn)彎時,液體會產(chǎn)生怎樣的慣性運(yùn)動?當(dāng)遇到顛簸時,液體表面會產(chǎn)生什么樣的波紋?這些看似微小的細(xì)節(jié),對于成功搬運(yùn)液體來說都至關(guān)重要。
更讓人驚嘆的是,這套系統(tǒng)還能學(xué)會不同液體的"個性"。就像廚師知道橄欖油比水更粘稠,需要不同的處理方式一樣,機(jī)器人現(xiàn)在也能區(qū)分水、果汁、牛奶等不同液體的特性,并為每種液體制定專門的搬運(yùn)策略。這種細(xì)致入微的理解讓機(jī)器人的表現(xiàn)達(dá)到了前所未有的精確度。
**二、在真實(shí)世界中接受考驗(yàn)**
理論再完美,也必須經(jīng)受現(xiàn)實(shí)世界的檢驗(yàn)。研究團(tuán)隊(duì)設(shè)計(jì)了一系列越來越困難的測試場景,就像為機(jī)器人設(shè)置了一場綜合能力的考試。
第一關(guān)是基礎(chǔ)關(guān)卡:讓機(jī)器人在平坦的地面上搬運(yùn)盛滿水的杯子。這看起來很簡單,但實(shí)際上需要機(jī)器人精確控制速度和加速度,確保啟動時不會因?yàn)閼T性讓水向后濺,停止時不會因?yàn)榧眲x車讓水向前溢出。研究結(jié)果顯示,配備了FluidLoco系統(tǒng)的機(jī)器人能夠?qū)⒁后w濺出量控制在傳統(tǒng)方法的十分之一以下。
第二關(guān)是障礙挑戰(zhàn):機(jī)器人需要攜帶液體越過各種障礙物,包括臺階、斜坡和不平整的地面。這就像讓人端著一碗熱湯在擁擠的餐廳里穿行。傳統(tǒng)的機(jī)器人在這種情況下往往會因?yàn)橹匦淖兓筒綉B(tài)調(diào)整而讓液體大量濺出,但FluidLoco系統(tǒng)讓機(jī)器人學(xué)會了一種叫做"預(yù)測性補(bǔ)償"的技巧。簡單來說,就是機(jī)器人能夠提前預(yù)測自己的動作會對液體產(chǎn)生什么影響,然后提前做出相反的補(bǔ)償動作,就像有經(jīng)驗(yàn)的服務(wù)員會在轉(zhuǎn)彎前就開始調(diào)整托盤的角度一樣。
第三關(guān)是動態(tài)應(yīng)對:研究人員故意在機(jī)器人搬運(yùn)過程中給它施加外力干擾,模擬現(xiàn)實(shí)中可能遇到的意外碰撞或推擠。這是最嚴(yán)苛的測試,因?yàn)闄C(jī)器人不僅要保持自身的平衡,還要在受到干擾的同時保護(hù)液體不濺出。令人驚訝的是,機(jī)器人表現(xiàn)出了類似人類的反應(yīng)能力——當(dāng)受到推力時,它會迅速調(diào)整身體姿態(tài)和容器角度,將干擾的影響降到最低。
最讓研究團(tuán)隊(duì)興奮的是戶外測試結(jié)果。他們讓機(jī)器人在真實(shí)的戶外環(huán)境中搬運(yùn)液體,包括有裂縫的人行道、碎石路面、草地和沙地等各種地形。在這些復(fù)雜多變的環(huán)境中,機(jī)器人依然能夠保持85%以上的液體搬運(yùn)成功率,這個數(shù)字已經(jīng)接近人類在類似條件下的表現(xiàn)水平。
**三、背后的技術(shù)奧秘**
FluidLoco系統(tǒng)的成功并非偶然,它背后蘊(yùn)含著多項(xiàng)技術(shù)創(chuàng)新的巧妙結(jié)合。整個系統(tǒng)就像一個精密的交響樂團(tuán),每個組成部分都發(fā)揮著不可替代的作用。
首先是感知系統(tǒng),這相當(dāng)于機(jī)器人的"眼睛"和"觸覺"。研究團(tuán)隊(duì)為機(jī)器人裝備了多種傳感器,包括高精度的傾斜傳感器、液體液位檢測器和振動感應(yīng)器。這些傳感器能夠?qū)崟r監(jiān)測液體的狀態(tài)變化,就像一個極其敏感的液體"聽診器"。當(dāng)液體開始晃動時,傳感器能夠立即檢測到這種變化的頻率和幅度,為后續(xù)的控制決策提供準(zhǔn)確的數(shù)據(jù)基礎(chǔ)。
更巧妙的是,系統(tǒng)還集成了一種叫做"預(yù)測視覺"的技術(shù)。機(jī)器人不僅能看到當(dāng)前的液體狀態(tài),還能基于物理模型預(yù)測液體在未來幾秒內(nèi)的運(yùn)動軌跡。這就像一個經(jīng)驗(yàn)豐富的司機(jī),不僅關(guān)注當(dāng)前的路況,還能預(yù)判前方可能出現(xiàn)的情況并提前做出反應(yīng)。
在控制策略方面,研究團(tuán)隊(duì)開發(fā)了一種叫做"分層控制架構(gòu)"的方法。這個系統(tǒng)分為三個層次:最高層負(fù)責(zé)路徑規(guī)劃,決定機(jī)器人應(yīng)該朝哪個方向移動;中間層負(fù)責(zé)步態(tài)控制,決定機(jī)器人應(yīng)該如何走路;最底層負(fù)責(zé)液體穩(wěn)定控制,專門處理如何保持液體不濺出的問題。這三個層次相互協(xié)調(diào),就像一個訓(xùn)練有素的團(tuán)隊(duì),每個成員都專注于自己最擅長的工作,同時與其他成員密切配合。
最令人印象深刻的是系統(tǒng)的學(xué)習(xí)能力。FluidLoco采用了一種叫做"強(qiáng)化學(xué)習(xí)"的人工智能技術(shù),讓機(jī)器人通過不斷的試驗(yàn)和錯誤來改進(jìn)自己的表現(xiàn)。在訓(xùn)練初期,機(jī)器人可能會頻繁地濺出液體,但每次失敗都會成為寶貴的學(xué)習(xí)經(jīng)驗(yàn)。通過數(shù)萬次的虛擬訓(xùn)練和數(shù)千次的實(shí)際操作,機(jī)器人逐漸掌握了各種情況下的最佳搬運(yùn)策略。
**四、突破傳統(tǒng)方法的局限**
要真正理解這項(xiàng)研究的價值,我們需要了解傳統(tǒng)方法面臨的困難。在FluidLoco出現(xiàn)之前,讓機(jī)器人搬運(yùn)液體主要有兩種思路,但都存在明顯的局限性。
第一種思路是"極度保守"策略,就像讓機(jī)器人變成一個過分小心的老人。這種方法要求機(jī)器人移動得極其緩慢,每一步都要停頓確認(rèn),每次轉(zhuǎn)向都要用最小的角度。雖然這樣確實(shí)能減少液體濺出,但效率極其低下。一個簡單的搬運(yùn)任務(wù)可能需要花費(fèi)十幾分鐘才能完成,這在實(shí)際應(yīng)用中完全不可行。而且,即使如此小心,一旦遇到意外情況,比如地面突然出現(xiàn)的小石子或者輕微的外力干擾,這種方法就會完全失效。
第二種思路是"剛性控制"策略,就像把機(jī)器人變成一個僵硬的機(jī)械臂。這種方法試圖通過精確的預(yù)編程來控制機(jī)器人的每一個動作,讓它嚴(yán)格按照預(yù)設(shè)的路徑和速度移動。這種方法在實(shí)驗(yàn)室的理想環(huán)境中可能會有一定效果,但在真實(shí)世界中卻顯得非常脆弱。因?yàn)檎鎸?shí)環(huán)境充滿了不確定性,地面可能不平整,可能會有意外的障礙物,或者機(jī)器人本身可能會因?yàn)殡姵仉娏孔兓绊憚幼骶取_@些因素都會讓預(yù)設(shè)的控制程序失效。
FluidLoco的革命性在于它采用了一種"自適應(yīng)智能"的全新策略。這種方法讓機(jī)器人像一個經(jīng)驗(yàn)豐富的專業(yè)人員一樣,能夠根據(jù)實(shí)際情況靈活調(diào)整自己的行為。當(dāng)?shù)孛嫫教箷r,機(jī)器人會相對快速地移動以提高效率;當(dāng)遇到障礙物時,它會自動放慢速度并調(diào)整姿態(tài);當(dāng)液體開始晃動時,它會立即采取補(bǔ)償措施來穩(wěn)定液體。
更重要的是,這種方法具有很強(qiáng)的泛化能力。機(jī)器人不需要為每種具體情況編寫專門的程序,而是通過學(xué)習(xí)掌握了液體搬運(yùn)的基本原理和技巧。這意味著它能夠應(yīng)對之前從未遇到過的新情況,就像一個技藝嫻熟的工匠能夠用同樣的技巧處理不同的工作任務(wù)一樣。
研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)證明了FluidLoco的優(yōu)越性。在相同的測試條件下,傳統(tǒng)的保守策略雖然濺出率較低,但完成任務(wù)的時間是FluidLoco的3-4倍;而剛性控制策略雖然速度較快,但在復(fù)雜環(huán)境中的失敗率高達(dá)60%以上,遠(yuǎn)遠(yuǎn)無法滿足實(shí)用要求。相比之下,F(xiàn)luidLoco在保持高效率的同時,將液體濺出率控制在5%以下,在各種復(fù)雜環(huán)境中都表現(xiàn)出色。
**五、廣闊的應(yīng)用前景**
FluidLoco技術(shù)的成功開啟了機(jī)器人應(yīng)用的全新領(lǐng)域,它的影響將遠(yuǎn)遠(yuǎn)超出實(shí)驗(yàn)室的范圍,深入到我們生活的方方面面。
在餐飲服務(wù)行業(yè),這項(xiàng)技術(shù)將徹底改變傳統(tǒng)的服務(wù)模式。餐廳的機(jī)器人服務(wù)員將能夠像人類員工一樣,在擁擠的餐廳里靈活穿行,穩(wěn)定地為顧客送上熱湯、咖啡和各種飲料。特別是在高檔餐廳,where服務(wù)質(zhì)量要求極高的場所,機(jī)器人現(xiàn)在也能提供專業(yè)水準(zhǔn)的服務(wù)。更重要的是,機(jī)器人不會因?yàn)槠诨蚯榫w波動而影響服務(wù)質(zhì)量,能夠始終保持穩(wěn)定的高水準(zhǔn)表現(xiàn)。
醫(yī)療健康領(lǐng)域?qū)⑹橇硪粋€重要的應(yīng)用方向。在醫(yī)院里,護(hù)士和醫(yī)務(wù)人員經(jīng)常需要搬運(yùn)各種液體藥物、血液樣本和化學(xué)試劑。這些物質(zhì)不僅珍貴,而且對精確性要求極高,任何濺出都可能造成嚴(yán)重后果。配備了FluidLoco技術(shù)的醫(yī)療機(jī)器人能夠承擔(dān)這些重要而繁重的工作,不僅提高了工作效率,還大大降低了人為操作失誤的風(fēng)險。在疫情等特殊時期,這種機(jī)器人還能減少人員接觸,保護(hù)醫(yī)務(wù)工作者的安全。
工業(yè)制造領(lǐng)域同樣充滿機(jī)會。許多化工企業(yè)和制藥公司需要在生產(chǎn)過程中精確控制各種液體的輸送和混合。傳統(tǒng)的自動化設(shè)備雖然精確,但缺乏靈活性,難以應(yīng)對復(fù)雜的生產(chǎn)環(huán)境和突發(fā)情況。FluidLoco技術(shù)讓工業(yè)機(jī)器人具備了類似人類操作員的適應(yīng)能力,能夠在各種復(fù)雜的工業(yè)環(huán)境中穩(wěn)定工作,同時還能與人類員工安全協(xié)作。
在家庭服務(wù)方面,這項(xiàng)技術(shù)也將產(chǎn)生深遠(yuǎn)影響。家用服務(wù)機(jī)器人將能夠幫助人們完成更多實(shí)用的家務(wù)工作,比如為臥床的老人送水送藥,為忙碌的父母準(zhǔn)備孩子的飲料,或者在家庭聚會時協(xié)助上菜服務(wù)。對于行動不便的老年人和殘障人士來說,這樣的機(jī)器人助手將極大地改善他們的生活質(zhì)量和獨(dú)立性。
研究團(tuán)隊(duì)還特別指出,這項(xiàng)技術(shù)在極端環(huán)境中具有獨(dú)特價值。在核電站、化學(xué)工廠等高風(fēng)險環(huán)境中,人類工作者面臨巨大的安全風(fēng)險,而機(jī)器人可以代替人類完成危險的液體搬運(yùn)工作。在太空探索中,宇航員的每一個動作都極其珍貴,機(jī)器人助手能夠承擔(dān)更多的輔助工作,讓宇航員專注于更重要的科學(xué)研究。
**六、技術(shù)挑戰(zhàn)與未來發(fā)展**
盡管FluidLoco取得了令人矚目的成功,但研究團(tuán)隊(duì)也坦誠地討論了當(dāng)前仍面臨的挑戰(zhàn)和未來的發(fā)展方向。
目前最大的挑戰(zhàn)之一是成本控制。FluidLoco系統(tǒng)需要高精度的傳感器和強(qiáng)大的計(jì)算能力,這使得整套系統(tǒng)的成本相對較高。研究團(tuán)隊(duì)正在努力尋找更經(jīng)濟(jì)的技術(shù)方案,比如使用更便宜但同樣有效的傳感器,或者開發(fā)更高效的算法來降低對計(jì)算資源的需求。他們的目標(biāo)是在未來幾年內(nèi)將系統(tǒng)成本降低到商業(yè)應(yīng)用可接受的水平。
另一個技術(shù)挑戰(zhàn)是電池續(xù)航能力。因?yàn)橄到y(tǒng)需要實(shí)時進(jìn)行復(fù)雜的計(jì)算和精確的控制,所以對電能的消耗相對較大。在長時間的工作中,如何保證機(jī)器人有足夠的電力支持是一個需要解決的問題。研究團(tuán)隊(duì)正在探索更節(jié)能的控制算法,以及與新型電池技術(shù)的結(jié)合應(yīng)用。
在技術(shù)完善方面,研究團(tuán)隊(duì)還在繼續(xù)擴(kuò)展系統(tǒng)能夠處理的液體類型。目前的系統(tǒng)主要針對常見的低粘度液體進(jìn)行了優(yōu)化,但對于蜂蜜、機(jī)油等高粘度液體,或者含有懸浮顆粒的液體,系統(tǒng)的表現(xiàn)還有改進(jìn)空間。他們正在收集更多類型液體的數(shù)據(jù),訓(xùn)練更通用的預(yù)測模型。
安全性是另一個重要的考慮因素。雖然機(jī)器人在大多數(shù)情況下表現(xiàn)出色,但在極少數(shù)情況下仍可能出現(xiàn)預(yù)料之外的行為。研究團(tuán)隊(duì)正在開發(fā)更完善的安全機(jī)制,包括緊急停止系統(tǒng)、液體濺出預(yù)警系統(tǒng),以及與人類操作員的協(xié)作保護(hù)機(jī)制。
展望未來,研究團(tuán)隊(duì)設(shè)想了一些激動人心的發(fā)展方向。他們正在研究如何讓機(jī)器人同時搬運(yùn)多個容器,這將大大提高工作效率。他們還在探索讓機(jī)器人學(xué)會更復(fù)雜的液體操作技能,比如精確傾倒、混合不同液體,甚至是基本的調(diào)酒技巧。
更長遠(yuǎn)的目標(biāo)是開發(fā)出能夠在三維空間中自由移動的飛行機(jī)器人液體搬運(yùn)系統(tǒng)。設(shè)想一下,在大型倉庫或工廠中,無人機(jī)能夠在空中穩(wěn)定地運(yùn)輸液體,這將徹底革命化現(xiàn)有的物流和運(yùn)輸模式。
研究團(tuán)隊(duì)還在與多個行業(yè)的合作伙伴接洽,計(jì)劃在未來兩年內(nèi)推出針對特定應(yīng)用場景的商業(yè)化產(chǎn)品。他們特別看好醫(yī)療和餐飲服務(wù)領(lǐng)域的應(yīng)用前景,認(rèn)為這些領(lǐng)域的市場需求最為迫切,技術(shù)要求也最為匹配。
說到底,F(xiàn)luidLoco代表的不僅僅是一項(xiàng)技術(shù)突破,更是機(jī)器人向真正實(shí)用化邁出的重要一步。長期以來,機(jī)器人一直在努力突破實(shí)驗(yàn)室的限制,進(jìn)入真實(shí)世界為人類服務(wù)。液體搬運(yùn)這個看似簡單卻極其復(fù)雜的任務(wù),一直是橫在這條道路上的重要障礙之一。
斯坦福團(tuán)隊(duì)的成功證明,通過巧妙的技術(shù)設(shè)計(jì)和持續(xù)的創(chuàng)新努力,機(jī)器人確實(shí)能夠掌握這些精妙的技能。更重要的是,這項(xiàng)研究為解決其他類似的復(fù)雜任務(wù)提供了寶貴的思路和方法。我們有理由相信,在不久的將來,我們將看到更多能夠在真實(shí)世界中靈活工作的智能機(jī)器人。
這項(xiàng)研究的成功也提醒我們,人工智能和機(jī)器人技術(shù)的發(fā)展并不總是需要顛覆性的革命,有時候,對看似平凡任務(wù)的精益求精同樣能夠產(chǎn)生深遠(yuǎn)的影響。當(dāng)我們的機(jī)器人伙伴能夠像人類一樣自如地處理日常生活中的各種細(xì)節(jié)時,那個科幻電影中的未來世界也許就真的不再遙遠(yuǎn)了。
對于那些希望深入了解這項(xiàng)研究技術(shù)細(xì)節(jié)的讀者,建議查閱發(fā)表在2024年機(jī)器人學(xué)會議上的完整論文,其中包含了詳細(xì)的技術(shù)方案、實(shí)驗(yàn)數(shù)據(jù)和代碼實(shí)現(xiàn),為進(jìn)一步的研究和應(yīng)用開發(fā)提供了寶貴的參考。
Q&A
Q1:FluidLoco系統(tǒng)是什么?它解決了什么問題? A:FluidLoco是斯坦福大學(xué)開發(fā)的機(jī)器人液體搬運(yùn)系統(tǒng),解決了機(jī)器人無法在復(fù)雜現(xiàn)實(shí)環(huán)境中穩(wěn)定搬運(yùn)液體的難題。傳統(tǒng)機(jī)器人一遇到臺階、不平地面或外力干擾就會讓液體大量濺出,而FluidLoco讓機(jī)器人能像經(jīng)驗(yàn)豐富的服務(wù)員一樣,在各種復(fù)雜環(huán)境中都能保持液體穩(wěn)定。
Q2:這個技術(shù)什么時候能在日常生活中看到? A:研究團(tuán)隊(duì)計(jì)劃在未來兩年內(nèi)推出商業(yè)化產(chǎn)品,首先會應(yīng)用在醫(yī)療和餐飲服務(wù)領(lǐng)域。不過目前成本還比較高,需要進(jìn)一步優(yōu)化才能大規(guī)模普及。預(yù)計(jì)3-5年內(nèi)我們就能在高檔餐廳或醫(yī)院里看到使用這種技術(shù)的服務(wù)機(jī)器人。
Q3:FluidLoco機(jī)器人搬運(yùn)液體的成功率有多高? A:在復(fù)雜環(huán)境測試中,F(xiàn)luidLoco的液體搬運(yùn)成功率超過85%,液體濺出率控制在5%以下,這個表現(xiàn)已經(jīng)接近人類在類似條件下的水平。相比傳統(tǒng)方法60%以上的失敗率,這是一個巨大的突破。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。