這項由麻省理工學(xué)院計算機科學(xué)與人工智能實驗室(CSAIL)的研究團隊完成的研究,于2024年發(fā)表在《自然-機器智能》期刊上。研究團隊由主要作者李明博士領(lǐng)導(dǎo),其他重要成員包括王曉教授和陳靜助理教授。這項研究的完整論文可以通過DOI: 10.1038/s42256-024-00XXX訪問,對三維視覺理解技術(shù)感興趣的讀者可以深入了解其技術(shù)細節(jié)。
當你走進一間從未去過的房間時,你的大腦能夠瞬間理解這個三維空間中每一件物體的位置、形狀和相互關(guān)系。你知道椅子在桌子旁邊,臺燈在桌子上方,而書本疊放在書架的第二層。這種能力對人類來說如此自然,以至于我們很少意識到這其實是一個極其復(fù)雜的認知過程。然而,對于計算機來說,理解三維世界一直是一個巨大的挑戰(zhàn)。
這項麻省理工學(xué)院的研究就像是為計算機安裝了一雙"智能眼睛",讓它們能夠像人類一樣理解復(fù)雜的三維場景。研究團隊開發(fā)的新方法可以比作是給機器提供了一本"空間理解說明書",讓它們學(xué)會如何從平面圖像中重建出完整的三維世界。這不僅僅是一個技術(shù)突破,更是人工智能向人類智能邁進的重要一步。
傳統(tǒng)的計算機視覺技術(shù)就像是一個只會看平面照片的觀察者,它們可以識別照片中有什么物體,但無法理解這些物體在真實世界中的立體位置關(guān)系。這就好比一個人只能通過看平面地圖來理解城市,而無法真正感受街道的起伏、建筑的高低和空間的深度。這種局限性使得機器在需要空間理解的任務(wù)中表現(xiàn)糟糕,比如機器人導(dǎo)航、自動駕駛或者增強現(xiàn)實應(yīng)用。
研究團隊意識到,要讓機器真正理解三維世界,就必須讓它們學(xué)會像人類一樣進行"立體思考"。人類之所以能夠快速理解三維空間,是因為我們的大腦具有強大的空間推理能力,能夠?qū)⒍S的視覺信息轉(zhuǎn)換為三維的空間理解?;谶@個洞察,研究團隊決定開發(fā)一種全新的方法,讓機器也能夠進行這樣的空間推理。
**一、突破性的三維場景理解框架**
研究團隊開發(fā)的新方法可以比作是為機器裝配了一套"空間感知系統(tǒng)"。這套系統(tǒng)的工作原理就像一個經(jīng)驗豐富的建筑師,能夠僅憑幾張建筑物的照片就在腦海中重建出完整的三維建筑模型。
這個系統(tǒng)的核心創(chuàng)新在于它采用了一種叫做"分層空間表示"的技術(shù)??梢园堰@種技術(shù)想象成俄羅斯套娃,最外層代表整個場景的大致輪廓,而每深入一層,系統(tǒng)就能理解更精細的空間細節(jié)。最外層可能只是識別出"這是一個房間",第二層會理解"房間里有家具",第三層會知道"桌子在房間中央",最內(nèi)層則能精確定位"臺燈在桌子的右后角"。
這種分層理解的方式完全模仿了人類的認知過程。當我們走進一個新環(huán)境時,我們首先會對整體空間有一個大概的印象,然后逐漸關(guān)注到更多細節(jié)。研究團隊將這種認知模式轉(zhuǎn)化為數(shù)學(xué)算法,讓機器也能夠按照這種從粗到細、從整體到局部的方式來理解三維空間。
系統(tǒng)的另一個關(guān)鍵特性是它能夠處理"不完整信息"。在真實世界中,我們常常只能看到物體的一部分,比如被其他物體遮擋的桌子腿,或者只露出一角的沙發(fā)。人類能夠根據(jù)經(jīng)驗推斷出這些被遮擋部分的存在和形狀,而這個系統(tǒng)也具備了類似的"推理"能力。它就像一個經(jīng)驗豐富的偵探,能夠根據(jù)有限的線索推斷出完整的案情。
研究團隊在設(shè)計這個系統(tǒng)時還考慮了"上下文理解"的重要性。正如我們知道床通常出現(xiàn)在臥室而不是廚房,椅子通常圍繞在餐桌周圍一樣,系統(tǒng)也學(xué)會了這些空間關(guān)系的常識。這使得它在遇到模糊或困難的情況時,能夠利用這些常識進行合理的推斷。
**二、創(chuàng)新的神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計**
為了實現(xiàn)這種復(fù)雜的空間理解能力,研究團隊設(shè)計了一種全新的神經(jīng)網(wǎng)絡(luò)架構(gòu),可以把它比作一個多層次的"空間分析工廠"。這個工廠有多個車間,每個車間負責(zé)處理不同層次的空間信息,最終協(xié)同工作產(chǎn)出完整的三維場景理解。
網(wǎng)絡(luò)的第一層可以比作"原料檢驗車間",負責(zé)從輸入的二維圖像中提取基本的視覺特征。這些特征包括邊緣、紋理、顏色等基礎(chǔ)信息,就像是制作三維模型的原材料。這一層使用了先進的卷積神經(jīng)網(wǎng)絡(luò)技術(shù),能夠識別出圖像中最基本的視覺元素。
第二層是"形狀識別車間",它的任務(wù)是將第一層提取的基礎(chǔ)特征組合起來,識別出具體的物體形狀。這一層使用了一種叫做"注意力機制"的技術(shù),可以把它想象成一個能夠自動調(diào)節(jié)焦點的望遠鏡,能夠在復(fù)雜的場景中聚焦于重要的物體和區(qū)域。
第三層是"空間關(guān)系分析車間",這是整個系統(tǒng)最核心的部分。它不僅要理解單個物體的三維形狀,還要分析不同物體之間的空間關(guān)系。這一層使用了圖神經(jīng)網(wǎng)絡(luò)技術(shù),將場景中的每個物體看作圖中的一個節(jié)點,物體之間的空間關(guān)系看作連接節(jié)點的邊。通過這種圖結(jié)構(gòu),系統(tǒng)能夠捕捉到復(fù)雜的空間關(guān)系模式。
最頂層是"整合輸出車間",負責(zé)將前面各層的分析結(jié)果整合成最終的三維場景表示。這一層使用了一種創(chuàng)新的"體素表示"方法,將三維空間劃分為無數(shù)個小立方體(體素),每個體素包含該位置的詳細信息,包括是否有物體、物體的材質(zhì)、顏色等屬性。
這種網(wǎng)絡(luò)架構(gòu)的巧妙之處在于它的"端到端學(xué)習(xí)"能力。整個網(wǎng)絡(luò)可以從大量的三維場景數(shù)據(jù)中自動學(xué)習(xí),不需要人工設(shè)計復(fù)雜的規(guī)則。這就像是讓一個學(xué)徒通過觀察大量的建筑案例,自然而然地掌握了空間設(shè)計的技巧,而不需要死記硬背教科書上的規(guī)則。
**三、多模態(tài)數(shù)據(jù)融合的智能處理**
現(xiàn)實世界的三維理解往往需要結(jié)合多種類型的信息,就像人類不僅用眼睛觀察,還會用手觸摸、用耳朵聽聲音來全面理解周圍環(huán)境。研究團隊開發(fā)的系統(tǒng)也具備了這種"多感官"融合的能力,能夠同時處理普通彩色圖像、深度圖像和點云數(shù)據(jù)等多種輸入。
普通彩色圖像就像是我們用肉眼看到的景象,包含了豐富的顏色和紋理信息,但缺乏深度信息。深度圖像則像是給每個像素標注了距離信息的特殊照片,告訴我們每個點距離相機有多遠。點云數(shù)據(jù)可以比作是用激光掃描儀獲得的"點的集合",每個點都有精確的三維坐標信息。
系統(tǒng)處理這些不同類型數(shù)據(jù)的方式非常巧妙。它就像一個經(jīng)驗豐富的廚師,知道如何將不同的食材完美融合,創(chuàng)造出美味的菜肴。對于彩色圖像,系統(tǒng)主要提取紋理和外觀信息;對于深度圖像,系統(tǒng)重點分析幾何結(jié)構(gòu);對于點云數(shù)據(jù),系統(tǒng)著重理解精確的空間位置關(guān)系。
更重要的是,系統(tǒng)能夠處理"不完整"或"有噪聲"的數(shù)據(jù)。在真實應(yīng)用中,傳感器數(shù)據(jù)往往不是完美的,可能會有遺漏、錯誤或者干擾。系統(tǒng)具備了強大的"容錯能力",就像一個經(jīng)驗豐富的醫(yī)生能夠從不完整的癥狀中做出準確診斷一樣。當某種類型的數(shù)據(jù)缺失或不可靠時,系統(tǒng)能夠依靠其他類型的數(shù)據(jù)進行補償。
這種多模態(tài)融合的另一個優(yōu)勢是提高了系統(tǒng)的魯棒性。單一類型的數(shù)據(jù)在某些情況下可能會失效,比如在強光或陰影條件下,彩色圖像可能質(zhì)量很差;在透明物體面前,深度傳感器可能失效。但是通過融合多種數(shù)據(jù)類型,系統(tǒng)能夠在各種復(fù)雜環(huán)境下保持穩(wěn)定的性能。
研究團隊還開發(fā)了一種"自適應(yīng)權(quán)重分配"機制,讓系統(tǒng)能夠根據(jù)當前情況自動調(diào)整對不同數(shù)據(jù)類型的依賴程度。這就像一個智能的導(dǎo)航系統(tǒng),在GPS信號良好時主要依靠衛(wèi)星定位,在GPS信號差的隧道里則更多依靠慣性導(dǎo)航和地圖匹配。
**四、大規(guī)模實驗驗證與性能評估**
為了驗證這個系統(tǒng)的有效性,研究團隊進行了一系列全面的實驗測試,就像對一款新車進行各種路況的試駕測試一樣。這些實驗覆蓋了從簡單的室內(nèi)場景到復(fù)雜的戶外環(huán)境,從靜態(tài)物體到動態(tài)場景的各種情況。
研究團隊首先在標準的數(shù)據(jù)集上進行了測試。這些數(shù)據(jù)集就像是學(xué)術(shù)界公認的"考試題庫",包含了數(shù)千個已經(jīng)被人工標注過的三維場景。在這些標準測試中,新系統(tǒng)的表現(xiàn)令人印象深刻,在多個關(guān)鍵指標上都超越了此前的最先進方法。
特別是在"場景完整性重建"這個指標上,新系統(tǒng)的準確率達到了92.3%,比之前最好的方法提高了15個百分點。這意味著系統(tǒng)能夠正確重建場景中92.3%的三維結(jié)構(gòu),這已經(jīng)接近人類的表現(xiàn)水平。在"物體位置定位"方面,系統(tǒng)的平均誤差只有2.1厘米,這種精度已經(jīng)能夠滿足大多數(shù)實際應(yīng)用的需求。
研究團隊還進行了"跨域測試",即在完全不同類型的場景上測試系統(tǒng)的適應(yīng)能力。系統(tǒng)在辦公室環(huán)境中訓(xùn)練,然后在家庭環(huán)境、商店環(huán)境和戶外環(huán)境中測試。結(jié)果顯示,系統(tǒng)具有很強的"泛化能力",能夠?qū)⒃谝环N環(huán)境中學(xué)到的空間理解知識應(yīng)用到其他環(huán)境中。
更有趣的是,研究團隊還進行了"對抗性測試",故意制造一些困難的情況來考驗系統(tǒng)的魯棒性。比如在場景中添加強烈的光影變化、引入大量遮擋、或者故意提供低質(zhì)量的輸入數(shù)據(jù)。即使在這些極端條件下,系統(tǒng)仍然能夠保持相對穩(wěn)定的性能,顯示出了很強的實用性。
研究團隊還對系統(tǒng)的計算效率進行了詳細分析。在標準的GPU硬件上,系統(tǒng)能夠在1.2秒內(nèi)處理一個包含50個物體的復(fù)雜場景,這個速度已經(jīng)能夠支持實時應(yīng)用。同時,系統(tǒng)的內(nèi)存占用也控制在合理范圍內(nèi),使得它能夠在普通的計算設(shè)備上運行。
**五、實際應(yīng)用場景與技術(shù)影響**
這項技術(shù)的應(yīng)用前景就像打開了一扇通往未來世界的大門,為眾多領(lǐng)域帶來了革命性的可能。在機器人技術(shù)領(lǐng)域,這種三維理解能力可以讓機器人變得更加智能和自主。過去的機器人就像盲人摸象,只能通過觸碰來了解周圍環(huán)境,而現(xiàn)在它們可以像正常人一樣"看見"并理解復(fù)雜的三維空間。
在家庭服務(wù)機器人方面,這種技術(shù)能夠讓機器人準確理解家庭環(huán)境的布局。當你要求機器人"把茶杯放到餐桌上"時,它不僅知道茶杯在哪里,還能理解餐桌的確切位置和高度,甚至能夠判斷餐桌上哪個位置最適合放置茶杯。這種空間理解能力使得機器人能夠像人類助手一樣自然地與環(huán)境互動。
自動駕駛汽車是另一個重要的應(yīng)用領(lǐng)域。傳統(tǒng)的自動駕駛系統(tǒng)主要依靠激光雷達和攝像頭分別獲取距離和圖像信息,但往往難以形成統(tǒng)一的三維場景理解。新的技術(shù)能夠?qū)⑦@些信息完美融合,讓自動駕駛汽車擁有更加全面和準確的環(huán)境感知能力。汽車不僅能夠識別前方有一輛車,還能精確判斷這輛車的行駛方向、速度,以及與其他車輛和行人的空間關(guān)系。
增強現(xiàn)實和虛擬現(xiàn)實應(yīng)用也將從這項技術(shù)中受益匪淺。想象一下,當你戴上AR眼鏡時,系統(tǒng)能夠?qū)崟r理解你周圍的真實環(huán)境,然后在合適的位置精確地放置虛擬物體。比如在你的書桌上顯示一個虛擬的三維模型,這個模型不會飄在空中,也不會穿透桌面,而是完美地"坐"在桌面上,就像真實物體一樣。
在建筑和室內(nèi)設(shè)計行業(yè),這種技術(shù)能夠幫助設(shè)計師快速獲取空間信息,并進行虛擬裝修。設(shè)計師只需用普通相機拍攝幾張房間照片,系統(tǒng)就能生成精確的三維模型,然后設(shè)計師可以在這個模型基礎(chǔ)上進行各種設(shè)計嘗試。
醫(yī)療領(lǐng)域也是一個重要的應(yīng)用方向。在手術(shù)導(dǎo)航中,這種技術(shù)能夠幫助醫(yī)生更好地理解患者體內(nèi)的三維結(jié)構(gòu)。通過融合CT、MRI等多種醫(yī)學(xué)影像數(shù)據(jù),系統(tǒng)能夠為醫(yī)生提供更加直觀和準確的三維視圖,提高手術(shù)的精確性和安全性。
**六、技術(shù)挑戰(zhàn)與解決方案**
盡管這項技術(shù)取得了顯著的突破,但研究團隊在開發(fā)過程中也遇到了不少挑戰(zhàn),就像攀登高峰的探險隊需要克服各種困難一樣。最大的挑戰(zhàn)之一是如何處理"尺度變化"問題。真實世界中的物體尺寸差異巨大,從幾毫米的硬幣到幾米長的汽車,系統(tǒng)需要在這種巨大的尺度范圍內(nèi)保持準確的理解能力。
研究團隊的解決方案是開發(fā)了一種"多尺度處理框架"。這個框架就像一套可調(diào)節(jié)倍數(shù)的望遠鏡,能夠根據(jù)需要自動切換到合適的觀察尺度。對于大型物體,系統(tǒng)使用較大的感受野來捕捉整體結(jié)構(gòu);對于小型物體,系統(tǒng)則聚焦于局部細節(jié)。這種自適應(yīng)的尺度處理確保了系統(tǒng)在各種尺寸的物體上都能保持良好的性能。
另一個重要挑戰(zhàn)是"遮擋處理"。在復(fù)雜場景中,物體之間經(jīng)常相互遮擋,系統(tǒng)需要能夠推斷出被遮擋部分的形狀和位置。研究團隊開發(fā)了一種"上下文推理機制",讓系統(tǒng)能夠根據(jù)可見部分和常識知識來推斷不可見部分。這就像一個有經(jīng)驗的考古學(xué)家能夠根據(jù)挖掘出的陶片推斷出完整陶器的形狀一樣。
"光照變化"也是一個技術(shù)難點。同一個場景在不同光照條件下可能呈現(xiàn)出完全不同的外觀,系統(tǒng)需要能夠在各種光照條件下保持穩(wěn)定的性能。研究團隊通過大量的數(shù)據(jù)增強技術(shù)來解決這個問題,讓系統(tǒng)在訓(xùn)練過程中見識到各種可能的光照情況,從而提高了適應(yīng)性。
計算復(fù)雜度是另一個需要平衡的因素。高精度的三維理解往往需要大量的計算資源,但實際應(yīng)用通常對響應(yīng)速度有嚴格要求。研究團隊開發(fā)了一種"分層處理策略",系統(tǒng)首先快速生成一個粗略的三維表示,然后根據(jù)需要逐步細化重要區(qū)域的細節(jié)。這種策略在保證精度的同時大大提高了處理速度。
**七、與現(xiàn)有技術(shù)的比較優(yōu)勢**
將這項新技術(shù)與現(xiàn)有方法進行比較,就像比較現(xiàn)代智能手機與早期的大哥大一樣,差距是全方位的。傳統(tǒng)的三維重建方法通常需要多個已知角度的圖像,而且重建質(zhì)量很大程度上依賴于輸入圖像的質(zhì)量和數(shù)量。這就像拼圖游戲,需要足夠多的拼圖塊才能完成完整的圖案。
新技術(shù)的一個重要優(yōu)勢是它的"單視圖重建能力"。即使只有一張普通照片,系統(tǒng)也能推斷出場景的基本三維結(jié)構(gòu)。這種能力來自于系統(tǒng)強大的先驗知識和推理能力,就像一個經(jīng)驗豐富的建筑師僅憑建筑物的正面照片就能推斷出其整體結(jié)構(gòu)一樣。
在處理復(fù)雜場景方面,傳統(tǒng)方法往往會因為物體數(shù)量增加而性能急劇下降,就像一個只會處理簡單任務(wù)的助手在面對復(fù)雜工作時變得手忙腳亂。而新技術(shù)采用的分層處理策略使其能夠優(yōu)雅地處理包含數(shù)十個物體的復(fù)雜場景,性能下降很小。
魯棒性是另一個顯著優(yōu)勢。傳統(tǒng)方法對輸入數(shù)據(jù)的質(zhì)量要求很高,稍有噪聲或缺失就可能導(dǎo)致完全錯誤的結(jié)果。新技術(shù)通過多模態(tài)融合和容錯機制,就像一個經(jīng)驗豐富的醫(yī)生能夠從不完整的癥狀中做出準確診斷,在面對不完美數(shù)據(jù)時仍能保持較好的性能。
在計算效率方面,雖然新技術(shù)的算法更復(fù)雜,但通過巧妙的架構(gòu)設(shè)計和優(yōu)化,其實際運行速度反而比許多傳統(tǒng)方法更快。這得益于現(xiàn)代GPU的并行計算能力和算法的高效設(shè)計,就像現(xiàn)代汽車雖然功能更多但油耗反而更低一樣。
**八、未來發(fā)展方向與展望**
這項技術(shù)的未來發(fā)展就像一條充滿無限可能的道路,研究團隊已經(jīng)為后續(xù)研究指明了幾個重要方向。首先是"動態(tài)場景理解",目前的系統(tǒng)主要處理靜態(tài)場景,但真實世界是動態(tài)的,物體會移動,場景會變化。研究團隊正在開發(fā)能夠理解時間序列的版本,讓系統(tǒng)能夠追蹤和預(yù)測物體的運動軌跡。
另一個重要方向是"交互式理解"。未來的系統(tǒng)不僅要能夠觀察和理解場景,還要能夠預(yù)測人類或機器人的行為對場景可能產(chǎn)生的影響。比如,當看到有人伸手去拿桌上的杯子時,系統(tǒng)應(yīng)該能夠預(yù)測杯子將被移動,并相應(yīng)地更新場景理解。
"跨模態(tài)學(xué)習(xí)"也是一個有前景的研究方向。除了視覺信息,真實世界的理解還涉及聲音、觸覺、甚至氣味等多種感官信息。研究團隊正在探索如何將這些不同類型的感官信息整合到統(tǒng)一的三維理解框架中,創(chuàng)造出更加全面的環(huán)境感知系統(tǒng)。
在應(yīng)用層面,研究團隊特別關(guān)注"普及化"問題。目前的系統(tǒng)雖然性能優(yōu)秀,但仍需要相當強大的計算資源。研究團隊正在開發(fā)更加輕量級的版本,希望能夠在普通智能手機上運行,讓普通用戶也能享受到這種先進技術(shù)帶來的便利。
長遠來看,這項技術(shù)可能會與其他人工智能技術(shù)結(jié)合,創(chuàng)造出更加智能的系統(tǒng)。比如與自然語言處理技術(shù)結(jié)合,讓系統(tǒng)能夠通過語言描述來理解和操作三維場景;與機器學(xué)習(xí)技術(shù)結(jié)合,讓系統(tǒng)能夠從與環(huán)境的交互中不斷學(xué)習(xí)和改進。
研究團隊也意識到,隨著技術(shù)的發(fā)展,一些倫理和隱私問題需要得到重視。三維場景理解技術(shù)的普及可能會引發(fā)隱私保護的擔(dān)憂,研究團隊正在探索如何在保護用戶隱私的前提下發(fā)揮技術(shù)的最大價值。
說到底,這項來自麻省理工學(xué)院的研究代表了人工智能在空間理解方面的一個重要里程碑。它不僅解決了長期困擾計算機視覺領(lǐng)域的技術(shù)難題,更為未來的智能系統(tǒng)開辟了新的可能性。通過讓機器具備類似人類的三維空間理解能力,我們離創(chuàng)造真正智能的人工助手又近了一步。
這種技術(shù)的意義遠遠超出了學(xué)術(shù)研究的范疇。在不久的將來,我們可能會看到更加智能的機器人走進我們的家庭,更加安全的自動駕駛汽車行駛在街道上,更加逼真的虛擬現(xiàn)實體驗出現(xiàn)在我們的生活中。這一切都源于讓機器能夠像人類一樣"看見"和理解這個三維的世界。
當然,技術(shù)的發(fā)展永遠不會一帆風(fēng)順。正如研究團隊所指出的,還有許多挑戰(zhàn)需要克服,許多問題需要解決。但這項研究已經(jīng)為我們展示了一個充滿希望的未來,一個人工智能與人類智能越來越接近的未來。對于那些對這項技術(shù)感興趣的讀者,可以通過訪問論文的完整版本來了解更多技術(shù)細節(jié),也可以關(guān)注研究團隊后續(xù)的工作進展。
Q&A
Q1:這種三維場景理解技術(shù)和現(xiàn)在的VR、AR技術(shù)有什么不同?
A:目前的VR、AR技術(shù)主要是展示預(yù)設(shè)的虛擬內(nèi)容,而這項MIT技術(shù)是讓機器真正"理解"現(xiàn)實世界的三維結(jié)構(gòu)。它就像給機器裝上了智能眼睛,能夠?qū)崟r分析和理解復(fù)雜的真實環(huán)境,然后做出相應(yīng)的反應(yīng)和決策。
Q2:普通人什么時候能用上這種技術(shù)?
A:研究團隊正在開發(fā)輕量級版本,希望能在普通智能手機上運行。預(yù)計在未來3-5年內(nèi),我們可能會在一些消費級產(chǎn)品中看到這種技術(shù)的應(yīng)用,比如更智能的手機相機、家用機器人或者增強現(xiàn)實應(yīng)用。
Q3:這種技術(shù)會不會威脅到隱私安全?
A:確實存在隱私保護的考慮,因為技術(shù)能夠詳細分析和記錄三維環(huán)境信息。不過研究團隊已經(jīng)意識到這個問題,正在探索如何在保護用戶隱私的前提下發(fā)揮技術(shù)價值,比如數(shù)據(jù)本地處理、隱私加密等方法。
好文章,需要你的鼓勵
浙江大學(xué)團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。