這項(xiàng)由新加坡南洋理工大學(xué)S-Lab實(shí)驗(yàn)室的藍(lán)宇時、羅藝航、洪方舟、周尚宸等研究團(tuán)隊(duì)完成的開創(chuàng)性工作,發(fā)表于2025年8月的arXiv預(yù)印本平臺。對這項(xiàng)技術(shù)感興趣的讀者可以通過論文編號arXiv:2508.10893v1訪問完整研究內(nèi)容,也可以訪問項(xiàng)目網(wǎng)站https://nirvanalan.github.io/projects/stream3r獲取更多信息。
過去,當(dāng)我們想要從一系列照片中重建出三維場景時,就像拼圖一樣復(fù)雜——需要把所有照片同時擺在桌子上,反復(fù)對比調(diào)整,直到找到每一片的正確位置。這種傳統(tǒng)方法不僅耗時費(fèi)力,而且當(dāng)照片數(shù)量增加時,計(jì)算量會呈幾何級數(shù)增長,就像試圖同時記住成千上萬個人的名字一樣困難。
然而,研究團(tuán)隊(duì)提出了一個全新的思路:為什么不能像我們閱讀一本書或觀看一部電影那樣,按順序逐幀處理圖像呢?這就是他們開發(fā)的STREAM3R系統(tǒng)的核心理念。這個名字中的"STREAM"代表流式處理,"3R"則指代3D重建,整個系統(tǒng)的工作方式就像一位經(jīng)驗(yàn)豐富的導(dǎo)游,每到一個新地方都能迅速理解周圍的環(huán)境,并將新信息與之前的記憶完美結(jié)合。
一、傳統(tǒng)方法的局限與新思路的誕生
在理解STREAM3R的革新意義之前,我們需要先了解傳統(tǒng)3D重建方法面臨的困境。設(shè)想你要為一座古老的城堡制作完整的3D模型,傳統(tǒng)方法就像要求你同時觀察城堡的每一個角落,然后在腦海中瞬間構(gòu)建出完整圖像。這種"全知視角"的要求不僅不現(xiàn)實(shí),而且隨著照片數(shù)量的增加,處理難度會急劇攀升。
更具體地說,當(dāng)我們有兩張照片時,系統(tǒng)需要處理的關(guān)系數(shù)量是1個;有三張照片時變成3個;有四張照片時變成6個;而當(dāng)照片數(shù)量達(dá)到一百張時,需要處理的關(guān)系竟然接近5000個。這就像在一個派對上,每增加一個客人,需要介紹的關(guān)系網(wǎng)就呈爆炸式增長。
面對這個挑戰(zhàn),研究團(tuán)隊(duì)受到了現(xiàn)代語言模型的啟發(fā)。大家都知道ChatGPT這樣的人工智能系統(tǒng)能夠流暢地進(jìn)行對話,它們的秘訣在于能夠記住之前的對話內(nèi)容,并基于這些歷史信息來生成新的回應(yīng)。研究團(tuán)隊(duì)想到:既然語言模型可以這樣處理文字序列,為什么3D重建不能以同樣的方式處理圖像序列呢?
這個想法催生了STREAM3R的核心創(chuàng)新:因果注意力機(jī)制。就像一位優(yōu)秀的講故事者,總是基于前面的情節(jié)來推進(jìn)故事發(fā)展,STREAM3R在處理每一張新圖像時,都會參考之前已經(jīng)處理過的所有圖像信息,但絕不會"偷看"后面還未處理的圖像。
二、STREAM3R的工作原理:像閱讀故事一樣理解空間
STREAM3R的工作方式可以用閱讀一本懸疑小說來類比。當(dāng)你翻開小說的第一頁時,你對故事背景一無所知;讀到第二頁時,你開始有了初步印象;到第三頁、第四頁,你對人物關(guān)系和情節(jié)發(fā)展有了更深的理解。關(guān)鍵是,你的理解過程是累積性的——每一頁新內(nèi)容都建立在前面所有頁面的基礎(chǔ)之上。
在技術(shù)實(shí)現(xiàn)上,STREAM3R采用了類似GPT的解碼器架構(gòu),這就像為3D重建定制了一個專門的"大腦"。這個大腦的特殊之處在于,它有一種叫做"KV緩存"的記憶機(jī)制,能夠?qū)⒅疤幚磉^的圖像特征儲存起來,就像在腦海中保留重要的記憶片段。
當(dāng)一張新的圖像進(jìn)入系統(tǒng)時,首先會經(jīng)過一個叫做ViT編碼器的組件,這個組件的作用就像是將圖像"翻譯"成系統(tǒng)能夠理解的語言。接著,這些經(jīng)過翻譯的信息會被送入解碼器,在這里發(fā)生真正的魔法:新圖像的信息會與之前存儲的所有歷史信息進(jìn)行"對話",通過因果注意力機(jī)制找出它們之間的空間關(guān)系。
這個過程中最巧妙的設(shè)計(jì)是引入了一個特殊的"注冊令牌"??梢园阉胂蟪梢粋€坐標(biāo)原點(diǎn)標(biāo)記,就像在地圖上標(biāo)注"您在這里"的那個紅點(diǎn)。系統(tǒng)通過這個標(biāo)記確定了整個三維世界的基準(zhǔn)點(diǎn),所有后續(xù)的空間信息都會以此為參照進(jìn)行組織。
三、雙坐標(biāo)系統(tǒng):既見森林又見樹木
STREAM3R的另一個重要創(chuàng)新是同時輸出兩套坐標(biāo)系統(tǒng)的點(diǎn)圖。這就像一位攝影師既要拍攝每棵樹的細(xì)節(jié)特寫,又要拍攝整片森林的全景圖。
第一套是"局部坐標(biāo)系統(tǒng)",它描述的是從當(dāng)前攝像機(jī)視角看到的三維信息,就像你站在房間里環(huán)顧四周時看到的景象。第二套是"全局坐標(biāo)系統(tǒng)",它將所有空間信息統(tǒng)一到一個固定的坐標(biāo)框架中,就像將所有房間的布局繪制在同一張建筑圖紙上。
這種雙重視角的設(shè)計(jì)帶來了巨大的實(shí)用價值。局部坐標(biāo)系統(tǒng)使得系統(tǒng)能夠快速響應(yīng)當(dāng)前環(huán)境的變化,適合實(shí)時導(dǎo)航和即時決策;而全局坐標(biāo)系統(tǒng)則提供了整體的空間理解,適合長期規(guī)劃和全局優(yōu)化。這就像GPS導(dǎo)航系統(tǒng)既能告訴你當(dāng)前路口該怎么走(局部信息),又能顯示整個路線在城市中的位置(全局信息)。
為了訓(xùn)練這個復(fù)雜的系統(tǒng),研究團(tuán)隊(duì)使用了一個名為"置信度感知回歸損失"的訓(xùn)練策略。簡單來說,就是讓系統(tǒng)在學(xué)習(xí)過程中不僅要預(yù)測正確答案,還要評估自己答案的可靠程度。這就像學(xué)生做題時不僅要給出答案,還要標(biāo)注自己對這個答案的信心指數(shù)。當(dāng)系統(tǒng)對某個預(yù)測很有信心時,預(yù)測錯誤的懲罰會更大;當(dāng)系統(tǒng)對預(yù)測不太確定時,懲罰相對較輕。這種訓(xùn)練方式幫助系統(tǒng)學(xué)會了更準(zhǔn)確的自我評估。
四、實(shí)驗(yàn)驗(yàn)證:在各種場景下展現(xiàn)實(shí)力
研究團(tuán)隊(duì)在29個不同的數(shù)據(jù)集上對STREAM3R進(jìn)行了全面測試,這些數(shù)據(jù)集涵蓋了從室內(nèi)房間到戶外街景,從靜態(tài)物體到動態(tài)場景的各種情況。這就像讓一個導(dǎo)游接受從古典建筑到現(xiàn)代都市,從博物館到游樂園的全方位考驗(yàn)。
在單目深度估計(jì)任務(wù)上,STREAM3R表現(xiàn)出了驚人的準(zhǔn)確性。在Sintel數(shù)據(jù)集上,它的絕對相對誤差僅為0.228,而準(zhǔn)確度(δ<1.25指標(biāo))達(dá)到了70.7%,這意味著超過70%的深度預(yù)測都在真實(shí)值的合理范圍內(nèi)。相比之下,其他先進(jìn)方法的準(zhǔn)確度大多在50-60%之間。這種差異就像兩個射箭手的對比:STREAM3R能夠十箭中七,而其他方法只能十箭中五或六。
在視頻深度估計(jì)這個更加困難的任務(wù)上,STREAM3R同樣表現(xiàn)出色。視頻深度估計(jì)不僅要求每一幀的深度預(yù)測準(zhǔn)確,還要求幀與幀之間的深度變化連貫一致,這就像要求畫家不僅每幅畫都要畫得好,整個系列畫作還要保持風(fēng)格統(tǒng)一。在KITTI數(shù)據(jù)集上,STREAM3R的絕對相對誤差只有0.080,準(zhǔn)確度高達(dá)94.7%,明顯優(yōu)于其他方法。
更令人印象深刻的是,STREAM3R在處理動態(tài)場景時展現(xiàn)出的魯棒性。傳統(tǒng)的3D重建方法通常假設(shè)場景是靜態(tài)的,當(dāng)場景中有移動物體時就容易出錯,就像試圖為一群活潑孩子拍合影一樣困難。但STREAM3R能夠有效處理這種情況,在TUM-dynamics數(shù)據(jù)集上,它的相機(jī)位置估計(jì)誤差僅為0.026米,遠(yuǎn)低于其他方法的0.046-0.098米。
五、速度優(yōu)勢:實(shí)時處理的技術(shù)突破
除了精度優(yōu)勢,STREAM3R在處理速度上也實(shí)現(xiàn)了重要突破。在標(biāo)準(zhǔn)GPU上,STREAM3R能夠以每秒12.95-32.93幀的速度處理視頻序列,這已經(jīng)達(dá)到了實(shí)時處理的要求。相比之下,傳統(tǒng)的全局優(yōu)化方法每秒只能處理0.31-0.76幀,差距就像高速公路上的汽車與步行者之間的速度差異。
這種速度優(yōu)勢主要來源于STREAM3R的流式處理設(shè)計(jì)。傳統(tǒng)方法每次處理新圖像時都需要重新開始整個計(jì)算過程,就像每次做菜都要重新準(zhǔn)備所有食材一樣低效。而STREAM3R通過KV緩存機(jī)制,能夠復(fù)用之前的計(jì)算結(jié)果,就像優(yōu)秀的廚師會提前準(zhǔn)備好基礎(chǔ)調(diào)料,每次只需加入新的食材即可。
研究團(tuán)隊(duì)還測試了滑動窗口版本的STREAM3R,即STREAM3R-W[5],它只保留最近5幀的歷史信息。有趣的是,這個"健忘"版本在某些數(shù)據(jù)集上的表現(xiàn)甚至超過了完整版本,同時處理速度更快(32.93 FPS)。這說明對于某些應(yīng)用場景,適度的"遺忘"反而能帶來更好的效果,就像清理電腦緩存能讓系統(tǒng)運(yùn)行更流暢一樣。
六、創(chuàng)新架構(gòu):從對稱到非對稱的轉(zhuǎn)變
STREAM3R在網(wǎng)絡(luò)架構(gòu)上做出了一個關(guān)鍵創(chuàng)新:從DUSt3R的對稱雙分支設(shè)計(jì)轉(zhuǎn)向了統(tǒng)一的單解碼器設(shè)計(jì)。這種變化的意義可以用交響樂團(tuán)的指揮來比喻:傳統(tǒng)方法像是需要兩個指揮分別指揮不同的樂器組,然后努力讓兩個組協(xié)調(diào)一致;而STREAM3R則像是用一個經(jīng)驗(yàn)豐富的總指揮來統(tǒng)一協(xié)調(diào)整個樂團(tuán)。
在傳統(tǒng)的DUSt3R中,處理兩張圖像需要兩個獨(dú)立的解碼器分支,這些分支通過交叉注意力機(jī)制進(jìn)行信息交換。雖然這種設(shè)計(jì)在處理圖像對時效果不錯,但難以擴(kuò)展到更多圖像。STREAM3R通過使用單一解碼器配合因果注意力機(jī)制,優(yōu)雅地解決了這個擴(kuò)展性問題。
這個統(tǒng)一解碼器的工作流程可以用傳送帶工廠來理解:每個圖像都像是傳送帶上的產(chǎn)品,按順序經(jīng)過同一套處理設(shè)備。每個產(chǎn)品(圖像)在加工時不僅利用當(dāng)前的加工工藝,還會參考之前所有產(chǎn)品的加工經(jīng)驗(yàn)。這樣既保證了加工質(zhì)量的一致性,又實(shí)現(xiàn)了經(jīng)驗(yàn)的累積傳承。
七、訓(xùn)練策略:端到端學(xué)習(xí)的力量
STREAM3R采用了端到端的訓(xùn)練策略,這意味著整個系統(tǒng)從輸入到輸出的所有組件都是同時學(xué)習(xí)和優(yōu)化的,就像培養(yǎng)一個全能運(yùn)動員,不是分別訓(xùn)練跑步、跳躍、投擲,而是通過綜合訓(xùn)練讓所有技能協(xié)調(diào)發(fā)展。
訓(xùn)練數(shù)據(jù)的多樣性也是STREAM3R成功的關(guān)鍵因素之一。研究團(tuán)隊(duì)使用了29個不同的數(shù)據(jù)集,涵蓋了Co3Dv2的日常物體、ScanNet的室內(nèi)場景、HyperSim的合成環(huán)境、Dynamic Replica的動態(tài)場景等。這種多樣化訓(xùn)練就像讓學(xué)生接受文理科全面教育,培養(yǎng)出適應(yīng)性更強(qiáng)的綜合能力。
特別值得一提的是,STREAM3R能夠同時在具有完整標(biāo)注的數(shù)據(jù)集和只有部分標(biāo)注的數(shù)據(jù)集上進(jìn)行訓(xùn)練。這就像一個學(xué)生既能從標(biāo)準(zhǔn)教科書學(xué)習(xí),也能從不完整的筆記中汲取知識。這種靈活性大大擴(kuò)展了可用于訓(xùn)練的數(shù)據(jù)范圍。
八、與競爭方法的比較:全面優(yōu)勢的體現(xiàn)
在與其他先進(jìn)方法的對比中,STREAM3R展現(xiàn)出了全面的優(yōu)勢。與同樣采用RNN架構(gòu)的CUT3R相比,STREAM3R在訓(xùn)練速度上快了60%,這就像兩個學(xué)生做同樣的作業(yè),一個用了60分鐘,另一個只用了36分鐘。
更重要的是,STREAM3R在訓(xùn)練過程中表現(xiàn)出更好的收斂特性。研究團(tuán)隊(duì)發(fā)現(xiàn),CUT3R在全局點(diǎn)圖預(yù)測上容易出現(xiàn)訓(xùn)練不穩(wěn)定的情況,而STREAM3R的訓(xùn)練曲線則更加平滑穩(wěn)定。這種差異可以用學(xué)習(xí)曲線來比喻:STREAM3R就像一個穩(wěn)步提升的好學(xué)生,而RNN方法則像一個時好時壞的學(xué)生。
在實(shí)際應(yīng)用場景中,STREAM3R也展現(xiàn)出更強(qiáng)的實(shí)用性。例如,在7-Scenes數(shù)據(jù)集的3D重建任務(wù)中,STREAM3R的準(zhǔn)確度達(dá)到0.122(數(shù)值越小越好),完整度為0.110,法向一致性為0.746,全面超越了包括VGG-T、Fast3R、CUT3R在內(nèi)的競爭對手。
九、技術(shù)細(xì)節(jié):讓復(fù)雜變簡單的設(shè)計(jì)哲學(xué)
STREAM3R的技術(shù)實(shí)現(xiàn)體現(xiàn)了"讓復(fù)雜變簡單"的設(shè)計(jì)哲學(xué)。系統(tǒng)使用了多種現(xiàn)代深度學(xué)習(xí)優(yōu)化技術(shù),比如QK-Norm用于穩(wěn)定訓(xùn)練過程,F(xiàn)lashAttention用于提高計(jì)算效率,這些技術(shù)的組合就像為一臺精密機(jī)器配備了最先進(jìn)的零部件。
在內(nèi)存管理方面,STREAM3R采用了梯度檢查點(diǎn)技術(shù),這是一種用時間換空間的策略。簡單來說,就是系統(tǒng)不會一次性保存所有中間計(jì)算結(jié)果,而是在需要時重新計(jì)算,這就像整理房間時把一些不常用的物品暫時收起來,需要時再拿出來,從而節(jié)省存儲空間。
系統(tǒng)還支持多種分辨率的輸入,從224×224像素到512×384像素,這種靈活性使得STREAM3R能夠適應(yīng)從移動設(shè)備到高端服務(wù)器的各種硬件平臺。這就像一套可以隨意調(diào)節(jié)大小的衣服,能夠適應(yīng)不同身材的人穿著。
十、實(shí)際應(yīng)用前景:從實(shí)驗(yàn)室到現(xiàn)實(shí)世界
STREAM3R的技術(shù)突破為多個實(shí)際應(yīng)用領(lǐng)域打開了新的可能性。在自動駕駛領(lǐng)域,車輛可以實(shí)時構(gòu)建周圍環(huán)境的3D地圖,就像一位經(jīng)驗(yàn)豐富的司機(jī)能夠快速判斷路況并做出反應(yīng)。在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)應(yīng)用中,STREAM3R能夠幫助設(shè)備更好地理解和重建真實(shí)世界,為用戶提供更逼真的沉浸式體驗(yàn)。
在機(jī)器人導(dǎo)航方面,STREAM3R使機(jī)器人能夠像人類一樣逐步探索未知環(huán)境,建立空間認(rèn)知地圖。這就像一個人初次進(jìn)入陌生城市時的學(xué)習(xí)過程:從最初的迷茫到逐漸熟悉街道布局,最終能夠自如地在城市中穿行。
對于內(nèi)容創(chuàng)作者而言,STREAM3R技術(shù)可能會革命性地改變3D內(nèi)容制作流程。傳統(tǒng)的3D建模需要專業(yè)軟件和大量手工操作,而基于STREAM3R的工具可能讓普通用戶通過簡單的視頻拍攝就能創(chuàng)建高質(zhì)量的3D模型,就像從膠卷相機(jī)到數(shù)字相機(jī)的轉(zhuǎn)變一樣,大大降低了創(chuàng)作門檻。
十一、局限性與未來發(fā)展
盡管STREAM3R取得了顯著成就,研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前系統(tǒng)的一些局限性。最主要的問題是因果建模天然存在的誤差累積現(xiàn)象,就像傳話游戲中信息的逐漸偏差一樣,隨著處理圖像數(shù)量的增加,早期的小錯誤可能會被放大。
另一個限制是STREAM3R目前仍然是確定性的回歸模型,輸出結(jié)果是唯一的。研究團(tuán)隊(duì)提到,未來可能會探索自回歸生成模型的方向,這將使系統(tǒng)能夠產(chǎn)生多種可能的3D重建結(jié)果,就像畫家可以用同一組素材創(chuàng)作出不同風(fēng)格的作品。
在計(jì)算效率方面,雖然STREAM3R已經(jīng)比傳統(tǒng)方法快很多,但研究團(tuán)隊(duì)認(rèn)為仍有進(jìn)一步優(yōu)化的空間。他們提到了MLA(Multi-head Latent Attention)等新技術(shù),這些技術(shù)可能進(jìn)一步提升系統(tǒng)的訓(xùn)練效率和性能。
說到底,STREAM3R代表了3D重建技術(shù)發(fā)展的一個重要里程碑。它不僅解決了傳統(tǒng)方法在可擴(kuò)展性方面的根本問題,還為這個領(lǐng)域帶來了全新的思維方式。從技術(shù)角度看,STREAM3R成功地將現(xiàn)代語言模型的設(shè)計(jì)理念引入到計(jì)算機(jī)視覺領(lǐng)域,證明了跨領(lǐng)域技術(shù)融合的巨大潛力。
從實(shí)用角度看,STREAM3R的實(shí)時處理能力和優(yōu)異精度為3D重建技術(shù)的廣泛應(yīng)用奠定了基礎(chǔ)。無論是自動駕駛、機(jī)器人導(dǎo)航,還是虛擬現(xiàn)實(shí)、內(nèi)容創(chuàng)作,這項(xiàng)技術(shù)都可能帶來革命性的改變。就像智能手機(jī)改變了我們的通信方式一樣,STREAM3R可能會改變我們與三維世界交互的方式。
對于普通人而言,這項(xiàng)技術(shù)最直接的意義可能體現(xiàn)在未來的智能設(shè)備上。設(shè)想一下,你的手機(jī)或AR眼鏡能夠?qū)崟r理解周圍的三維環(huán)境,為你提供精確的導(dǎo)航指引,或者幫你快速創(chuàng)建房間的3D模型用于裝修規(guī)劃。這些應(yīng)用場景不再是科幻電影中的想象,而是正在走向現(xiàn)實(shí)的技術(shù)可能。
研究團(tuán)隊(duì)的工作也展現(xiàn)了學(xué)術(shù)研究與實(shí)際應(yīng)用之間的良性互動。他們不僅在理論上取得了突破,還充分考慮了技術(shù)的實(shí)用性和可擴(kuò)展性,這種務(wù)實(shí)的研究態(tài)度值得稱贊。同時,他們開放的態(tài)度——提供項(xiàng)目網(wǎng)站和詳細(xì)的實(shí)現(xiàn)細(xì)節(jié)——也體現(xiàn)了現(xiàn)代科學(xué)研究的開放共享精神。
從更宏觀的角度看,STREAM3R的成功也反映了人工智能技術(shù)發(fā)展的一個重要趨勢:不同領(lǐng)域技術(shù)之間的相互借鑒和融合。語言模型的成功經(jīng)驗(yàn)被成功移植到計(jì)算機(jī)視覺領(lǐng)域,這種跨領(lǐng)域的技術(shù)遷移可能會催生更多創(chuàng)新突破。
對于那些有興趣深入了解這項(xiàng)技術(shù)的讀者,可以訪問研究團(tuán)隊(duì)的項(xiàng)目網(wǎng)站或查閱發(fā)表在arXiv上的完整論文。隨著技術(shù)的不斷發(fā)展和完善,我們有理由期待STREAM3R及其后續(xù)發(fā)展能夠?yàn)槲覀兊臄?shù)字世界帶來更多精彩的可能性。
Q&A
Q1:STREAM3R和傳統(tǒng)3D重建方法相比有什么優(yōu)勢?
A:STREAM3R最大的優(yōu)勢是采用流式處理方式,像閱讀書籍一樣按順序處理圖像,而不是傳統(tǒng)方法那樣同時處理所有圖像。這使得它在處理大量圖像時速度更快(每秒可處理12-33幀),精度更高(準(zhǔn)確度可達(dá)94.7%),特別適合實(shí)時應(yīng)用如自動駕駛和機(jī)器人導(dǎo)航。
Q2:STREAM3R能處理哪些類型的場景?
A:STREAM3R能處理各種復(fù)雜場景,包括室內(nèi)房間、戶外街景、靜態(tài)物體和動態(tài)場景。它在29個不同數(shù)據(jù)集上都表現(xiàn)出色,特別是在處理有移動物體的動態(tài)場景時比傳統(tǒng)方法更穩(wěn)定,相機(jī)位置估計(jì)誤差只有0.026米,遠(yuǎn)低于其他方法。
Q3:普通人什么時候能用上STREAM3R技術(shù)?
A:雖然STREAM3R目前還是研究階段的技術(shù),但它的實(shí)時處理能力和高精度表現(xiàn)為實(shí)際應(yīng)用奠定了基礎(chǔ)。未來這項(xiàng)技術(shù)可能會集成到智能手機(jī)、AR眼鏡、自動駕駛汽車等設(shè)備中,幫助用戶實(shí)時理解三維環(huán)境或快速創(chuàng)建3D模型,預(yù)計(jì)幾年內(nèi)就可能出現(xiàn)相關(guān)產(chǎn)品。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊(duì)提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。