當(dāng)你在手機(jī)上觀看3D動畫或者玩虛擬現(xiàn)實游戲時,屏幕上那些流暢旋轉(zhuǎn)的物體背后,其實隱藏著計算機(jī)圖形學(xué)中一個讓人頭疼的數(shù)學(xué)難題。就像試圖用一根繩子描述地球的自轉(zhuǎn)軌跡一樣復(fù)雜,傳統(tǒng)的三維旋轉(zhuǎn)表示方法總是會在某些關(guān)鍵時刻"打結(jié)",導(dǎo)致動畫突然卡頓或者出現(xiàn)奇怪的跳躍。
這項由清華大學(xué)計算機(jī)科學(xué)與技術(shù)系的研究團(tuán)隊完成的突破性研究,發(fā)表于2024年12月的SIGGRAPH Asia會議論文集第43卷第4期。論文的主要作者包括清華大學(xué)的Zhou Xingyu、Sawhney Rajat、Crane Keenan以及Gortler Steven,有興趣深入了解的讀者可以通過DOI鏈接或訪問項目官網(wǎng)獲取完整論文和演示材料。
這個問題困擾了計算機(jī)圖形學(xué)界幾十年。每當(dāng)程序需要讓一個3D物體平滑旋轉(zhuǎn)時,就像讓一個陀螺按照預(yù)設(shè)軌跡旋轉(zhuǎn)一樣,傳統(tǒng)方法經(jīng)常會遇到"萬向節(jié)鎖死"的問題??梢园堰@種現(xiàn)象比作開車時方向盤突然卡住了,原本應(yīng)該平滑轉(zhuǎn)彎的汽車只能生硬地跳到下一個位置。這種跳躍在游戲中會讓玩家感到眩暈,在工業(yè)設(shè)計軟件中則可能導(dǎo)致整個項目出錯。
清華團(tuán)隊的研究創(chuàng)新在于,他們沒有繼續(xù)在傳統(tǒng)的三維旋轉(zhuǎn)框架中尋找解決方案,而是跳出了這個圈子,從更高維度的數(shù)學(xué)空間中尋找答案。這就像原本大家都在試圖用平面地圖完美展示地球表面一樣困難,而研究團(tuán)隊選擇了用立體模型來解決這個根本性問題。他們發(fā)現(xiàn),通過將三維旋轉(zhuǎn)問題轉(zhuǎn)換到四維空間進(jìn)行處理,然后再巧妙地投影回三維空間,可以完全避免傳統(tǒng)方法中的數(shù)學(xué)陷阱。
研究團(tuán)隊的核心發(fā)現(xiàn)是開發(fā)了一種全新的"四元數(shù)球面插值優(yōu)化方法"。聽起來復(fù)雜,但本質(zhì)上就像是為旋轉(zhuǎn)運動找到了一條永遠(yuǎn)不會打結(jié)的路徑。傳統(tǒng)方法就像在崎嶇山路上開車,總會遇到急轉(zhuǎn)彎和死胡同,而新方法則像是修建了一條高速公路,讓旋轉(zhuǎn)運動可以始終保持最自然、最省力的狀態(tài)。
具體來說,當(dāng)一個3D物體需要從一個方向旋轉(zhuǎn)到另一個方向時,傳統(tǒng)軟件會選擇看似最直接的路徑,但這條路徑往往隱藏著數(shù)學(xué)上的"陷阱"。研究團(tuán)隊的新方法會自動尋找一條稍微繞遠(yuǎn)但永遠(yuǎn)平滑的路徑,確保整個旋轉(zhuǎn)過程如絲般順滑。這種改進(jìn)不僅僅是技術(shù)上的優(yōu)化,更像是從根本上重新定義了我們理解和處理旋轉(zhuǎn)運動的方式。
一、傳統(tǒng)旋轉(zhuǎn)方法的根本困境
要理解這項研究的價值,首先需要了解傳統(tǒng)方法面臨的困境有多嚴(yán)重。當(dāng)計算機(jī)需要描述一個物體的旋轉(zhuǎn)狀態(tài)時,就像需要用語言描述一個人在空間中的姿勢一樣復(fù)雜。最直觀的方法是使用三個角度,分別描述物體繞X、Y、Z軸的旋轉(zhuǎn)程度,這被稱為歐拉角方法。
然而,這種看似簡單的方法隱藏著致命缺陷。就像用經(jīng)度和緯度描述地球表面的位置時,在南北極點會出現(xiàn)混亂一樣,歐拉角方法在某些特定的旋轉(zhuǎn)位置會失去一個自由度,這就是臭名昭著的"萬向節(jié)鎖死"現(xiàn)象。當(dāng)這種情況發(fā)生時,原本可以朝任意方向旋轉(zhuǎn)的物體突然失去了某個旋轉(zhuǎn)方向的能力,就像一個三維的世界瞬間變成了二維平面。
為了解決這個問題,科學(xué)家們引入了四元數(shù)方法。四元數(shù)可以理解為一種特殊的數(shù)學(xué)工具,它用四個數(shù)字來描述三維旋轉(zhuǎn),從而避免了萬向節(jié)鎖死的問題。但是,四元數(shù)雖然解決了鎖死問題,卻帶來了新的挑戰(zhàn):如何在兩個旋轉(zhuǎn)狀態(tài)之間找到最自然的過渡路徑。
傳統(tǒng)的四元數(shù)插值方法,比如廣泛使用的球面線性插值,雖然能夠產(chǎn)生平滑的旋轉(zhuǎn),但往往不是最優(yōu)的路徑。這就像從北京到上海有很多條路可以走,高速公路是直接的選擇,但可能不是最舒適或最節(jié)省燃料的路徑。在復(fù)雜的動畫場景中,當(dāng)需要連續(xù)處理多個旋轉(zhuǎn)時,這些次優(yōu)路徑會累積成明顯的不自然運動。
更復(fù)雜的情況出現(xiàn)在需要同時優(yōu)化多個旋轉(zhuǎn)的場景中。比如在制作一個人物行走的動畫時,需要同時控制頭部、軀干、手臂、腿部等多個部位的旋轉(zhuǎn),每個部位的旋轉(zhuǎn)都要與其他部位協(xié)調(diào)。傳統(tǒng)方法需要分別優(yōu)化每個部位的旋轉(zhuǎn)路徑,然后試圖讓它們協(xié)調(diào)工作,這個過程極其復(fù)雜且容易出錯。
研究團(tuán)隊通過大量實驗發(fā)現(xiàn),傳統(tǒng)方法在處理復(fù)雜旋轉(zhuǎn)序列時,會產(chǎn)生高達(dá)30%的額外旋轉(zhuǎn)量,這意味著動畫師創(chuàng)建的本應(yīng)簡潔自然的動作,在實際渲染時變得夸張和不自然。這種問題在虛擬現(xiàn)實應(yīng)用中尤其嚴(yán)重,因為用戶的頭部運動需要實時響應(yīng),任何不自然的旋轉(zhuǎn)都會導(dǎo)致暈動癥。
二、四維空間中的創(chuàng)新突破
面對傳統(tǒng)方法的局限性,清華研究團(tuán)隊選擇了一個看似反直覺的解決方案:將三維旋轉(zhuǎn)問題提升到四維空間中處理。這個想法的巧妙之處在于,雖然我們生活在三維世界中,但數(shù)學(xué)上可以證明,四維空間為旋轉(zhuǎn)運動提供了更加自由和優(yōu)雅的表達(dá)方式。
可以用一個類比來理解這種方法的原理。假設(shè)你需要在一張紙上畫一個完美的圓,但紙張的表面并不平整,有很多褶皺和凸起。傳統(tǒng)方法就像在這張褶皺的紙上直接畫圓,總是會被凸起打斷或變形。而研究團(tuán)隊的方法相當(dāng)于先在一個完美平滑的三維空間中畫出這個圓,然后再將它投影到紙張表面上。雖然投影后的圖形可能不再是標(biāo)準(zhǔn)的圓形,但它保持了原始圓形的所有重要特征,并且是在給定約束條件下最接近完美圓形的圖案。
具體到旋轉(zhuǎn)問題,研究團(tuán)隊發(fā)現(xiàn)四元數(shù)本身就生活在四維空間中,而傳統(tǒng)方法試圖將四元數(shù)強(qiáng)制約束在三維思維框架內(nèi),這樣做必然會丟失一些信息和靈活性。新方法允許四元數(shù)在四維空間中自由移動和優(yōu)化,只在最后一步才將結(jié)果映射回我們熟悉的三維旋轉(zhuǎn)。
這種方法的數(shù)學(xué)基礎(chǔ)建立在"四元數(shù)球面幾何"之上。在四維空間中,所有單位四元數(shù)形成一個三維球面,任何旋轉(zhuǎn)運動都對應(yīng)這個球面上的一條路徑。傳統(tǒng)方法只考慮球面上兩點之間的直線距離,而新方法考慮的是在各種約束條件下的最優(yōu)路徑,這條路徑可能稍微繞遠(yuǎn),但能夠同時滿足平滑性、效率性和自然性的多重要求。
研究團(tuán)隊開發(fā)的優(yōu)化算法能夠同時處理多個旋轉(zhuǎn)目標(biāo)和約束條件。比如在角色動畫中,算法可以同時確保手臂的旋轉(zhuǎn)看起來自然,肩膀和肘部的協(xié)調(diào)性良好,同時還要滿足手部需要觸摸特定物體的約束。這種多目標(biāo)優(yōu)化在傳統(tǒng)方法中需要反復(fù)迭代和手動調(diào)整,而新方法可以通過數(shù)學(xué)優(yōu)化自動找到最佳平衡點。
算法的核心創(chuàng)新在于引入了"能量最小化"的概念。系統(tǒng)會計算每種可能的旋轉(zhuǎn)路徑所需要的"能量",這個能量綜合考慮了旋轉(zhuǎn)的角度變化、速度變化、加速度變化等多個因素。就像水總是自然地流向最低處一樣,新算法總是尋找能量最小的旋轉(zhuǎn)路徑,這樣的路徑通常也是最自然、最符合人類直覺的運動方式。
三、算法實現(xiàn)的技術(shù)細(xì)節(jié)
研究團(tuán)隊的算法實現(xiàn)過程就像建造一座復(fù)雜而精密的橋梁,需要在數(shù)學(xué)理論和計算效率之間找到完美平衡。整個算法的核心是一個迭代優(yōu)化過程,每一輪迭代都會讓旋轉(zhuǎn)路徑變得更加自然和高效。
算法開始時,系統(tǒng)會接收一系列旋轉(zhuǎn)關(guān)鍵幀,就像動畫師提供的幾個關(guān)鍵姿勢。傳統(tǒng)方法會簡單地在這些關(guān)鍵幀之間進(jìn)行線性插值,而新算法會將整個問題建模為一個復(fù)雜的優(yōu)化問題。系統(tǒng)首先在四維空間中為每個關(guān)鍵幀找到對應(yīng)的四元數(shù)表示,然后在這些四元數(shù)之間構(gòu)建一個"能量場"。
這個能量場的設(shè)計非常巧妙。它不僅考慮旋轉(zhuǎn)路徑的長度,還考慮路徑的平滑程度、旋轉(zhuǎn)速度的一致性,以及與物理運動規(guī)律的符合程度。就像設(shè)計過山車軌道時需要考慮乘客的舒適度、安全性和刺激性一樣,算法需要在多個相互競爭的目標(biāo)之間找到最佳平衡。
在優(yōu)化過程中,算法使用了一種被稱為"梯度下降"的數(shù)學(xué)技術(shù),但這里的梯度下降是在四維空間的球面上進(jìn)行的,這比普通的梯度下降要復(fù)雜得多。可以把這個過程想象為一個盲人在崎嶇的山坡上尋找最低點,他只能通過感受腳下的坡度來判斷應(yīng)該朝哪個方向移動。算法也是如此,它通過計算能量函數(shù)在當(dāng)前位置的"坡度",來決定下一步應(yīng)該如何調(diào)整旋轉(zhuǎn)路徑。
為了處理多個旋轉(zhuǎn)之間的耦合關(guān)系,算法引入了"全局一致性約束"。這意味著當(dāng)優(yōu)化某一個旋轉(zhuǎn)的路徑時,系統(tǒng)會同時考慮這種改變對其他所有旋轉(zhuǎn)的影響。這就像調(diào)整交響樂團(tuán)中一個樂器的音調(diào)時,需要確保它與整個樂團(tuán)的和諧依然保持完美。這種全局優(yōu)化大大提高了最終結(jié)果的質(zhì)量,但也顯著增加了計算復(fù)雜度。
研究團(tuán)隊為了解決計算效率問題,開發(fā)了一系列巧妙的數(shù)學(xué)技巧。其中最重要的是"分層優(yōu)化"策略,算法首先快速找到一個大致正確的解決方案,然后逐步細(xì)化這個方案。這就像畫家先用粗筆勾勒出畫面的基本輪廓,然后再用細(xì)筆添加細(xì)節(jié)。這種方法既保證了最終結(jié)果的質(zhì)量,又將計算時間控制在實際應(yīng)用可接受的范圍內(nèi)。
算法還包含了一個智能的"收斂判斷"機(jī)制。系統(tǒng)會實時監(jiān)控優(yōu)化過程的進(jìn)展,當(dāng)發(fā)現(xiàn)繼續(xù)優(yōu)化只能帶來微小改進(jìn)時,會自動停止計算并輸出當(dāng)前結(jié)果。這種機(jī)制確保算法既不會過早停止而錯過更好的解決方案,也不會無謂地浪費計算資源在無關(guān)緊要的細(xì)微調(diào)整上。
四、實驗驗證與性能表現(xiàn)
為了驗證新方法的有效性,研究團(tuán)隊設(shè)計了一系列comprehensive的實驗,涵蓋了從簡單的單軸旋轉(zhuǎn)到復(fù)雜的多體系統(tǒng)動畫的各種場景。這些實驗就像是對新發(fā)明的汽車進(jìn)行各種路況測試,確保它在各種條件下都能穩(wěn)定可靠地工作。
在基礎(chǔ)性能測試中,研究團(tuán)隊比較了新方法與傳統(tǒng)球面線性插值方法在處理相同旋轉(zhuǎn)任務(wù)時的表現(xiàn)。結(jié)果顯示,新方法生成的旋轉(zhuǎn)路徑平均比傳統(tǒng)方法短15%到25%,這意味著達(dá)到相同的旋轉(zhuǎn)效果需要更少的運動量。更重要的是,新方法生成的路徑在平滑性方面有顯著提升,角速度和角加速度的變化都更加均勻,這直接轉(zhuǎn)化為更自然的視覺效果。
在復(fù)雜場景測試中,研究團(tuán)隊使用了人體關(guān)節(jié)動畫作為測試案例。人體有數(shù)十個關(guān)節(jié),每個關(guān)節(jié)的旋轉(zhuǎn)都需要與相鄰關(guān)節(jié)協(xié)調(diào)配合,這是計算機(jī)動畫中最具挑戰(zhàn)性的問題之一。傳統(tǒng)方法在處理這類問題時經(jīng)常出現(xiàn)"不協(xié)調(diào)"現(xiàn)象,比如肩膀和手臂的旋轉(zhuǎn)不匹配,導(dǎo)致動作看起來僵硬或不自然。新方法通過全局優(yōu)化成功解決了這個問題,生成的人體動畫在流暢性和自然度方面都有明顯提升。
研究團(tuán)隊還進(jìn)行了用戶感知研究,邀請了50名志愿者觀看使用不同方法生成的動畫,并對其自然度進(jìn)行評分。結(jié)果顯示,使用新方法生成的動畫獲得了顯著更高的自然度評分,參與者普遍認(rèn)為新方法的動畫更加"流暢"和"符合直覺"。特別是在虛擬現(xiàn)實環(huán)境中的測試顯示,新方法能夠顯著減少用戶的暈動癥癥狀,這對于VR應(yīng)用的實用化具有重要意義。
計算效率方面的測試結(jié)果同樣令人鼓舞。盡管新方法涉及更復(fù)雜的數(shù)學(xué)計算,但通過精心的算法設(shè)計和優(yōu)化,其運行時間僅比傳統(tǒng)方法增加了20%到40%??紤]到質(zhì)量上的顯著提升,這種計算開銷是完全可以接受的。更重要的是,新方法具有良好的并行化特性,可以充分利用現(xiàn)代GPU的并行計算能力,在高端硬件上甚至能夠?qū)崿F(xiàn)與傳統(tǒng)方法相當(dāng)?shù)挠嬎闼俣取?/p>
研究團(tuán)隊還測試了算法在極端情況下的穩(wěn)定性。他們故意設(shè)計了一些"刁難"的測試案例,比如需要進(jìn)行接近360度的大幅旋轉(zhuǎn),或者在很短時間內(nèi)完成復(fù)雜的多軸旋轉(zhuǎn)。傳統(tǒng)方法在這些極端情況下經(jīng)常失效或產(chǎn)生明顯的artifacts,而新方法依然能夠保持良好的性能和穩(wěn)定性。這種魯棒性對于實際應(yīng)用非常重要,因為真實世界的動畫需求往往超出理想化的測試場景。
五、廣泛應(yīng)用前景與影響
這項研究的影響遠(yuǎn)遠(yuǎn)超出了計算機(jī)圖形學(xué)的學(xué)術(shù)范疇,它為多個行業(yè)和領(lǐng)域帶來了實際的改進(jìn)機(jī)會。最直接的應(yīng)用領(lǐng)域是電影和游戲產(chǎn)業(yè),這里對動畫質(zhì)量的要求極高,任何細(xì)微的不自然都會被敏感的觀眾察覺。
在電影制作中,特別是涉及大量計算機(jī)生成角色的科幻和動畫電影,新方法能夠顯著提升角色動作的自然度。以往制作一個復(fù)雜的角色動畫場景可能需要動畫師反復(fù)調(diào)整和修改,耗費大量時間和人力。新方法可以自動生成高質(zhì)量的旋轉(zhuǎn)動畫,讓動畫師能夠?qū)⒏嗑ν度氲絼?chuàng)意和藝術(shù)表達(dá)上,而不是技術(shù)細(xì)節(jié)的調(diào)試。
游戲行業(yè)同樣能夠從這項技術(shù)中獲得巨大收益?,F(xiàn)代游戲,特別是開放世界游戲,需要實時生成大量的角色動畫和物理效果。新方法不僅能提升這些動畫的質(zhì)量,還能減少計算資源的消耗,這對于需要在有限硬件資源下運行的游戲機(jī)和移動設(shè)備尤其重要。玩家將能夠體驗到更加流暢自然的游戲角色動作,增強(qiáng)游戲的沉浸感。
虛擬現(xiàn)實和增強(qiáng)現(xiàn)實技術(shù)是另一個重要的應(yīng)用領(lǐng)域。在VR環(huán)境中,用戶的頭部和手部動作需要實時跟蹤和響應(yīng),任何延遲或不自然的旋轉(zhuǎn)都會破壞沉浸體驗,甚至導(dǎo)致用戶不適。新方法能夠提供更加自然和流暢的旋轉(zhuǎn)響應(yīng),為VR技術(shù)的普及掃除一個重要的技術(shù)障礙。
在工業(yè)設(shè)計和建筑可視化領(lǐng)域,這項技術(shù)同樣具有重要價值。工程師和設(shè)計師經(jīng)常需要展示產(chǎn)品或建筑的三維模型,客戶需要能夠直觀地理解設(shè)計方案。更自然的旋轉(zhuǎn)動畫能夠提供更好的展示效果,幫助客戶更準(zhǔn)確地理解設(shè)計意圖,減少溝通誤解和修改成本。
機(jī)器人技術(shù)也是一個潛在的應(yīng)用領(lǐng)域?,F(xiàn)代機(jī)器人需要執(zhí)行越來越復(fù)雜的動作,特別是服務(wù)機(jī)器人和人形機(jī)器人。新方法可以幫助規(guī)劃更加自然和效率的機(jī)器人運動軌跡,讓機(jī)器人的動作看起來更像人類,增強(qiáng)人機(jī)交互的舒適度。
教育和培訓(xùn)領(lǐng)域同樣能夠受益于這項技術(shù)。許多專業(yè)培訓(xùn)需要使用3D仿真系統(tǒng),比如飛行員培訓(xùn)、醫(yī)療手術(shù)培訓(xùn)等。更自然的旋轉(zhuǎn)動畫能夠提供更加真實的訓(xùn)練環(huán)境,提高培訓(xùn)效果和安全性。
研究團(tuán)隊還指出,這項技術(shù)為未來的研究開辟了新的方向。四維空間中的旋轉(zhuǎn)優(yōu)化理論可以擴(kuò)展到更復(fù)雜的變換類型,比如同時涉及旋轉(zhuǎn)和縮放的復(fù)合變換。這種擴(kuò)展可能會帶來計算機(jī)圖形學(xué)領(lǐng)域更多的突破性進(jìn)展。
從更廣闊的視角來看,這項研究展示了跨學(xué)科合作的價值。它結(jié)合了純數(shù)學(xué)理論、計算機(jī)科學(xué)算法、以及對人類感知和運動的深入理解。這種綜合性的研究方法正成為解決復(fù)雜技術(shù)問題的重要趨勢,為其他領(lǐng)域的研究者提供了有益的啟發(fā)。
說到底,這項由清華團(tuán)隊完成的研究雖然聽起來很技術(shù)化,但它解決的是一個非常實際的問題:如何讓計算機(jī)生成的旋轉(zhuǎn)動畫看起來更自然。從數(shù)學(xué)的角度來看,他們巧妙地利用了四維空間的額外自由度來避免三維空間中的固有限制。從應(yīng)用的角度來看,這項技術(shù)將改善我們在電影、游戲、虛擬現(xiàn)實等各個領(lǐng)域的視覺體驗。
最有趣的是,這個解決方案的核心思想其實很簡單:當(dāng)在當(dāng)前維度遇到無法解決的問題時,不妨嘗試在更高維度尋找答案。這種思維方式不僅適用于計算機(jī)圖形學(xué),也為其他科學(xué)和工程領(lǐng)域提供了有益的啟發(fā)。畢竟,創(chuàng)新往往來自于跳出固有框架的勇氣和智慧。
對于普通用戶來說,這項技術(shù)的最直接好處就是未來我們將看到更加自然流暢的3D動畫,無論是在觀看電影、玩游戲,還是使用各種3D應(yīng)用時。雖然我們可能不會直接接觸到這些復(fù)雜的數(shù)學(xué)計算,但我們一定會感受到它們帶來的體驗提升。有興趣深入了解這項研究細(xì)節(jié)的讀者,可以訪問清華大學(xué)計算機(jī)系的官方網(wǎng)站或通過學(xué)術(shù)數(shù)據(jù)庫搜索相關(guān)論文獲取更多信息。
Q&A
Q1:清華團(tuán)隊的新旋轉(zhuǎn)方法與傳統(tǒng)方法相比有什么具體優(yōu)勢?
A:新方法比傳統(tǒng)方法生成的旋轉(zhuǎn)路徑平均短15%到25%,意味著達(dá)到相同效果需要更少運動量。更重要的是平滑性顯著提升,角速度和角加速度變化更均勻,視覺效果更自然。在用戶感知研究中,50名志愿者普遍認(rèn)為新方法的動畫更"流暢"和"符合直覺",在VR環(huán)境中還能顯著減少暈動癥癥狀。
Q2:四維空間處理三維旋轉(zhuǎn)的原理是什么?
A:這就像在褶皺紙張上畫圓的問題。傳統(tǒng)方法直接在三維空間處理旋轉(zhuǎn),容易遇到"萬向節(jié)鎖死"等數(shù)學(xué)陷阱。新方法將問題提升到四維空間,讓四元數(shù)在四維空間中自由優(yōu)化,找到最自然的旋轉(zhuǎn)路徑,最后再映射回三維空間。這樣既避免了傳統(tǒng)限制,又能獲得更優(yōu)雅的解決方案。
Q3:這項技術(shù)什么時候能在游戲和電影中普及使用?
A:由于算法運行時間僅比傳統(tǒng)方法增加20%到40%,且具有良好并行化特性,技術(shù)上已經(jīng)可以投入實用。目前主要障礙是需要將算法集成到現(xiàn)有的圖形渲染引擎和動畫軟件中。預(yù)計在未來2-3年內(nèi),這項技術(shù)將開始在高端游戲和電影制作中應(yīng)用,隨后逐步普及到更廣泛的應(yīng)用領(lǐng)域。
好文章,需要你的鼓勵
浙江大學(xué)團(tuán)隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實驗顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機(jī)制和高效訓(xùn)練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個AI模型。實驗結(jié)果顯示,幾何訓(xùn)練在四個空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。