av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<pre id="hqa9x"></pre>

<big id="hqa9x"><source id="hqa9x"></source></big>

<em id="hqa9x"></em>

首頁(yè)
對(duì)話(huà)創(chuàng)新
對(duì)話(huà)科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見(jiàn)證連接與計(jì)算的「力量」

ZPressor：突破性信息瓶頸壓縮技術(shù)讓3D高斯渲染不再受限于輸入視圖數(shù)量

3D場(chǎng)景重建信息瓶頸壓縮高斯渲染技術(shù)

ZPressor：突破性信息瓶頸壓縮技術(shù)讓3D高斯渲染不再受限于輸入視圖數(shù)量

作者：科技行者

2025-06-04 10:14

分享至：

這項(xiàng)研究提出了ZPressor，一種輕量級(jí)模塊，可幫助前饋式3D高斯渲染（3DGS）模型更有效地處理大量輸入視圖。研究團(tuán)隊(duì)通過(guò)信息瓶頸理論，將輸入視圖分為錨點(diǎn)視圖和支持視圖，然后使用交叉注意力將支持視圖信息壓縮到錨點(diǎn)視圖中。實(shí)驗(yàn)表明，ZPressor可讓現(xiàn)有模型在80GB GPU上處理100多個(gè)480P輸入視圖，同時(shí)提高渲染質(zhì)量并降低計(jì)算成本。在DL3DV-10K和RealEstate10K數(shù)據(jù)集上，集成ZPressor的模型在PSNR等指標(biāo)上顯著優(yōu)于原始模型，特別是在處理36個(gè)輸入視圖時(shí)性能提升更為明顯。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-04 10:14 ? 科技行者

近日，由浙江大學(xué)ZIP實(shí)驗(yàn)室的王威杰、ByteDance Seed的陳俊宇以及莫納什大學(xué)的張澤宇等研究者共同發(fā)表的論文《ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS》在arXiv上引起廣泛關(guān)注（arXiv:2505.23734v1，2025年5月29日）。這項(xiàng)研究為當(dāng)前3D場(chǎng)景渲染技術(shù)提供了一個(gè)突破性的解決方案，使得前饋式3D高斯渲染（Feed-forward 3DGS）能夠處理更多的輸入視圖，同時(shí)保持高效率和高質(zhì)量的渲染效果。

想象一下，你正在嘗試通過(guò)多張照片重建一個(gè)完整的3D場(chǎng)景，比如你家的客廳或花園。傳統(tǒng)的3D高斯渲染技術(shù)就像是一個(gè)手工藝人，需要花費(fèi)大量時(shí)間逐步調(diào)整，直到完美重現(xiàn)場(chǎng)景。而前饋式3DGS則像是一位經(jīng)驗(yàn)豐富的魔術(shù)師，只需一揮魔杖（一次前向傳遞），就能將這些照片轉(zhuǎn)化為生動(dòng)的3D場(chǎng)景。然而，這位魔術(shù)師有一個(gè)限制——他的"魔法帽"（編碼器）容量有限，當(dāng)輸入的照片過(guò)多時(shí)，他要么表現(xiàn)欠佳，要么需要消耗過(guò)多的內(nèi)存資源。

這正是研究團(tuán)隊(duì)要解決的核心問(wèn)題。他們將目光投向了信息瓶頸理論（Information Bottleneck），這一理論提供了一個(gè)優(yōu)雅的框架來(lái)平衡信息壓縮和保留。就像是一個(gè)旅行者需要在有限的行李箱中盡可能高效地打包行李，只帶上真正必需的物品一樣，研究團(tuán)隊(duì)開(kāi)發(fā)了名為ZPressor的輕量級(jí)模塊，它能夠智能地"打包"多視圖輸入的信息，去除冗余但保留關(guān)鍵細(xì)節(jié)。

ZPressor的核心思想非常巧妙。首先，它將輸入視圖分為兩組：錨點(diǎn)視圖（anchor views）和支持視圖（support views）。錨點(diǎn)視圖就像是一群"代表"，負(fù)責(zé)存儲(chǔ)和傳遞關(guān)鍵信息，而支持視圖中的信息則被壓縮并融合到這些代表中。為了確保這些"代表"能最大程度地覆蓋場(chǎng)景信息，研究者使用了一種稱(chēng)為最遠(yuǎn)點(diǎn)采樣（farthest point sampling）的技術(shù)來(lái)選擇錨點(diǎn)視圖，就像是在一個(gè)大房間里盡可能均勻地放置幾個(gè)攝像頭，以獲得最全面的覆蓋。

研究團(tuán)隊(duì)在DL3DV-10K和RealEstate10K兩個(gè)大型基準(zhǔn)數(shù)據(jù)集上進(jìn)行了廣泛實(shí)驗(yàn)，結(jié)果令人振奮。他們將ZPressor集成到多個(gè)現(xiàn)有的前饋式3DGS模型中，包括pixelSplat、MVSplat和DepthSplat。在所有測(cè)試中，添加了ZPressor的模型不僅在中等數(shù)量的輸入視圖（如12個(gè)視圖）下表現(xiàn)更好，而且在處理密集輸入視圖（如36個(gè)視圖）時(shí)仍能保持良好的性能和計(jì)算效率，而原始模型在這種情況下通常會(huì)出現(xiàn)顯著的性能下降或內(nèi)存溢出。例如，在36個(gè)輸入視圖的情況下，添加了ZPressor的DepthSplat比原始模型在PSNR上提高了4.65dB，同時(shí)將推理時(shí)間減少了約70%，內(nèi)存使用減少了約80%。

一、ZPressor的核心原理：信息瓶頸視角下的解決方案

想象一下信息瓶頸理論就像是精簡(jiǎn)行李的藝術(shù)。當(dāng)你要長(zhǎng)途旅行時(shí)，你不可能帶上家里的所有物品，而是需要精心挑選真正必需的東西。信息瓶頸理論也是如此，它要求我們從原始數(shù)據(jù)中提取出一個(gè)壓縮表示，這個(gè)表示既要盡可能?。ㄏ袷且粋€(gè)小巧的行李箱），又要包含完成任務(wù)所需的全部關(guān)鍵信息（像是旅行中真正需要的物品）。

研究團(tuán)隊(duì)發(fā)現(xiàn)，現(xiàn)有的前饋式3DGS模型之所以在處理大量輸入視圖時(shí)表現(xiàn)不佳，根本原因在于它們的編碼器能力有限。這些編碼器就像是容量固定的容器，當(dāng)?shù)谷胩嘈畔r(shí)，它們要么溢出（內(nèi)存不足），要么無(wú)法有效處理（性能下降）。尤其是在像素對(duì)齊的設(shè)計(jì)中，3D高斯基元的數(shù)量會(huì)隨著輸入視圖的增加而線(xiàn)性增長(zhǎng)，導(dǎo)致計(jì)算資源需求急劇上升。

ZPressor通過(guò)實(shí)現(xiàn)信息瓶頸原理解決了這個(gè)問(wèn)題。從數(shù)學(xué)角度看，信息瓶頸目標(biāo)是最小化以下得分：

IB分?jǐn)?shù) = β × I(X, Z) - I(Z, Y)

這個(gè)公式中，I(X, Z)是壓縮得分，表示壓縮表示Z保留了多少輸入X的信息；I(Z, Y)是預(yù)測(cè)得分，表示Z對(duì)于預(yù)測(cè)目標(biāo)Y有多大幫助；β是平衡這兩個(gè)目標(biāo)的參數(shù)。

簡(jiǎn)單來(lái)說(shuō)，壓縮得分就像是"行李箱輕量化"的目標(biāo)，我們希望它盡可能小；而預(yù)測(cè)得分則是"帶夠必需品"的目標(biāo)，我們希望它盡可能大。ZPressor正是通過(guò)平衡這兩個(gè)看似矛盾的目標(biāo)，實(shí)現(xiàn)了對(duì)多視圖輸入的高效壓縮。

二、ZPressor的技術(shù)設(shè)計(jì)：優(yōu)雅簡(jiǎn)潔的三步法

ZPressor的設(shè)計(jì)非常優(yōu)雅，可以概括為三個(gè)主要步驟，就像是一場(chǎng)精心編排的舞蹈。

首先是錨點(diǎn)視圖選擇。想象你需要在一個(gè)大房間里放置幾個(gè)攝像頭，以盡可能捕捉房間的全貌。你會(huì)如何放置這些攝像頭？自然是盡量均勻分布，互相之間保持適當(dāng)距離。ZPressor采用的最遠(yuǎn)點(diǎn)采樣（FPS）算法正是基于這種直覺(jué)。它首先隨機(jī)選擇一個(gè)視圖作為第一個(gè)錨點(diǎn)，然后迭代地選擇與現(xiàn)有錨點(diǎn)集合距離最遠(yuǎn)的視圖作為新的錨點(diǎn)，直到選滿(mǎn)預(yù)定數(shù)量。這樣，選出的錨點(diǎn)視圖能夠最大程度地覆蓋整個(gè)場(chǎng)景信息。

第二步是支持視圖分配。每個(gè)非錨點(diǎn)視圖（即支持視圖）被分配給與其攝像機(jī)位置最近的錨點(diǎn)視圖。這就像是選舉制度中的選區(qū)劃分，每個(gè)公民（支持視圖）被分配到最近的投票站（錨點(diǎn)視圖）。這種分配方式確保了支持視圖中的信息能夠與最相關(guān)的錨點(diǎn)視圖融合，從而保持場(chǎng)景的局部一致性。

第三步，也是最關(guān)鍵的一步，是視圖信息融合。這一步使用了交叉注意力（cross-attention）機(jī)制，將支持視圖的信息壓縮并融合到對(duì)應(yīng)的錨點(diǎn)視圖中。具體來(lái)說(shuō)，錨點(diǎn)視圖的特征作為查詢(xún)（queries），而支持視圖的特征提供鍵（keys）和值（values）。這種設(shè)計(jì)使得錨點(diǎn)視圖能夠有選擇地吸收支持視圖中的補(bǔ)充信息，同時(shí)避免信息冗余。

整個(gè)過(guò)程就像是一個(gè)高效的信息提煉系統(tǒng)。錨點(diǎn)視圖就像是信息的"容器"，而支持視圖則是信息的"源泉"。通過(guò)交叉注意力機(jī)制，系統(tǒng)從支持視圖中提取出最有價(jià)值的信息，并將其融合到錨點(diǎn)視圖中，形成一個(gè)緊湊但信息豐富的表示。

為了進(jìn)一步增強(qiáng)信息流動(dòng)，研究團(tuán)隊(duì)還添加了自注意力層，并將多個(gè)包含交叉注意力和自注意力的模塊堆疊起來(lái)。這些設(shè)計(jì)使得ZPressor能夠更有效地壓縮和融合多視圖信息，從而大大提高了前饋式3DGS模型的可擴(kuò)展性。

三、實(shí)驗(yàn)驗(yàn)證：令人信服的性能提升

研究團(tuán)隊(duì)在兩個(gè)大型基準(zhǔn)數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn)：DL3DV-10K和RealEstate10K。DL3DV-10K是一個(gè)具有挑戰(zhàn)性的大規(guī)模數(shù)據(jù)集，包含來(lái)自10,510個(gè)真實(shí)場(chǎng)景的5130萬(wàn)幀；RealEstate10K則是一個(gè)包含約10萬(wàn)個(gè)視頻片段的大型數(shù)據(jù)集，這些片段來(lái)自YouTube上的房屋參觀(guān)視頻。

實(shí)驗(yàn)設(shè)計(jì)非常全面。研究團(tuán)隊(duì)將ZPressor集成到三個(gè)代表性的前饋式3DGS模型中：DepthSplat、MVSplat和pixelSplat。他們使用12個(gè)輸入視圖（其中6個(gè)作為錨點(diǎn)視圖）訓(xùn)練模型，然后在不同數(shù)量的輸入視圖（從8個(gè)到36個(gè)）上進(jìn)行評(píng)估。

結(jié)果令人印象深刻。在所有情況下，集成了ZPressor的模型都顯著優(yōu)于原始模型。特別是在處理大量輸入視圖時(shí)，性能差距更為明顯。例如，在DL3DV數(shù)據(jù)集上，當(dāng)使用36個(gè)輸入視圖時(shí)，添加了ZPressor的DepthSplat比原始模型在PSNR（峰值信噪比，衡量圖像質(zhì)量的指標(biāo)）上提高了4.65dB，這是一個(gè)相當(dāng)顯著的提升。

更令人驚訝的是，原始的pixelSplat模型在處理超過(guò)8個(gè)輸入視圖時(shí)就會(huì)遇到內(nèi)存不足（OOM）的問(wèn)題，而添加了ZPressor的版本能夠輕松處理多達(dá)36個(gè)輸入視圖，并且表現(xiàn)優(yōu)異。這清楚地展示了ZPressor在提高模型可擴(kuò)展性方面的巨大潛力。

除了圖像質(zhì)量指標(biāo)外，研究團(tuán)隊(duì)還評(píng)估了模型的效率。結(jié)果顯示，添加ZPressor不僅提高了渲染質(zhì)量，還大幅降低了計(jì)算成本。例如，在處理36個(gè)輸入視圖時(shí)，添加了ZPressor的DepthSplat比原始模型的推理時(shí)間減少了約70%，內(nèi)存使用減少了約80%。這種效率提升對(duì)于實(shí)際應(yīng)用至關(guān)重要，尤其是在資源受限的設(shè)備上。

視覺(jué)比較結(jié)果更加直觀(guān)地展示了ZPressor的效果。在36個(gè)輸入視圖的情況下，原始DepthSplat和MVSplat模型產(chǎn)生的渲染結(jié)果中存在明顯的偽影和噪點(diǎn)，而它們的ZPressor增強(qiáng)版本則產(chǎn)生了顯著更清晰、更真實(shí)的渲染結(jié)果。這些視覺(jué)比較結(jié)果直觀(guān)地證明了ZPressor在提高渲染質(zhì)量方面的顯著效果。

四、深入分析：揭示ZPressor的工作機(jī)制

為了更深入地理解ZPressor的工作機(jī)制，研究團(tuán)隊(duì)進(jìn)行了一系列細(xì)致的分析實(shí)驗(yàn)。

首先，他們分析了瓶頸約束（即錨點(diǎn)視圖的數(shù)量）在不同信息內(nèi)容的場(chǎng)景中的影響。研究團(tuán)隊(duì)使用幀距作為場(chǎng)景覆蓋范圍和信息內(nèi)容的代理，比較了幀距為50（CG50）和幀距為100（CG100）兩種設(shè)置下的性能。結(jié)果顯示，在CG50設(shè)置下，將錨點(diǎn)視圖從7個(gè)增加到9個(gè)會(huì)導(dǎo)致性能下降，這表明7個(gè)聚類(lèi)已經(jīng)足夠，額外的聚類(lèi)會(huì)引入冗余。而在CG100設(shè)置下，增加錨點(diǎn)視圖反而提高了性能，這表明信息內(nèi)容更豐富的場(chǎng)景需要更高的信息瓶頸。這一發(fā)現(xiàn)證實(shí)了ZPressor確實(shí)是根據(jù)信息瓶頸原理工作的。

其次，研究團(tuán)隊(duì)分析了信息融合策略的重要性。他們比較了三種設(shè)置：默認(rèn)設(shè)置（將支持視圖融合到錨點(diǎn)視圖中）、不進(jìn)行融合（w/o fusion）、以及融合重復(fù)的錨點(diǎn)視圖而非支持視圖（fuse anchors）。結(jié)果顯示，去掉信息融合步驟會(huì)導(dǎo)致性能顯著下降，而融合重復(fù)的錨點(diǎn)視圖效果不如默認(rèn)設(shè)置。這證明了ZPressor的關(guān)鍵在于從支持視圖中提取補(bǔ)充信息并將其融合到錨點(diǎn)視圖中。

最后，研究團(tuán)隊(duì)還進(jìn)行了消融實(shí)驗(yàn)，驗(yàn)證了ZPressor各組件的作用。結(jié)果顯示，移除多塊堆疊設(shè)計(jì)或自注意力層都會(huì)導(dǎo)致性能輕微下降，證明這些組件確實(shí)有助于增強(qiáng)信息融合效果。然而，即使是最簡(jiǎn)化的ZPressor變體也顯著優(yōu)于基線(xiàn)模型，這進(jìn)一步證明了信息瓶頸是前饋式3DGS模型的關(guān)鍵限制因素，而ZPressor有效地解決了這一問(wèn)題。

五、跨數(shù)據(jù)集泛化能力與實(shí)際應(yīng)用前景

除了主要實(shí)驗(yàn)外，研究團(tuán)隊(duì)還評(píng)估了ZPressor的跨數(shù)據(jù)集泛化能力。他們使用在RealEstate10K上預(yù)訓(xùn)練的模型在ACID數(shù)據(jù)集上進(jìn)行測(cè)試，結(jié)果顯示添加了ZPressor的模型表現(xiàn)出色，尤其是在輸入視圖數(shù)量增加時(shí)，性能優(yōu)勢(shì)更加明顯。這證明了ZPressor不僅在原訓(xùn)練數(shù)據(jù)集上有效，還能在新的、未見(jiàn)過(guò)的場(chǎng)景中保持其優(yōu)勢(shì)。

從實(shí)際應(yīng)用角度看，ZPressor為前饋式3DGS技術(shù)開(kāi)辟了新的可能性。以前，這些模型在處理大量輸入視圖時(shí)會(huì)遇到嚴(yán)重的性能和內(nèi)存限制，這大大限制了它們?cè)趶?fù)雜場(chǎng)景重建中的應(yīng)用。而有了ZPressor，這些模型現(xiàn)在能夠在80GB的GPU上處理480P分辨率下的100多個(gè)輸入視圖，這意味著它們可以應(yīng)用于更廣泛的實(shí)際場(chǎng)景，如虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)和3D內(nèi)容創(chuàng)建。

當(dāng)然，ZPressor也有其局限性。正如研究團(tuán)隊(duì)在論文中指出的，在極端密集的視圖設(shè)置下（如1000個(gè)輸入視圖），即使ZPressor也只能將其壓縮到約50個(gè)視圖，以保持信息緊湊性。而處理50個(gè)視圖的3D高斯仍然對(duì)典型GPU提出了相當(dāng)大的計(jì)算挑戰(zhàn)。未來(lái)的工作可能需要探索將ZPressor與3D高斯合并或內(nèi)存高效渲染相結(jié)合，以進(jìn)一步擴(kuò)展前饋式3DGS處理極端密集輸入視圖的能力。

六、結(jié)論與未來(lái)展望

這項(xiàng)研究的意義遠(yuǎn)超過(guò)技術(shù)本身。它不僅提供了一個(gè)實(shí)用的解決方案來(lái)提高前饋式3DGS模型的可擴(kuò)展性，還為理解和解決深度學(xué)習(xí)中的信息瓶頸問(wèn)題提供了新的視角。通過(guò)將信息瓶頸理論應(yīng)用于3D場(chǎng)景重建，研究團(tuán)隊(duì)展示了如何在保持高性能的同時(shí)實(shí)現(xiàn)有效的信息壓縮。

對(duì)于普通用戶(hù)來(lái)說(shuō)，這項(xiàng)技術(shù)的進(jìn)步意味著更高質(zhì)量、更高效的3D內(nèi)容創(chuàng)建和渲染。想象一下，你可以使用智能手機(jī)拍攝家中或戶(hù)外場(chǎng)景的多張照片，然后一個(gè)增強(qiáng)了ZPressor的前饋式3DGS系統(tǒng)能夠迅速將這些照片轉(zhuǎn)化為高質(zhì)量的3D模型，可以在虛擬現(xiàn)實(shí)中探索，或者用于家居設(shè)計(jì)、房地產(chǎn)展示等應(yīng)用。這種技術(shù)可以使3D內(nèi)容創(chuàng)建變得更加普及和民主化，不再需要專(zhuān)業(yè)的設(shè)備和技能。

從研究角度看，ZPressor為解決深度學(xué)習(xí)中的信息瓶頸問(wèn)題提供了一個(gè)成功案例。這種方法可能被應(yīng)用到其他領(lǐng)域，如自然語(yǔ)言處理、多模態(tài)學(xué)習(xí)等，以提高模型的效率和可擴(kuò)展性。

未來(lái)，研究團(tuán)隊(duì)可能會(huì)探索如何進(jìn)一步提高ZPressor的效率，例如通過(guò)更先進(jìn)的視圖選擇策略或更高效的信息融合機(jī)制。他們也可能?chē)L試將ZPressor與其他技術(shù)相結(jié)合，如神經(jīng)輻射場(chǎng)（NeRF）或輕量級(jí)3D表示，以開(kāi)發(fā)更強(qiáng)大、更通用的3D場(chǎng)景重建系統(tǒng)。

總而言之，ZPressor代表了3D場(chǎng)景重建領(lǐng)域的一個(gè)重要進(jìn)步。通過(guò)創(chuàng)新性地應(yīng)用信息瓶頸理論，研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)簡(jiǎn)單而有效的解決方案，大大提高了前饋式3DGS模型的可擴(kuò)展性和效率。這項(xiàng)工作不僅推動(dòng)了學(xué)術(shù)研究的前沿，還為實(shí)際應(yīng)用提供了新的可能性，讓高質(zhì)量的3D內(nèi)容創(chuàng)建和渲染變得更加可行和普及。

對(duì)于那些對(duì)這項(xiàng)研究感興趣的讀者，可以通過(guò)項(xiàng)目頁(yè)面https://lhmd.top/zpressor獲取更多信息，包括視頻結(jié)果、代碼和訓(xùn)練好的模型。研究團(tuán)隊(duì)的開(kāi)源精神值得贊賞，這將有助于更廣泛的研究社區(qū)建立在這一重要工作的基礎(chǔ)上，進(jìn)一步推動(dòng)3D視覺(jué)領(lǐng)域的發(fā)展。

3D場(chǎng)景重建信息瓶頸壓縮高斯渲染技術(shù)

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專(zhuān)家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專(zhuān)家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法，讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置，為AI推理優(yōu)化開(kāi)辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話(huà)多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話(huà)多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長(zhǎng)度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專(zhuān)家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專(zhuān)家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話(huà)多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說(shuō)話(huà)多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話(huà)：010-62641205　涉未成年人舉報(bào)專(zhuān)線(xiàn)：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專(zhuān)區(qū)：https://www.12377.cn

<blockquote id="45ord"></blockquote>

<tt id="45ord"><b id="45ord"></b></tt>