這項(xiàng)由浙江大學(xué)趙燦宇、李曉曼、馮天健、趙智越、陳浩等研究者,以及浙江工業(yè)大學(xué)沈春華團(tuán)隊(duì)合作完成的研究,發(fā)表于2025年8月20日的arXiv預(yù)印本(編號(hào):arXiv:2508.14811v1),為3D場(chǎng)景編輯帶來(lái)了革命性突破。感興趣的讀者可以通過(guò)該編號(hào)查詢(xún)完整論文。
想象一下,你想把自己房間的照片變成卡通風(fēng)格,或者把花園里的景色調(diào)成秋天的金黃色調(diào)。過(guò)去,要實(shí)現(xiàn)這樣的3D場(chǎng)景編輯,就像給一座復(fù)雜的鐘表?yè)Q零件一樣,需要拆開(kāi)每個(gè)部分,精心調(diào)試每個(gè)角度,確保所有視角都保持一致,這個(gè)過(guò)程往往需要花費(fèi)數(shù)小時(shí)甚至數(shù)天時(shí)間。而現(xiàn)在,研究團(tuán)隊(duì)開(kāi)發(fā)的TINKER系統(tǒng)就像一把神奇的魔法棒,只需要一張或幾張圖片作為參考,就能自動(dòng)完成整個(gè)3D場(chǎng)景的風(fēng)格轉(zhuǎn)換,而且所有角度看起來(lái)都完美統(tǒng)一。
這項(xiàng)研究的核心突破在于,它首次實(shí)現(xiàn)了無(wú)需針對(duì)每個(gè)場(chǎng)景進(jìn)行專(zhuān)門(mén)訓(xùn)練就能完成高質(zhì)量3D編輯。就好比過(guò)去每次給不同的房間裝修都要重新學(xué)習(xí)一遍裝修技巧,而現(xiàn)在有了一套通用的裝修方案,可以直接應(yīng)用到任何房間。研究團(tuán)隊(duì)不僅解決了技術(shù)難題,還創(chuàng)建了第一個(gè)大規(guī)模多視角一致性編輯數(shù)據(jù)集,為后續(xù)研究奠定了基礎(chǔ)。
一、發(fā)現(xiàn)問(wèn)題的關(guān)鍵:當(dāng)前3D編輯技術(shù)的困境
要理解TINKER的重要性,我們先來(lái)看看現(xiàn)有3D編輯技術(shù)面臨的挑戰(zhàn)。目前的3D編輯就像是一個(gè)復(fù)雜的流水線作業(yè):首先需要使用2D圖像編輯模型對(duì)多個(gè)角度的照片分別進(jìn)行編輯,然后再用這些編輯好的圖片去訓(xùn)練一個(gè)3D模型。這個(gè)過(guò)程有兩個(gè)主要問(wèn)題。
第一個(gè)問(wèn)題是多視角一致性。假設(shè)你要把一輛紅色汽車(chē)改成藍(lán)色,你需要從前面、后面、側(cè)面等多個(gè)角度拍攝照片,然后分別把每張照片中的汽車(chē)改成藍(lán)色。但是,不同照片中的藍(lán)色可能會(huì)有細(xì)微差異,有些可能偏深藍(lán),有些可能偏淺藍(lán),這樣最終合成的3D模型就會(huì)出現(xiàn)顏色不統(tǒng)一的問(wèn)題,從某些角度看起來(lái)就像是一輛"花臉"汽車(chē)。
第二個(gè)問(wèn)題是每個(gè)場(chǎng)景都需要重新訓(xùn)練。就像每次做菜都要重新學(xué)習(xí)食譜一樣,傳統(tǒng)方法對(duì)每個(gè)不同的3D場(chǎng)景都需要進(jìn)行專(zhuān)門(mén)的優(yōu)化調(diào)整,這不僅耗時(shí)費(fèi)力,還需要大量的計(jì)算資源。一個(gè)簡(jiǎn)單的場(chǎng)景編輯可能需要在高性能GPU上運(yùn)行數(shù)小時(shí)。
研究團(tuán)隊(duì)觀察到,最新的大規(guī)模圖像編輯模型(比如FLUX Kontext)具有一個(gè)有趣的特性:當(dāng)你把兩張圖片水平拼接在一起輸入給它時(shí),它能夠生成風(fēng)格一致的編輯結(jié)果。這就像是給一個(gè)畫(huà)家同時(shí)展示兩幅需要修改的畫(huà)作,畫(huà)家能夠確保兩幅畫(huà)的修改風(fēng)格保持一致。但是,這種方法只能保證兩張圖片之間的一致性,當(dāng)涉及到更多圖片時(shí),不同圖片對(duì)之間仍然會(huì)出現(xiàn)不一致的問(wèn)題。
更關(guān)鍵的是,研究團(tuán)隊(duì)發(fā)現(xiàn)現(xiàn)有模型無(wú)法進(jìn)行"參考式編輯"。也就是說(shuō),如果你給模型展示一張已經(jīng)編輯好的圖片作為參考,然后希望它按照這個(gè)參考來(lái)編輯另一張圖片,模型往往會(huì)失敗,要么完全不進(jìn)行編輯,要么編輯結(jié)果與參考相差甚遠(yuǎn)。這就像給一個(gè)學(xué)生展示標(biāo)準(zhǔn)答案,但學(xué)生卻無(wú)法理解如何按照標(biāo)準(zhǔn)答案來(lái)完成類(lèi)似的題目。
二、創(chuàng)新解決方案:重新設(shè)計(jì)多視角一致性編輯
面對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)提出了一個(gè)巧妙的解決方案。他們的核心思路是"以模型治模型"——利用現(xiàn)有模型的優(yōu)勢(shì)來(lái)彌補(bǔ)它的不足。
首先,他們利用FLUX Kontext模型能夠生成局部一致編輯結(jié)果的特性,創(chuàng)建了一個(gè)大規(guī)模的參考式編輯數(shù)據(jù)集。這個(gè)過(guò)程就像是訓(xùn)練一個(gè)翻譯官:先讓翻譯官看大量的標(biāo)準(zhǔn)翻譯對(duì)照,然后再教會(huì)他如何按照已有的翻譯風(fēng)格來(lái)翻譯新的內(nèi)容。
具體來(lái)說(shuō),研究團(tuán)隊(duì)從公開(kāi)的3D數(shù)據(jù)集中隨機(jī)選擇同一場(chǎng)景的兩個(gè)不同視角的圖片,然后使用語(yǔ)言模型生成多樣化的編輯指令,比如"把風(fēng)格改成梵高的畫(huà)風(fēng)"或"把天氣改成下雪的冬天"。接著,他們使用FLUX Kontext模型對(duì)這些拼接的圖片進(jìn)行編輯,并建立嚴(yán)格的質(zhì)量篩選機(jī)制。
這個(gè)篩選過(guò)程使用了兩個(gè)重要指標(biāo)。第一個(gè)是"編輯充分性":通過(guò)計(jì)算原圖和編輯后圖片的特征相似度,確保編輯確實(shí)產(chǎn)生了明顯的變化,避免那些"假裝編輯"的結(jié)果。第二個(gè)是"視角一致性":確保同一場(chǎng)景的兩個(gè)不同視角編輯后仍然保持風(fēng)格統(tǒng)一。只有同時(shí)滿(mǎn)足這兩個(gè)條件的樣本才會(huì)被納入訓(xùn)練數(shù)據(jù)集。
通過(guò)這種方法,研究團(tuán)隊(duì)構(gòu)建了包含25萬(wàn)個(gè)樣本的大規(guī)模數(shù)據(jù)集。然后,他們使用這個(gè)數(shù)據(jù)集對(duì)FLUX Kontext模型進(jìn)行微調(diào),教會(huì)它如何進(jìn)行參考式編輯。訓(xùn)練過(guò)程采用了LoRA技術(shù),這是一種高效的模型微調(diào)方法,就像給原有的技能系統(tǒng)添加新的技能包,而不是重新學(xué)習(xí)所有技能。
經(jīng)過(guò)微調(diào)后的模型具備了全新的能力:當(dāng)你給它展示一張?jiān)紙D片和一張來(lái)自不同角度的已編輯參考圖片時(shí),它能夠理解編輯意圖,并將相同的編輯風(fēng)格應(yīng)用到原始圖片上。這就像是一個(gè)聰明的助手,看到你給客廳換了新的裝修風(fēng)格后,就能自動(dòng)理解你的喜好,并按照同樣的風(fēng)格來(lái)裝修臥室。
三、場(chǎng)景補(bǔ)全技術(shù):從稀疏到密集的智能填充
解決了多視角一致性編輯問(wèn)題后,研究團(tuán)隊(duì)面臨另一個(gè)挑戰(zhàn):如何高效地從少數(shù)幾個(gè)編輯好的視角生成大量的其他視角?如果逐一進(jìn)行編輯,不僅速度慢,還可能引入新的不一致性問(wèn)題。
研究團(tuán)隊(duì)的解決思路頗具創(chuàng)意:他們將編輯問(wèn)題轉(zhuǎn)化為重建問(wèn)題。這種轉(zhuǎn)換就像是從"畫(huà)一幅新畫(huà)"變成了"根據(jù)幾個(gè)關(guān)鍵筆觸還原整幅畫(huà)"。他們的想法是,如果一個(gè)模型能夠根據(jù)少數(shù)幾個(gè)視角重建出原始場(chǎng)景,那么同樣的模型也應(yīng)該能夠根據(jù)少數(shù)幾個(gè)編輯后的視角重建出編輯后的場(chǎng)景。
為了實(shí)現(xiàn)這個(gè)目標(biāo),他們基于WAN2.1視頻生成模型開(kāi)發(fā)了專(zhuān)門(mén)的場(chǎng)景補(bǔ)全模型。這個(gè)模型的設(shè)計(jì)理念是利用視頻生成模型強(qiáng)大的時(shí)空先驗(yàn)知識(shí)。視頻生成模型本質(zhì)上就是要確保相鄰幀之間的連貫性,這與3D場(chǎng)景中不同視角之間需要保持一致性的需求不謀而合。
關(guān)鍵的創(chuàng)新在于他們選擇了深度圖作為條件信號(hào),而不是傳統(tǒng)方法中使用的相機(jī)射線圖。深度圖就像是一張記錄了每個(gè)像素距離相機(jī)遠(yuǎn)近的"地形圖",它不僅包含了明確的幾何約束信息,還隱含地編碼了相機(jī)位置信息。相比之下,相機(jī)射線圖雖然包含了精確的幾何信息,但約束力不夠強(qiáng),容易導(dǎo)致生成結(jié)果偏離預(yù)期的幾何結(jié)構(gòu)。
更重要的是,深度圖為模型提供了嚴(yán)格的幾何約束。在3D編輯場(chǎng)景中,我們通常希望只改變物體的外觀(比如顏色、紋理、風(fēng)格),而不改變其幾何形狀。深度圖正好提供了這種約束:它確保生成的新視角嚴(yán)格遵循原有的幾何結(jié)構(gòu),只在表面外觀上進(jìn)行變化。
訓(xùn)練過(guò)程采用了巧妙的設(shè)計(jì)。模型的輸入包括三個(gè)部分:帶噪聲的目標(biāo)視頻幀、深度圖條件、以及少數(shù)幾個(gè)參考視角。為了讓模型學(xué)會(huì)將參考視角與目標(biāo)幀關(guān)聯(lián)起來(lái),研究團(tuán)隊(duì)使用了相同的位置編碼技術(shù)。這就像是給參考圖片和目標(biāo)位置貼上相同的"標(biāo)簽",告訴模型它們之間的對(duì)應(yīng)關(guān)系。
訓(xùn)練時(shí),模型總是將第一幀作為默認(rèn)參考,并隨機(jī)選擇0到2個(gè)額外的參考視角。這種訓(xùn)練策略讓模型既能處理只有一個(gè)參考視角的情況(一次性編輯),也能處理有多個(gè)參考視角的情況(少量樣本編輯)。文本輸入被固定為常量,迫使模型專(zhuān)注于從深度和參考視角中學(xué)習(xí)生成規(guī)律。
四、實(shí)驗(yàn)驗(yàn)證:全面超越現(xiàn)有技術(shù)
為了驗(yàn)證TINKER的有效性,研究團(tuán)隊(duì)進(jìn)行了詳盡的實(shí)驗(yàn)對(duì)比。他們選擇了當(dāng)前最先進(jìn)的幾種3D編輯方法作為對(duì)比基準(zhǔn),包括DGE、GaussCtrl、TIP-Editor和EditSplat等。實(shí)驗(yàn)在標(biāo)準(zhǔn)數(shù)據(jù)集Mip-NeRF-360和IN2N上進(jìn)行,確保了結(jié)果的公正性和可比性。
評(píng)估指標(biāo)的設(shè)計(jì)體現(xiàn)了3D編輯任務(wù)的多重要求。CLIP文本-圖像方向相似度用來(lái)衡量編輯結(jié)果是否符合文本指令的語(yǔ)義要求,就像檢查翻譯是否準(zhǔn)確傳達(dá)了原文意思。DINO相似度用來(lái)評(píng)估不同視角之間的一致性,確保從各個(gè)角度看都像同一個(gè)物體。美學(xué)評(píng)分則用來(lái)評(píng)判整體的視覺(jué)質(zhì)量和觀感。
實(shí)驗(yàn)結(jié)果顯示,TINKER在所有指標(biāo)上都取得了顯著優(yōu)勢(shì)。在語(yǔ)義對(duì)齊方面,TINKER的一次性編輯模式達(dá)到了0.143的CLIP方向相似度,少量樣本編輯模式更是達(dá)到了0.157,顯著超過(guò)其他方法。在多視角一致性方面,TINKER達(dá)到了0.958-0.959的DINO相似度,表明生成的不同視角具有極高的一致性。
更重要的是,TINKER在計(jì)算效率方面表現(xiàn)出色。傳統(tǒng)方法如GaussCtrl需要針對(duì)每個(gè)場(chǎng)景進(jìn)行專(zhuān)門(mén)的微調(diào),在24GB顯存的GPU上都無(wú)法運(yùn)行,而TINKER完全不需要場(chǎng)景特定的訓(xùn)練,可以在單塊消費(fèi)級(jí)GPU上高效運(yùn)行。平均編輯時(shí)間約為15分鐘,相比其他方法節(jié)省了大量時(shí)間。
定性結(jié)果更是令人印象深刻。無(wú)論是物體級(jí)編輯(比如改變汽車(chē)顏色、替換建筑材質(zhì))還是場(chǎng)景級(jí)編輯(比如風(fēng)格轉(zhuǎn)換、季節(jié)變化),TINKER都能產(chǎn)生自然、一致的結(jié)果。特別是在處理大幅度風(fēng)格變化時(shí),比如將真實(shí)照片轉(zhuǎn)換為油畫(huà)風(fēng)格或黑白漫畫(huà)風(fēng)格,TINKER展現(xiàn)出了其他方法難以企及的效果。
五、深度分析:消融實(shí)驗(yàn)揭示設(shè)計(jì)智慧
為了深入理解TINKER各個(gè)組件的作用,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。這些實(shí)驗(yàn)就像是拆解一臺(tái)精密機(jī)器,逐一檢驗(yàn)每個(gè)零件的重要性。
首先是多視角一致性編輯模型的微調(diào)效果驗(yàn)證。對(duì)比微調(diào)前后的結(jié)果發(fā)現(xiàn),微調(diào)顯著提升了全局一致性。具體來(lái)說(shuō),DINO相似度從0.862提升到0.943,這意味著不同視角之間的一致性有了質(zhì)的飛躍。同時(shí),CLIP方向相似度和美學(xué)評(píng)分都保持在相近水平,說(shuō)明微調(diào)在提升一致性的同時(shí)沒(méi)有損害語(yǔ)義對(duì)齊性和視覺(jué)質(zhì)量。
關(guān)于輸入圖片數(shù)量的實(shí)驗(yàn)揭示了一個(gè)重要的平衡點(diǎn)。研究團(tuán)隊(duì)測(cè)試了同時(shí)編輯2張、3張和4張拼接圖片的效果。結(jié)果顯示,拼接2張圖片能夠在一致性和視覺(jué)質(zhì)量之間達(dá)到最佳平衡。當(dāng)拼接更多圖片時(shí),由于分辨率限制,每張圖片會(huì)被嚴(yán)重壓縮,導(dǎo)致細(xì)節(jié)丟失和模糊現(xiàn)象。這個(gè)發(fā)現(xiàn)為后續(xù)的系統(tǒng)設(shè)計(jì)提供了重要指導(dǎo)。
在場(chǎng)景補(bǔ)全模型的設(shè)計(jì)選擇方面,深度條件相比射線圖條件的優(yōu)勢(shì)非常明顯。使用深度條件的模型在文本-圖像相似度、DINO相似度和美學(xué)評(píng)分上都顯著優(yōu)于使用射線圖條件的版本。這證實(shí)了研究團(tuán)隊(duì)關(guān)于深度圖提供更強(qiáng)幾何約束的理論分析。
與現(xiàn)有深度引導(dǎo)視頻生成方法VACE的對(duì)比更是令人信服。VACE雖然在一般視頻生成任務(wù)上表現(xiàn)出色,但在3D編輯任務(wù)中表現(xiàn)不佳。這是因?yàn)閂ACE將深度更多地視為參考而非嚴(yán)格約束,在處理需要精確幾何控制的3D編輯任務(wù)時(shí)就顯得力不從心。TINKER通過(guò)專(zhuān)門(mén)針對(duì)3D數(shù)據(jù)進(jìn)行訓(xùn)練,學(xué)會(huì)了嚴(yán)格遵循深度約束,因此在3D編輯任務(wù)中表現(xiàn)更優(yōu)。
六、應(yīng)用拓展:意外的驚喜功能
在開(kāi)發(fā)過(guò)程中,研究團(tuán)隊(duì)發(fā)現(xiàn)TINKER還具備一些意料之外的強(qiáng)大功能,這些功能進(jìn)一步證明了其技術(shù)架構(gòu)的先進(jìn)性和通用性。
質(zhì)量提升功能是一個(gè)令人驚喜的發(fā)現(xiàn)。當(dāng)使用"提升質(zhì)量"這樣的提示詞時(shí),TINKER能夠自動(dòng)識(shí)別渲染結(jié)果中的模糊區(qū)域,并進(jìn)行有針對(duì)性的增強(qiáng)。這個(gè)功能就像是一個(gè)智能的圖像修復(fù)師,能夠自動(dòng)發(fā)現(xiàn)并修復(fù)圖像中的瑕疵。這種能力對(duì)于改善3D重建質(zhì)量具有重要價(jià)值,特別是在處理那些原始數(shù)據(jù)質(zhì)量不高的場(chǎng)景時(shí)。
視頻重建功能展現(xiàn)了TINKER的另一面才華。給定視頻的第一幀和整個(gè)深度序列,TINKER能夠重建出高質(zhì)量的完整視頻。在包含1000個(gè)視頻的測(cè)試集上,TINKER達(dá)到了31.869的PSNR和0.941的SSIM,遠(yuǎn)超VACE的16.635 PSNR和0.331 SSIM。這個(gè)結(jié)果不僅證明了模型的重建能力,還暗示了一種全新的視頻壓縮可能性:只需要存儲(chǔ)第一幀和深度序列,就能重建出完整視頻。
測(cè)試時(shí)優(yōu)化是TINKER最具實(shí)用價(jià)值的特性之一。由于不需要針對(duì)每個(gè)場(chǎng)景進(jìn)行專(zhuān)門(mén)訓(xùn)練,用戶(hù)可以進(jìn)行迭代式的編輯實(shí)驗(yàn)。如果某個(gè)視角的生成結(jié)果不夠理想,可以立即重新生成并替換,這個(gè)過(guò)程可以反復(fù)進(jìn)行直到滿(mǎn)意為止。這種交互式的編輯體驗(yàn)是傳統(tǒng)方法無(wú)法提供的,因?yàn)閭鹘y(tǒng)方法的每次修改都需要重新進(jìn)行整個(gè)訓(xùn)練過(guò)程。
七、技術(shù)影響與未來(lái)展望
TINKER的出現(xiàn)標(biāo)志著3D編輯技術(shù)的一個(gè)重要轉(zhuǎn)折點(diǎn)。它不僅解決了長(zhǎng)期困擾該領(lǐng)域的多視角一致性問(wèn)題,更重要的是大幅降低了3D編輯的技術(shù)門(mén)檻和使用成本。
從技術(shù)發(fā)展的角度來(lái)看,TINKER代表了從"定制化"向"通用化"的重要轉(zhuǎn)變。過(guò)去的3D編輯方法就像是手工作坊,每個(gè)產(chǎn)品都需要單獨(dú)制作和調(diào)試。而TINKER更像是一條自動(dòng)化生產(chǎn)線,可以高效地處理各種不同的輸入,生產(chǎn)出統(tǒng)一高質(zhì)量的輸出。
這種轉(zhuǎn)變的意義不僅在于效率的提升,更在于應(yīng)用門(mén)檻的降低。普通用戶(hù)不再需要深入了解復(fù)雜的3D技術(shù)細(xì)節(jié),也不需要擁有高端的計(jì)算設(shè)備,就能完成過(guò)去只有專(zhuān)業(yè)人員才能完成的3D編輯任務(wù)。這為3D內(nèi)容創(chuàng)作的民主化奠定了技術(shù)基礎(chǔ)。
從數(shù)據(jù)集的角度來(lái)看,研究團(tuán)隊(duì)創(chuàng)建的25萬(wàn)樣本的多視角一致性編輯數(shù)據(jù)集填補(bǔ)了該領(lǐng)域的空白,為后續(xù)研究提供了寶貴的資源。這個(gè)數(shù)據(jù)集不僅規(guī)模大,質(zhì)量也很高,經(jīng)過(guò)了嚴(yán)格的篩選和驗(yàn)證。更重要的是,研究團(tuán)隊(duì)承諾將數(shù)據(jù)集和生成pipeline公開(kāi)發(fā)布,這將極大地促進(jìn)整個(gè)領(lǐng)域的發(fā)展。
當(dāng)然,TINKER也存在一些局限性。由于數(shù)據(jù)集是通過(guò)基礎(chǔ)模型合成的,在某些精細(xì)細(xì)節(jié)上可能存在不一致性。另外,由于場(chǎng)景補(bǔ)全模型依賴(lài)深度約束,目前還無(wú)法處理涉及大幅幾何變形的編輯任務(wù)。但這些限制并不影響TINKER在大多數(shù)實(shí)際應(yīng)用場(chǎng)景中的價(jià)值。
展望未來(lái),TINKER的技術(shù)路線為3D編輯領(lǐng)域的發(fā)展指明了方向。一方面,可以通過(guò)改進(jìn)數(shù)據(jù)集質(zhì)量和多樣性來(lái)進(jìn)一步提升編輯效果;另一方面,可以探索將類(lèi)似的思路應(yīng)用到其他3D任務(wù)中,比如3D生成、3D理解等。隨著基礎(chǔ)模型能力的不斷提升,我們有理由相信,更加強(qiáng)大和通用的3D編輯系統(tǒng)將會(huì)出現(xiàn)。
說(shuō)到底,TINKER的成功不僅在于它解決了一個(gè)具體的技術(shù)問(wèn)題,更在于它展示了一種新的思維方式:如何巧妙地利用現(xiàn)有基礎(chǔ)模型的能力,通過(guò)精心設(shè)計(jì)的數(shù)據(jù)和訓(xùn)練策略,實(shí)現(xiàn)質(zhì)的飛躍。這種"站在巨人肩膀上"的研究思路,可能會(huì)成為未來(lái)AI研究的重要范式。對(duì)于普通用戶(hù)而言,TINKER意味著3D內(nèi)容創(chuàng)作將變得更加簡(jiǎn)單和高效,每個(gè)人都有可能成為3D世界的創(chuàng)造者。有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過(guò)arXiv:2508.14811v1查詢(xún)完整論文。
Q&A
Q1:TINKER是什么?它能做什么?
A:TINKER是浙江大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的3D場(chǎng)景編輯系統(tǒng),它能夠僅用一張或幾張參考圖片就完成整個(gè)3D場(chǎng)景的風(fēng)格轉(zhuǎn)換,比如把房間照片變成卡通風(fēng)格,或把花園景色調(diào)成秋天色調(diào),而且從所有角度看都保持一致,整個(gè)過(guò)程大約15分鐘就能完成。
Q2:TINKER與傳統(tǒng)3D編輯方法有什么區(qū)別?
A:傳統(tǒng)方法需要對(duì)每個(gè)場(chǎng)景進(jìn)行專(zhuān)門(mén)訓(xùn)練調(diào)試,就像每次裝修都要重新學(xué)習(xí)技巧,而TINKER采用通用方案,無(wú)需針對(duì)具體場(chǎng)景進(jìn)行訓(xùn)練,可以直接應(yīng)用到任何3D場(chǎng)景,大大節(jié)省了時(shí)間和計(jì)算資源。
Q3:普通用戶(hù)能使用TINKER嗎?需要什么設(shè)備?
A:TINKER專(zhuān)門(mén)設(shè)計(jì)為用戶(hù)友好型系統(tǒng),可以在單塊消費(fèi)級(jí)GPU上運(yùn)行,不需要高端設(shè)備。研究團(tuán)隊(duì)計(jì)劃公開(kāi)發(fā)布相關(guān)代碼和數(shù)據(jù)集,這意味著未來(lái)普通用戶(hù)也有機(jī)會(huì)體驗(yàn)這項(xiàng)技術(shù)。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專(zhuān)家搜索方法,讓AI能根據(jù)不同問(wèn)題靈活調(diào)整內(nèi)部專(zhuān)家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類(lèi)型問(wèn)題偏愛(ài)不同專(zhuān)家配置,為AI推理優(yōu)化開(kāi)辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過(guò)"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問(wèn)題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競(jìng)賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長(zhǎng)度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過(guò)滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長(zhǎng)視頻生成中的錯(cuò)誤累積問(wèn)題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開(kāi)辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過(guò)讓AI模型學(xué)習(xí)解決幾何問(wèn)題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來(lái)顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績(jī)。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。