這項由中國科學技術(shù)大學李浩然、田雨立、蘭坤等研究者與南洋理工大學林王教授、香港科大(廣州)潘輝教授等國際團隊合作完成的突破性研究,已發(fā)表在IEEE模式分析與機器智能匯刊(IEEE Transactions on Pattern Analysis and Machine Intelligence)這一人工智能領(lǐng)域的頂級期刊上。感興趣的讀者可以通過論文鏈接 https://jahnsonblack.github.io/DreamScene-Full/ 訪問完整研究成果和演示視頻。
回到童年時光,當你用積木搭建城堡時,總是先在腦海里構(gòu)思整個場景的布局——城堡放在中央,護城河環(huán)繞四周,樹木點綴在角落?,F(xiàn)在,中科大的研究團隊把這種直觀的搭建方式教給了人工智能,創(chuàng)造出了一個叫做DreamScene的系統(tǒng)。這個系統(tǒng)就像一個擁有無限創(chuàng)造力的建筑師,只需要你說一句"我想要一個秋天的公園",它就能自動設(shè)計出完整的三維場景,包括每一棵樹的位置、每一張長椅的擺放,甚至連地面的紋理都考慮得細致入微。
傳統(tǒng)的3D場景生成就像讓一個近視的藝術(shù)家在黑暗中作畫——雖然能畫出單個物體,但整體布局往往混亂不堪,有時候會出現(xiàn)三個沙發(fā)背對背擺放的荒誕場景,或者同一件家具在不同角度看起來完全不同的奇怪現(xiàn)象。DreamScene解決了這些問題,它首先像一個經(jīng)驗豐富的室內(nèi)設(shè)計師一樣進行場景規(guī)劃,然后像熟練的工匠一樣精心制作每個物件,最后像攝影師一樣從多個角度確保整個場景的和諧統(tǒng)一。
這項研究的創(chuàng)新之處在于,它不是簡單地拼湊現(xiàn)有的3D模型,而是從零開始理解場景的語義邏輯。當你說"現(xiàn)代客廳"時,系統(tǒng)會自動推理出沙發(fā)應(yīng)該面對電視、茶幾應(yīng)該放在沙發(fā)前方、綠植適合擺在角落等常識性布局規(guī)則。更令人驚喜的是,整個場景生成過程只需要1.5小時,而之前的方法往往需要十幾個小時才能完成類似的工作。
一、像聰明管家一樣的場景規(guī)劃師
當你對著DreamScene說"我想要一個溫馨的臥室"時,系統(tǒng)內(nèi)部就像啟動了一個經(jīng)驗豐富的室內(nèi)設(shè)計師。這個數(shù)字設(shè)計師使用的正是GPT-4這個"超級大腦",它擁有關(guān)于人類生活空間的豐富知識。
整個規(guī)劃過程就像和一位專業(yè)設(shè)計師的對話。系統(tǒng)會先分析你的需求,然后開始提問:"您希望是現(xiàn)代簡約風格還是溫馨傳統(tǒng)風格?""需要多大的床?雙人床還是單人床?""是否需要書桌或者梳妝臺?"通過這樣的互動對話,系統(tǒng)逐步理解你心中理想臥室的模樣。
接下來,這個數(shù)字設(shè)計師會列出房間里需要的所有物品清單。對于臥室,它可能會選擇一張2米乘1.5米的雙人床、一個高1.8米的衣柜、一張60厘米見方的床頭柜,以及一盞臺燈。每個物品不僅有精確的尺寸規(guī)格,還有詳細的外觀描述,比如"一張現(xiàn)代簡約風格的白色雙人床,配有軟包床頭和木質(zhì)床架"。
最關(guān)鍵的是空間布局推理。系統(tǒng)會運用人類的生活常識來安排物品位置,比如床頭柜必須緊鄰床的兩側(cè),臺燈要放在床頭柜上方便夜間閱讀,衣柜不能遮擋窗戶影響采光。這種推理能力讓系統(tǒng)能夠創(chuàng)造出符合人類生活習慣的合理空間。
為了確保所有物品都能和諧共處,系統(tǒng)建立了一個"關(guān)系網(wǎng)絡(luò)圖"。在這個圖中,每個物品都是一個節(jié)點,物品之間的空間關(guān)系就是連接線。比如"床與床頭柜相鄰"、"臺燈在床頭柜上方"、"衣柜與床相對"等等?;谶@個關(guān)系網(wǎng)絡(luò),系統(tǒng)使用一種叫做"圖約束放置算法"的數(shù)學方法來計算最優(yōu)布局。
這個算法的工作過程很像解決一個立體拼圖。它首先選擇一個核心物品作為參照點,比如選擇床作為臥室的中心。然后逐步放置其他物品,每放置一件都要檢查是否與已有物品發(fā)生沖突,是否滿足預設(shè)的空間關(guān)系要求。如果某個位置不合適,算法會自動尋找替代方案。整個過程確保最終的布局既滿足功能需求,又避免物品相互碰撞。
通過這種智能規(guī)劃,系統(tǒng)為每個物品確定了精確的三維坐標、旋轉(zhuǎn)角度和縮放比例。這些參數(shù)就像建筑圖紙上的標注,為后續(xù)的3D生成提供了準確的指導。
二、革命性的物體生成技術(shù):形成模式采樣法
當場景布局規(guī)劃完成后,DreamScene需要把每個物品從概念變成真實可見的三維模型。這個過程就像一個熟練的雕塑師,需要既能把握物品的整體形態(tài),又能精雕細琢每個表面細節(jié)。研究團隊開發(fā)的"形成模式采樣法"(Formation Pattern Sampling,簡稱FPS)正是解決這一挑戰(zhàn)的核心技術(shù)。
傳統(tǒng)的3D生成方法就像一個只會照著單張照片畫畫的藝術(shù)家,每次只能參考一個視角的信息來塑造物體。這導致生成的3D模型往往存在不一致的問題——從正面看是一把椅子,從側(cè)面看可能變成了完全不同的形狀。FPS的創(chuàng)新之處在于同時參考多個"時間步長"的信息,就像擁有多雙眼睛同時觀察物體。
具體來說,當系統(tǒng)要生成一把椅子時,F(xiàn)PS會同時參考來自不同細節(jié)層次的信息。在粗糙的時間步長(比如800步)中,系統(tǒng)能夠獲得椅子的基本語義信息——它應(yīng)該有靠背、座椅、四條腿等基本構(gòu)造。在中等的時間步長(比如400步)中,系統(tǒng)開始關(guān)注椅子的具體風格——是現(xiàn)代簡約還是古典雕花。在精細的時間步長(比如100步)中,系統(tǒng)專注于表面紋理和材質(zhì)細節(jié)——是光滑的塑料還是粗糙的木質(zhì)紋理。
這種多層次信息融合的過程,就像一個經(jīng)驗豐富的木匠制作家具。他首先確定家具的基本框架和比例,然后精心雕刻裝飾細節(jié),最后打磨表面使其光滑細膩。每個階段都有特定的關(guān)注重點,但最終融合成一件完美的作品。
在生成過程中,F(xiàn)PS還使用了一種叫做"3D高斯過濾"的技術(shù)來優(yōu)化模型質(zhì)量??梢园堰@個過程想象成雕塑家在創(chuàng)作過程中不斷清理多余的材料。在3D模型生成時,系統(tǒng)會產(chǎn)生大量細小的3D高斯點來構(gòu)建物體表面,但其中許多點對最終的視覺效果貢獻很小。高斯過濾技術(shù)會自動識別并移除這些冗余點,既提高了模型質(zhì)量,又減少了存儲空間。
為了進一步提升表面紋理的真實感,F(xiàn)PS在生成的最后階段采用了"重建式生成"技術(shù)。這個過程類似于攝影師從多個角度拍攝同一個物體,然后綜合所有照片來還原物體的真實外觀。系統(tǒng)會從不同視角渲染物體圖像,然后使用這些圖像來優(yōu)化3D模型的表面細節(jié),確保從任何角度觀察都能看到逼真的紋理效果。
整個FPS過程的效率令人印象深刻,生成一個高質(zhì)量的3D物體只需要幾十秒鐘,相比傳統(tǒng)方法的數(shù)小時有了質(zhì)的飛躍。這種速度提升使得生成包含多個物體的復雜場景變得現(xiàn)實可行。
三、三階段相機采樣策略:構(gòu)建完美的環(huán)境
當所有物體都生成完畢并按照規(guī)劃放置到場景中后,DreamScene面臨著一個關(guān)鍵挑戰(zhàn):如何創(chuàng)造一個與物體協(xié)調(diào)統(tǒng)一的環(huán)境。這就像拍攝一部電影,有了演員和道具還不夠,還需要精心布置背景和燈光才能營造出完整的視覺效果。
研究團隊設(shè)計了一個三階段的環(huán)境生成策略,就像分步驟裝修一個房間。每個階段都有特定的目標和相機拍攝策略,確保最終環(huán)境的每個角落都自然真實。
第一階段專注于創(chuàng)建基礎(chǔ)環(huán)境結(jié)構(gòu)。對于室內(nèi)場景,系統(tǒng)會生成墻壁、天花板和地面的基本框架;對于戶外場景,則會創(chuàng)建天空背景和地平線。在這個階段,相機被限制在場景中心附近進行拍攝,就像站在房間正中央環(huán)顧四周。這種受限的視角有助于系統(tǒng)專注于大范圍的環(huán)境特征,避免被細節(jié)干擾。已經(jīng)生成的物體在這個階段被"凍結(jié)",即它們的參數(shù)不再改變,為環(huán)境生成提供穩(wěn)定的參照。
第二階段的重點是地面細化。這個階段的創(chuàng)新之處在于針對室內(nèi)外場景采用不同的相機采樣策略。對于室內(nèi)場景,系統(tǒng)會根據(jù)物體的布局將空間劃分成不同區(qū)域,比如客廳的沙發(fā)區(qū)、電視區(qū)、角落區(qū)等等。相機會在每個區(qū)域內(nèi)隨機采樣拍攝位置,重點關(guān)注地面與物體的接觸部分,確保茶幾腿下的地板紋理、沙發(fā)周圍的地毯邊緣等細節(jié)都自然逼真。
對于戶外場景,系統(tǒng)采用了一種獨特的"同心圓采樣"方法。整個場景被想象成若干個以場景中心為原點的同心圓,相機沿著這些圓周進行拍攝。這種方法確保了地面紋理的連續(xù)性和一致性,避免了傳統(tǒng)方法中常見的地面割裂現(xiàn)象。同時,相機始終保持相同的朝向進行拍攝,這樣生成的環(huán)境具有統(tǒng)一的視覺風格。
第三階段是全場景精細化,相當于裝修的最后收尾工作。在這個階段,系統(tǒng)使用前兩個階段積累的所有相機位置信息,對整個場景進行綜合優(yōu)化。此時所有物體和環(huán)境元素的參數(shù)都被允許微調(diào),系統(tǒng)會協(xié)調(diào)各個部分之間的視覺關(guān)系,確保光照、陰影、色調(diào)等方面的一致性。
這種三階段策略的巧妙之處在于循序漸進的優(yōu)化方式。通過在每個階段限制優(yōu)化范圍和相機視角,系統(tǒng)能夠避免傳統(tǒng)方法中常見的"多頭怪"現(xiàn)象——即同一個物體在不同方向重復出現(xiàn)。比如傳統(tǒng)方法生成的客廳可能會在每面墻前都放一個電視,而DreamScene通過預先規(guī)劃物體位置和采用結(jié)構(gòu)化的相機采樣,確保每個物體只在合理的位置出現(xiàn)一次。
整個三階段過程還引入了碰撞檢測機制。當相機位置與場景中的物體發(fā)生碰撞時,系統(tǒng)會自動丟棄這些不可行的拍攝點,確保所有的環(huán)境生成都基于真實可行的視角。這種細致的考慮使得生成的場景不僅視覺上逼真,在空間邏輯上也完全合理。
四、靈活多樣的場景編輯功能
DreamScene的另一個突出特點是強大的后期編輯能力,就像擁有一個萬能的裝修工具箱,可以隨時調(diào)整場景中的任何元素。這種靈活性使得用戶不必重新生成整個場景就能實現(xiàn)各種創(chuàng)意調(diào)整。
物體重新定位是最基本的編輯功能。當你覺得沙發(fā)的位置不太合適時,只需要給出新的坐標指令,比如"把沙發(fā)往左移動一米",系統(tǒng)就能快速重新計算物體位置。這個過程就像移動真實家具一樣直觀。系統(tǒng)會自動檢查新位置是否與其他物體發(fā)生碰撞,如果發(fā)現(xiàn)沖突會提示用戶或自動尋找最近的可行位置。對于復雜的重新布局,系統(tǒng)還會重新調(diào)用場景規(guī)劃模塊,確保整體布局仍然符合空間邏輯和美學原則。
外觀修改功能讓用戶能夠改變物體的視覺特征而不影響其幾何形狀。這個過程借鑒了2D圖像編輯的思路,但經(jīng)過精心改造以適應(yīng)3D環(huán)境。當用戶要求"把椅子變成紅色"或"換成中式風格的椅子"時,系統(tǒng)不會重新生成整個椅子,而是保留現(xiàn)有的3D結(jié)構(gòu),只修改表面的紋理、顏色或細節(jié)裝飾。這種方法大大節(jié)省了時間,同時保持了物體在場景中的位置關(guān)系。
更有趣的是時間維度編輯功能,這讓靜態(tài)場景變成了動態(tài)的4D世界。用戶可以為任何物體設(shè)定運動軌跡,比如讓一個人物在房間里走來走去,或者讓樹葉在風中搖擺。系統(tǒng)會根據(jù)用戶的描述自動生成運動參數(shù),包括移動路徑、速度變化、旋轉(zhuǎn)方式等。這種動態(tài)編輯能力使得DreamScene不僅能用于靜態(tài)場景展示,還能創(chuàng)建動畫和虛擬現(xiàn)實體驗。
場景編輯的另一個強大之處是支持對話式修改。用戶不需要學習復雜的3D建模軟件操作,只需要用自然語言描述想要的改變。比如說"添加一個女孩坐在沙發(fā)上",系統(tǒng)就會自動生成新的人物模型,計算合適的坐姿和位置,確保與現(xiàn)有場景和諧融合。或者說"把整個房間改成賽博朋克風格",系統(tǒng)會調(diào)整所有物體的材質(zhì)、顏色和光照效果,營造出科幻的視覺氛圍。
這種編輯系統(tǒng)的設(shè)計哲學是讓普通用戶也能輕松進行3D場景創(chuàng)作。傳統(tǒng)的3D建模軟件需要專業(yè)知識和大量練習才能掌握,而DreamScene把這個門檻降到了日常對話的水平。用戶可以像指揮一個裝修工人一樣,用簡單明了的指令來調(diào)整場景的各個方面。
編輯功能還支持撤銷和版本管理,用戶可以隨時回到之前的任何一個版本,或者同時保存多個變體進行比較。這種靈活性讓創(chuàng)意探索變得更加自由,用戶可以大膽嘗試各種想法而不用擔心破壞已有的成果。
五、實驗驗證與性能表現(xiàn)
為了驗證DreamScene的實際效果,研究團隊進行了大規(guī)模的對比實驗。他們選擇了當前最先進的幾個3D場景生成系統(tǒng)作為對照,包括Text2Room、Text2NeRF、ProlificDreamer和Set-the-Scene等代表性方法。
測試過程就像舉辦一場3D場景生成大賽,所有參賽系統(tǒng)都要面對相同的挑戰(zhàn):根據(jù)描述生成三個室內(nèi)場景和兩個室外場景,然后接受嚴格的評判。評判標準包括生成質(zhì)量、場景一致性、空間合理性和生成時間等多個維度。
在生成質(zhì)量方面,研究團隊邀請了100名測試者對生成的場景進行打分,分數(shù)范圍從1到5分。結(jié)果顯示DreamScene在各項指標上都明顯領(lǐng)先。在質(zhì)量評分上,DreamScene獲得了3.92分,遠超其他方法的2.45-3.48分。在一致性評分上,DreamScene達到了4.24分,而其他方法普遍在3分左右徘徊。在空間合理性上,DreamScene更是以4.05分的高分證明了其場景規(guī)劃能力的優(yōu)越性。
生成時間的對比更加驚人。傳統(tǒng)方法通常需要7.5到13.3小時才能完成一個場景的生成,而DreamScene只需要1.5小時就能達到更好的效果,效率提升了5-9倍。這種速度優(yōu)勢使得DreamScene在實際應(yīng)用中具有明顯的優(yōu)勢。
為了更客觀地評估生成質(zhì)量,研究團隊還使用了R-Precision指標,這是一種衡量生成圖像與文本描述匹配程度的標準方法。在ViT-L/14模型的測試中,DreamScene達到了71.9%的匹配度,而對比方法只有約34%。這意味著DreamScene生成的場景與用戶描述的匹配程度是其他方法的兩倍以上。
特別值得注意的是3D一致性測試。研究團隊設(shè)計了一個統(tǒng)一的相機軌跡,模擬人在真實環(huán)境中的探索行為——從場景中心開始,沿直線向不同方向移動,然后圍繞中心進行圓周運動。在這個測試中,傳統(tǒng)方法經(jīng)常出現(xiàn)視角切換時的場景崩塌現(xiàn)象,比如墻壁突然消失或者物體形狀發(fā)生改變。而DreamScene生成的場景在整個探索過程中都保持了穩(wěn)定的視覺效果,深度圖也顯示出完整一致的3D結(jié)構(gòu)。
研究團隊還特別測試了"多頭怪"現(xiàn)象的出現(xiàn)頻率。在傳統(tǒng)方法生成的客廳場景中,經(jīng)常會出現(xiàn)四面墻都有電視或者多個沙發(fā)背對背放置的不合理情況。統(tǒng)計顯示,傳統(tǒng)方法中約有60%的場景存在此類問題,而DreamScene通過預先規(guī)劃物體布局,將這一比例降低到了不足5%。
在細分功能的測試中,形成模式采樣法(FPS)表現(xiàn)出色。與傳統(tǒng)的單時間步采樣方法相比,F(xiàn)PS生成的物體具有更豐富的細節(jié)和更準確的形狀。在30分鐘的生成時間限制下,F(xiàn)PS能夠產(chǎn)出接近專業(yè)3D建模質(zhì)量的物體,而傳統(tǒng)方法往往只能生成粗糙的形狀輪廓。
場景編輯功能的測試同樣令人滿意。用戶平均只需要2-3句自然語言指令就能完成復雜的場景修改,而傳統(tǒng)3D建模軟件需要數(shù)十次鼠標點擊和參數(shù)調(diào)整。編輯操作的響應(yīng)時間通常在10秒以內(nèi),這種即時反饋大大提升了用戶體驗。
六、技術(shù)創(chuàng)新的深層價值與廣闊應(yīng)用前景
DreamScene的技術(shù)突破遠不止于生成更好的3D場景,它代表了人工智能在空間理解和創(chuàng)造方面的重大進步。這項研究在多個層面都具有深遠的意義和廣闊的應(yīng)用前景。
從技術(shù)發(fā)展的角度來看,DreamScene首次實現(xiàn)了從語言描述到完整3D場景的端到端自動化生成。以往的系統(tǒng)要么只能生成單個物體,要么需要大量人工干預來確定物體布局。DreamScene通過引入GPT-4的常識推理能力,讓AI系統(tǒng)具備了類似人類的空間布局直覺。這種突破為未來的人工智能系統(tǒng)提供了新的設(shè)計思路——不僅要能理解和生成內(nèi)容,還要能理解內(nèi)容之間的關(guān)系和布局邏輯。
在虛擬現(xiàn)實和增強現(xiàn)實領(lǐng)域,DreamScene的影響將是革命性的。傳統(tǒng)的VR內(nèi)容制作需要專業(yè)的3D建模師花費數(shù)周甚至數(shù)月時間來創(chuàng)建一個場景,而現(xiàn)在只需要簡單的語言描述就能在幾小時內(nèi)完成。這將大大降低VR內(nèi)容的制作門檻和成本,讓更多創(chuàng)作者能夠參與虛擬世界的構(gòu)建。對于元宇宙概念的實現(xiàn),這項技術(shù)提供了關(guān)鍵的內(nèi)容生產(chǎn)工具。
游戲產(chǎn)業(yè)同樣會從中受益匪淺。游戲開發(fā)中的場景設(shè)計往往是最耗時耗力的環(huán)節(jié)之一,DreamScene能夠快速生成多樣化的游戲環(huán)境,讓開發(fā)者可以將更多精力投入到游戲玩法和交互設(shè)計上。更重要的是,這項技術(shù)支持動態(tài)編輯,意味著游戲世界可以根據(jù)玩家行為實時調(diào)整和演化,創(chuàng)造出更加個性化的游戲體驗。
在建筑和室內(nèi)設(shè)計行業(yè),DreamScene為設(shè)計師提供了強大的可視化工具??蛻敉y以從平面圖紙中理解最終的空間效果,而現(xiàn)在設(shè)計師只需要輸入設(shè)計理念的文字描述,就能立即生成三維可視化場景供客戶體驗。客戶可以在虛擬空間中"行走",從不同角度查看設(shè)計效果,甚至提出修改建議并即時看到調(diào)整結(jié)果。這種交互方式將徹底改變設(shè)計溝通的模式。
電影和動畫制作也將迎來新的可能性。傳統(tǒng)的場景搭建成本高昂,而且受到物理條件限制。DreamScene能夠快速創(chuàng)建任何想象中的場景,從現(xiàn)實世界的精確復制到完全虛構(gòu)的奇幻環(huán)境。導演可以在前期制作階段快速嘗試不同的場景設(shè)計,找到最佳的視覺表達方式。
教育領(lǐng)域的應(yīng)用前景同樣廣闊。歷史教師可以重現(xiàn)古代城市的場景,讓學生在虛擬的古羅馬廣場或紫禁城中學習歷史;地理教師可以創(chuàng)建不同氣候帶的典型景觀,讓學生身臨其境地了解地理知識;化學教師甚至可以構(gòu)建分子結(jié)構(gòu)的宏觀模型,幫助學生理解抽象的化學概念。
從更宏觀的視角來看,DreamScene代表了人工智能從"生成內(nèi)容"向"理解空間"的重要躍升。空間認知是人類智能的核心能力之一,也是構(gòu)建通用人工智能的關(guān)鍵要素。DreamScene展示了AI系統(tǒng)在空間推理、物體關(guān)系理解和場景構(gòu)建方面的巨大潛力,為未來開發(fā)更智能的機器人和自主系統(tǒng)提供了重要基礎(chǔ)。
當然,這項技術(shù)的發(fā)展也面臨一些挑戰(zhàn)和限制。目前的系統(tǒng)主要針對靜態(tài)場景,對于復雜的動態(tài)環(huán)境和物理交互的模擬還有待進一步完善。生成場景的真實感雖然已經(jīng)相當高,但在某些細節(jié)方面仍與真實環(huán)境存在差距。此外,系統(tǒng)的計算需求仍然較高,普通用戶設(shè)備可能難以流暢運行。
展望未來,研究團隊計劃在多個方向上進一步完善系統(tǒng)。首先是增強物理仿真能力,讓生成的場景不僅視覺逼真,還能支持真實的物理交互。其次是提升動態(tài)內(nèi)容生成能力,能夠創(chuàng)建包含復雜運動和變化的4D場景。第三是優(yōu)化計算效率,讓普通消費設(shè)備也能運行這套系統(tǒng)。
長遠來看,DreamScene及其后續(xù)發(fā)展可能會催生全新的內(nèi)容創(chuàng)作模式和商業(yè)生態(tài)。當任何人都能通過簡單的語言描述創(chuàng)造出專業(yè)質(zhì)量的3D內(nèi)容時,內(nèi)容創(chuàng)作的門檻將大幅降低,創(chuàng)意產(chǎn)業(yè)的格局也將發(fā)生根本性變化。這不僅是技術(shù)的進步,更是人類創(chuàng)造力表達方式的革命。
Q&A
Q1:DreamScene生成一個3D場景需要多長時間,普通電腦能運行嗎?
A:DreamScene生成一個完整的3D場景大約需要1.5小時,相比傳統(tǒng)方法的7-13小時大幅提升了效率。不過目前系統(tǒng)的計算需求仍然較高,需要NVIDIA 3090這樣的專業(yè)顯卡才能流暢運行,普通家用電腦可能難以勝任。研究團隊正在優(yōu)化算法以降低硬件要求。
Q2:DreamScene能生成哪些類型的場景,有什么限制嗎?
A:DreamScene能生成各種室內(nèi)外場景,從現(xiàn)代客廳、臥室到秋天公園、城市街道等都能勝任。系統(tǒng)支持20多個物體的復雜場景,并且可以通過自然語言對話進行個性化定制。目前主要限制是對復雜動態(tài)環(huán)境和精細物理交互的支持還不夠完善,主要適用于靜態(tài)或簡單動態(tài)場景。
Q3:普通用戶如何使用DreamScene,需要學習3D建模嗎?
A:DreamScene最大的優(yōu)勢就是無需任何3D建模知識,普通用戶只需用自然語言描述想要的場景即可。比如說"我想要一個溫馨的現(xiàn)代客廳"或"添加一張紅色沙發(fā)",系統(tǒng)就能自動理解并生成相應(yīng)內(nèi)容。用戶還可以通過對話方式不斷修改和完善場景,整個過程就像與裝修設(shè)計師交流一樣簡單直觀。
好文章,需要你的鼓勵
浙江大學團隊提出動態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學、編程等任務(wù)上顯著提升推理準確率,且不增加計算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學研究團隊提出SIRI方法,通過"壓縮-擴張"交替訓練策略,成功解決了大型推理模型"話多且準確率低"的問題。實驗顯示,該方法在數(shù)學競賽題上將模型準確率提升43.2%的同時,輸出長度減少46.9%,真正實現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓練提供了新思路。
南洋理工大學與騰訊聯(lián)合研究團隊開發(fā)出Rolling Forcing技術(shù),實現(xiàn)AI視頻實時流式生成的重大突破。該技術(shù)通過滾動窗口聯(lián)合去噪、注意力錨點機制和高效訓練算法三項創(chuàng)新,解決了長視頻生成中的錯誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學研究團隊發(fā)現(xiàn),通過讓AI模型學習解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個幾何題目的Euclid30K數(shù)據(jù)集,使用強化學習方法訓練多個AI模型。實驗結(jié)果顯示,幾何訓練在四個空間智能測試基準上都帶來顯著提升,其中最佳模型達到49.6%準確率,超越此前最好成績。這項研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價值。