這項(xiàng)由Hugging Face公司Dylan Ebert領(lǐng)導(dǎo)的研究于2025年6月23日發(fā)表在arXiv預(yù)印本平臺上(論文編號:arXiv:2506.18787v1),該論文完整標(biāo)題為"3D Arena: An Open Platform for Generative 3D Evaluation"。有興趣深入了解的讀者可以通過https://huggingface.co/spaces/dylanebert/3d-arena訪問該平臺,或在https://huggingface.co/datasets/dylanebert/iso3d獲取完整數(shù)據(jù)集。
在人工智能快速發(fā)展的今天,3D模型生成技術(shù)正以前所未有的速度進(jìn)步著。每隔幾個(gè)月,就會(huì)有新的突破性模型問世,這些模型能夠根據(jù)一張簡單的圖片,瞬間生成精美的三維立體模型。這些3D模型不僅在視頻游戲開發(fā)、電影制作中發(fā)揮著重要作用,還廣泛應(yīng)用于建筑設(shè)計(jì)、虛擬現(xiàn)實(shí)體驗(yàn)等眾多領(lǐng)域。然而,一個(gè)關(guān)鍵問題始終困擾著整個(gè)行業(yè):如何準(zhǔn)確評判這些AI生成的3D模型究竟有多好?
傳統(tǒng)的評估方法就像是用老式的尺子去測量現(xiàn)代化的建筑物一樣不合時(shí)宜?,F(xiàn)有的評估標(biāo)準(zhǔn)主要依賴自動(dòng)化的數(shù)學(xué)指標(biāo),這些指標(biāo)雖然能夠快速給出分?jǐn)?shù),但完全無法捕捉到人類真正關(guān)心的品質(zhì)要素。就好比你想評判一道菜的美味程度,卻只是通過測量其溫度和重量來打分,顯然是荒謬的。真正的品質(zhì)評判需要人類的感官體驗(yàn)和主觀判斷。
為了解決這個(gè)評估難題,研究團(tuán)隊(duì)推出了3D Arena——一個(gè)開放式的3D模型評測平臺。這個(gè)平臺的運(yùn)作方式非常巧妙,類似于我們在網(wǎng)絡(luò)上經(jīng)??吹降?你更喜歡哪個(gè)"投票活動(dòng)。用戶登錄平臺后,會(huì)看到兩個(gè)匿名的3D模型并排展示,就像是在商場里比較兩件商品一樣。用戶可以自由旋轉(zhuǎn)、縮放這些3D模型,仔細(xì)觀察每個(gè)細(xì)節(jié),然后投票選擇自己認(rèn)為更好的那個(gè)。
自2024年6月平臺上線以來,3D Arena已經(jīng)取得了令人矚目的成果。截至目前,該平臺已經(jīng)收集了來自8,096名用戶的123,243次投票,涵蓋了19個(gè)最先進(jìn)的3D生成模型。這個(gè)規(guī)模在3D模型人類偏好評估領(lǐng)域是史無前例的,建立了迄今為止最大的人類偏好數(shù)據(jù)庫。
更重要的是,這個(gè)平臺已經(jīng)在實(shí)際研究中產(chǎn)生了深遠(yuǎn)影響。許多研究團(tuán)隊(duì)開始將3D Arena的排名結(jié)果作為衡量自己模型性能的重要指標(biāo),甚至根據(jù)平臺反饋調(diào)整研發(fā)方向。這證明了該平臺不僅僅是一個(gè)評測工具,更成為了推動(dòng)整個(gè)行業(yè)發(fā)展的重要基礎(chǔ)設(shè)施。
一、評估體系的科學(xué)設(shè)計(jì)原理
3D Arena的成功并非偶然,而是建立在四個(gè)精心設(shè)計(jì)的核心原則之上。這些原則就像是建造房屋的四根支柱,缺一不可。
首先是匿名配對比較原則。當(dāng)用戶進(jìn)入平臺時(shí),看到的兩個(gè)3D模型完全沒有任何標(biāo)識,就像是蒙住眼睛品嘗兩杯茶一樣。這種設(shè)計(jì)巧妙地消除了品牌偏見的影響。在現(xiàn)實(shí)生活中,我們經(jīng)常會(huì)因?yàn)閷δ硞€(gè)品牌的印象而影響判斷,比如看到蘋果公司的產(chǎn)品就自動(dòng)認(rèn)為質(zhì)量更好。在3D Arena中,用戶只能根據(jù)模型本身的視覺效果和質(zhì)量來做判斷,而不會(huì)被"這是哈佛大學(xué)開發(fā)的模型"或"這是知名公司的產(chǎn)品"等信息干擾。
第二個(gè)關(guān)鍵原則是多格式兼容支持?,F(xiàn)在的3D技術(shù)就像是不同的烹飪方法,有些使用傳統(tǒng)的網(wǎng)格模型(類似傳統(tǒng)的炒菜方式),有些使用新興的高斯濺射技術(shù)(類似現(xiàn)代的分子料理)。平臺支持包括.obj、.glb等傳統(tǒng)格式,以及.ply、.splat等新興格式,確保不同技術(shù)路線的模型都能在同一個(gè)擂臺上公平競爭。
第三個(gè)原則是自然偏好捕捉。平臺刻意避免給用戶過多的評價(jià)指導(dǎo),不會(huì)告訴用戶"請從幾何精度、紋理質(zhì)量、拓?fù)浣Y(jié)構(gòu)等維度評價(jià)"。相反,用戶完全按照自己的直覺和喜好進(jìn)行選擇。這種設(shè)計(jì)理念基于一個(gè)重要認(rèn)知:真實(shí)世界中的用戶使用3D模型時(shí),往往憑借直覺判斷好壞,而不是按照技術(shù)清單逐項(xiàng)檢查。
最后一個(gè)原則是可及性平衡。平臺使用Hugging Face的OAuth認(rèn)證系統(tǒng),既保證了用戶身份的真實(shí)性,又降低了參與門檻。這就像是在保安檢查和自由出入之間找到了平衡點(diǎn),既防止了惡意刷票,又不會(huì)讓普通用戶望而卻步。
為了確保評估結(jié)果的科學(xué)性,研究團(tuán)隊(duì)還開發(fā)了一套嚴(yán)格的質(zhì)量控制機(jī)制。他們使用統(tǒng)計(jì)學(xué)中的二項(xiàng)式檢驗(yàn)方法,監(jiān)控每個(gè)用戶的投票模式是否異常。具體來說,如果某個(gè)用戶的投票行為與社區(qū)整體趨勢差異過大(概率小于十萬分之一),就會(huì)被標(biāo)記為可疑賬戶。通過這種方法,平臺在8,096個(gè)用戶中僅發(fā)現(xiàn)31個(gè)可疑賬戶,用戶真實(shí)性達(dá)到99.75%,這個(gè)數(shù)字在眾包評估中是相當(dāng)出色的。
二、iso3d數(shù)據(jù)集:標(biāo)準(zhǔn)化評估的基石
為了確保不同模型之間的比較公平公正,研究團(tuán)隊(duì)精心構(gòu)建了一個(gè)名為iso3d的標(biāo)準(zhǔn)化數(shù)據(jù)集。這個(gè)數(shù)據(jù)集的構(gòu)建過程就像是為烹飪比賽準(zhǔn)備標(biāo)準(zhǔn)化的原材料,確保每位參賽者都使用相同質(zhì)量的食材。
iso3d數(shù)據(jù)集包含100張精心挑選的圖片,這些圖片都展示了孤立的物體,背景干凈簡潔。數(shù)據(jù)集的構(gòu)建過程頗為嚴(yán)謹(jǐn):研究團(tuán)隊(duì)首先從Karlo-v1數(shù)據(jù)集的1,630個(gè)文本提示中篩選候選項(xiàng),然后為每個(gè)提示添加標(biāo)準(zhǔn)化后綴"孤立物體渲染,白色背景",使用DreamShaper-XL模型生成圖像,再通過自動(dòng)化工具移除背景。最終,通過人工審核,從1,630個(gè)候選圖像中精選出100張質(zhì)量最佳的圖片。
這種設(shè)計(jì)哲學(xué)體現(xiàn)了研究團(tuán)隊(duì)的一個(gè)重要理念:他們故意沒有控制物理合理性。換句話說,數(shù)據(jù)集中包含了一些在現(xiàn)實(shí)中可能無法存在或看起來不太合理的物體。這種看似"不完美"的設(shè)計(jì)實(shí)際上更貼近真實(shí)使用場景。在實(shí)際應(yīng)用中,用戶經(jīng)常會(huì)輸入各種質(zhì)量參差不齊的圖片,包括AI生成的圖像,這些圖像可能包含物理上不合理的元素。通過包含這些挑戰(zhàn)性案例,iso3d數(shù)據(jù)集能夠更好地測試模型在面對"困難題目"時(shí)的表現(xiàn)。
平臺的用戶界面設(shè)計(jì)也頗具匠心。用戶看到的是兩個(gè)并排的3D查看器,就像是在博物館里同時(shí)觀察兩件藝術(shù)品。標(biāo)準(zhǔn)渲染視圖展示了模型的整體視覺效果和表面質(zhì)量,而線框視圖則揭示了底層的幾何結(jié)構(gòu)特征。用戶可以在這兩種視圖模式之間自由切換,還能看到每個(gè)模型的多邊形數(shù)量。這種設(shè)計(jì)讓用戶既能感受模型的美觀程度,也能了解其技術(shù)復(fù)雜度。
標(biāo)準(zhǔn)視圖使用了業(yè)界標(biāo)準(zhǔn)的渲染設(shè)置:網(wǎng)格模型通過Babylon.js引擎渲染,高斯濺射模型則通過gsplat.js引擎渲染。這種統(tǒng)一的渲染環(huán)境確保了比較的公平性,就像是在相同的燈光條件下比較兩幅畫作。
三、排行榜揭示的偏好模式
通過分析大量的投票數(shù)據(jù),研究團(tuán)隊(duì)發(fā)現(xiàn)了一些出人意料的用戶偏好模式。這些發(fā)現(xiàn)就像是解開了一個(gè)關(guān)于人類審美心理的密碼。
最令人意外的發(fā)現(xiàn)是用戶對不同3D表示格式的明顯偏好。高斯濺射格式的模型平均ELO評分為1215.1分,而傳統(tǒng)網(wǎng)格模型的平均評分僅為1198.5分,相差16.6分。在加權(quán)投票率方面,高斯濺射模型獲得了51.9%的勝率,而網(wǎng)格模型僅有49.7%。這種偏好差異在統(tǒng)計(jì)學(xué)上非常顯著,可信度超過99.9999%。
這種偏好背后的原因頗為有趣。高斯濺射模型采用無光照渲染方式,呈現(xiàn)出明亮鮮艷的視覺效果,就像是在柔和的散射光下觀察物體。相比之下,網(wǎng)格模型依賴動(dòng)態(tài)光照模型,雖然更符合真實(shí)世界的光線條件,但視覺沖擊力可能稍遜一籌。然而,這種偏好的代價(jià)是顯而易見的:高斯濺射模型需要更高的計(jì)算資源,而且在下游應(yīng)用中的兼容性有限,比如難以進(jìn)行動(dòng)畫制作、編輯或與現(xiàn)有3D工作流程整合。
為了驗(yàn)證這種格式效應(yīng),研究團(tuán)隊(duì)進(jìn)行了一個(gè)巧妙的對照實(shí)驗(yàn)。他們選擇了TRELLIS模型,該模型既能輸出網(wǎng)格格式也能輸出高斯濺射格式。結(jié)果顯示,即使是同一個(gè)底層模型,其高斯濺射版本的ELO評分比網(wǎng)格版本高出78分。這個(gè)實(shí)驗(yàn)徹底證明了格式本身對用戶偏好的巨大影響。
另一個(gè)重要發(fā)現(xiàn)是紋理的決定性作用。帶紋理的模型比無紋理的幾何體在ELO評分上高出144.1分,這相當(dāng)于24.5個(gè)百分點(diǎn)的勝率提升。具體數(shù)據(jù)顯示,帶紋理模型的勝率為56.9%,而無紋理模型僅為32.4%,這種差異的統(tǒng)計(jì)顯著性極高。
然而,這個(gè)規(guī)律并非絕對。一些無紋理模型表現(xiàn)出了超越多個(gè)帶紋理模型的能力,這說明紋理雖然重要,但并非決定性因素。Hi3DGen就是一個(gè)典型例子,盡管它只產(chǎn)生無紋理的網(wǎng)格,卻獲得了比多個(gè)帶紋理模型更高的評分。這表明用戶在評估時(shí)會(huì)同時(shí)考慮視覺吸引力和結(jié)構(gòu)完整性,幾何質(zhì)量和拓?fù)涮卣魅匀痪哂兄匾绊懥Α?/p>
在幾何復(fù)雜度方面,研究團(tuán)隊(duì)分析了1,606個(gè)網(wǎng)格文件,發(fā)現(xiàn)了顯著的復(fù)雜度差異。平均多邊形數(shù)量為172,571個(gè),中位數(shù)為63,708個(gè)。有趣的是,多邊形數(shù)量與偏好之間的關(guān)系并非簡單的線性關(guān)系。
最低多邊形數(shù)量類別(少于1000個(gè)多邊形)的模型平均ELO評分僅為1016分,勝率只有19.1%。這個(gè)類別主要由IM-MA模型主導(dǎo),該模型是InstantMesh生成和MeshAnything重拓?fù)涞幕旌舷到y(tǒng)。IM-MA代表了一種重視網(wǎng)格拓?fù)浣Y(jié)構(gòu)的設(shè)計(jì)理念,優(yōu)先考慮網(wǎng)格的技術(shù)質(zhì)量而非多邊形密度。雖然低多邊形數(shù)量通常有利于渲染性能和計(jì)算效率,但I(xiàn)M-MA的表現(xiàn)反映了不同的優(yōu)化目標(biāo)。
在傳統(tǒng)的拓?fù)錈o關(guān)模型中,多邊形數(shù)量與偏好呈現(xiàn)中等程度的正相關(guān)關(guān)系(相關(guān)系數(shù)為0.147)。中等密度的網(wǎng)格(5000-20000個(gè)多邊形)獲得了58.8%-60.9%的勝率。然而,這種關(guān)系在超過中等復(fù)雜度后出現(xiàn)遞減效應(yīng),表明幾何細(xì)節(jié)的增加在傳統(tǒng)生成方法中的偏好提升作用有限。
四、認(rèn)知心理學(xué)視角的深度解析
通過對大量投票數(shù)據(jù)的深入分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)fascinating現(xiàn)象:用戶的實(shí)際投票行為與他們口頭表達(dá)的偏好存在顯著差異。這種現(xiàn)象就像是人們說自己喜歡健康食品,但實(shí)際購買時(shí)卻更多選擇甜食一樣。
在專業(yè)3D工作流程中,從業(yè)者通常強(qiáng)調(diào)清潔拓?fù)涞闹匾?,認(rèn)為這對動(dòng)畫兼容性至關(guān)重要。網(wǎng)格格式被視為標(biāo)準(zhǔn)管道的必需品,技術(shù)可用性被認(rèn)為是下游應(yīng)用的關(guān)鍵因素。社區(qū)討論中也經(jīng)常能聽到類似的觀點(diǎn),非正式反饋頻繁強(qiáng)調(diào)清潔網(wǎng)格拓?fù)浜图夹g(shù)實(shí)用性的重要性。
然而,投票模式卻系統(tǒng)性地偏向于視覺沖擊力。高斯濺射模型相對于網(wǎng)格模型的16.6分ELO優(yōu)勢,以及帶紋理模型相對于無紋理模型的144.1分優(yōu)勢,都清楚地表明用戶更重視鮮艷的渲染效果和美學(xué)吸引力,而不是下游實(shí)用性。盡管業(yè)界普遍認(rèn)識到清潔網(wǎng)格拓?fù)鋵I(yè)工作流程的重要性,但這種偏好差異反映了既定的認(rèn)知機(jī)制。
這種現(xiàn)象的根源可以從認(rèn)知心理學(xué)角度得到解釋。人類視覺系統(tǒng)處理表面特征(如顏色、亮度)的速度極快,通常在150-200毫秒內(nèi)就能完成,而幾何細(xì)節(jié)的處理需要額外的時(shí)間。需要深思熟慮評估的特征在評判中被系統(tǒng)性地弱化,相比之下,立即可感知的視覺特征獲得了更大的權(quán)重。
這種機(jī)制符合認(rèn)知心理學(xué)中的雙過程理論??焖俚呐鋵Ρ容^默認(rèn)使用直覺性(系統(tǒng)1)評估,優(yōu)先考慮即時(shí)的視覺印象,而不是需要分析性(系統(tǒng)2)思考的技術(shù)考量。偏好模式還體現(xiàn)了美學(xué)可用性效應(yīng),即美觀的設(shè)計(jì)被感知為更加實(shí)用,無論其實(shí)際功能如何。
TRELLIS與TRELLIS-3DGS的比較完美詮釋了這些機(jī)制:相同的底層模型僅通過渲染差異就獲得了78分的ELO優(yōu)勢,這種差異完全來自于增強(qiáng)即時(shí)視覺吸引力的效果。值得注意的是,確實(shí)存在一些例外情況,比如Hi3DGen盡管產(chǎn)生無紋理網(wǎng)格,卻獲得了比多個(gè)帶紋理替代品更高的評分。
五、行業(yè)應(yīng)用與未來展望
這項(xiàng)研究揭示的偏好模式為整個(gè)3D生成行業(yè)帶來了重要啟示。目前的發(fā)現(xiàn)創(chuàng)造了一個(gè)優(yōu)化挑戰(zhàn):模型開發(fā)者必須在滿足用戶偏好和維持專業(yè)應(yīng)用技術(shù)質(zhì)量之間找到平衡。認(rèn)知機(jī)制傾向于即時(shí)視覺沖擊而非結(jié)構(gòu)質(zhì)量,這種傾向偏向表面特征而非需要深思熟慮評估的技術(shù)特征。
為了解決這種評估鴻溝,3D Arena和類似平臺可以在未來實(shí)施分離的評估模式,獨(dú)立評估不同的質(zhì)量方面。針對拓?fù)湓u估,用戶可以僅查看線框視圖和多邊形數(shù)量信息,而不是渲染表面。這些結(jié)果可以用來計(jì)算單獨(dú)的拓?fù)銭LO分?jǐn)?shù),從而解開兩個(gè)質(zhì)量維度的糾纏,提供更準(zhǔn)確的模型能力評估。
研究團(tuán)隊(duì)還提出了幾個(gè)改進(jìn)評估方法的建議。多標(biāo)準(zhǔn)評估可以將美學(xué)吸引力與技術(shù)實(shí)用性分離開來。任務(wù)導(dǎo)向評估可以針對特定用例進(jìn)行優(yōu)化。專家與普通用戶的對比分析可以揭示領(lǐng)域知識如何影響偏好形成。這些方法可以在保持寶貴的廣泛社區(qū)偏好洞察的同時(shí),提供更細(xì)致的模型評估。
平臺的持續(xù)發(fā)展也體現(xiàn)了開放科學(xué)的理念。為了確保研究的可重現(xiàn)性并促進(jìn)進(jìn)一步研究,研究團(tuán)隊(duì)提供了完整的開放訪問資源。3D Arena平臺本身在https://huggingface.co/spaces/dylanebert/3d-arena保持公開可訪問,支持持續(xù)的社區(qū)參與和實(shí)時(shí)排行榜更新。iso3d評估數(shù)據(jù)集通過Hugging Face數(shù)據(jù)集平臺在https://huggingface.co/datasets/dylanebert/iso3d提供,為未來的生成式3D研究提供標(biāo)準(zhǔn)化的評估協(xié)議。
這種開放性使得其他研究團(tuán)隊(duì)能夠基于這些資源進(jìn)行擴(kuò)展研究,比如開發(fā)新的評估指標(biāo)、探索不同的用戶群體偏好,或者構(gòu)建更專業(yè)化的評估工具。同時(shí),持續(xù)運(yùn)行的平臺確保了評估體系能夠跟上快速發(fā)展的技術(shù)步伐,為新出現(xiàn)的模型提供及時(shí)的評估服務(wù)。
說到底,這項(xiàng)研究不僅僅是建立了一個(gè)評估平臺,更重要的是它揭示了人類如何感知和評價(jià)復(fù)雜視覺內(nèi)容的深層機(jī)制。通過123,243次真實(shí)用戶投票的大規(guī)模數(shù)據(jù)分析,我們看到了審美直覺與技術(shù)理性之間的有趣博弈。這種洞察不僅對3D生成技術(shù)的發(fā)展具有指導(dǎo)意義,也為其他涉及人類感知評估的AI領(lǐng)域提供了寶貴參考。
隨著AI技術(shù)的不斷進(jìn)步,如何平衡用戶體驗(yàn)與技術(shù)實(shí)用性將成為一個(gè)永恒的話題。3D Arena的成功經(jīng)驗(yàn)告訴我們,真正有效的評估體系需要結(jié)合大規(guī)模的人類反饋、嚴(yán)格的科學(xué)方法和開放的研究理念。未來,我們期待看到更多類似的平臺在不同領(lǐng)域出現(xiàn),推動(dòng)AI技術(shù)朝著更貼近人類需求的方向發(fā)展。
對于普通讀者而言,這項(xiàng)研究最大的價(jià)值在于它讓我們重新思考"好"的定義。在AI快速發(fā)展的時(shí)代,技術(shù)指標(biāo)與人類感受之間的差異提醒我們:真正優(yōu)秀的AI系統(tǒng)不僅要在實(shí)驗(yàn)室里表現(xiàn)出色,更要在真實(shí)世界中贏得用戶的心。這或許就是人工智能發(fā)展的終極目標(biāo)——創(chuàng)造既技術(shù)先進(jìn)又深受人們喜愛的智能系統(tǒng)。
Q&A
Q1:3D Arena是什么?它是如何工作的? A:3D Arena是由Hugging Face開發(fā)的首個(gè)大規(guī)模3D模型評估平臺。它的工作方式很簡單:用戶登錄后會(huì)看到兩個(gè)匿名的3D模型并排展示,可以自由旋轉(zhuǎn)、縮放觀察,然后投票選擇更好的那個(gè)。平臺通過收集大量真實(shí)用戶的投票來評判不同AI模型的優(yōu)劣,就像是為3D模型舉辦的"選美比賽"。
Q2:為什么3D Arena的評估結(jié)果更可信? A:傳統(tǒng)評估只看技術(shù)指標(biāo),就像只通過測量溫度和重量來判斷菜品好壞一樣不合理。3D Arena收集了超過12萬次真實(shí)用戶投票,反映了人們的真實(shí)感受和偏好。它還采用了嚴(yán)格的質(zhì)量控制,通過統(tǒng)計(jì)學(xué)方法檢測虛假投票,用戶真實(shí)性達(dá)到99.75%,比單純的自動(dòng)化評分更能反映模型的實(shí)際價(jià)值。
Q3:研究發(fā)現(xiàn)了哪些出人意料的用戶偏好? A:最大的發(fā)現(xiàn)是用戶偏愛視覺效果而非技術(shù)實(shí)用性。高斯濺射模型雖然計(jì)算量大、兼容性差,但因?yàn)橐曈X效果鮮艷,比傳統(tǒng)網(wǎng)格模型平均高16.6分。帶紋理的模型比無紋理模型高144分。這說明人們在快速評判時(shí)更依賴直覺和視覺沖擊,而不是技術(shù)理性,這對AI開發(fā)有重要指導(dǎo)意義。
好文章,需要你的鼓勵(lì)
浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法,讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率,且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置,為AI推理優(yōu)化開辟新路徑。
清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法,通過"壓縮-擴(kuò)張"交替訓(xùn)練策略,成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示,該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí),輸出長度減少46.9%,真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化,為AI模型訓(xùn)練提供了新思路。
南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù),實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新,解決了長視頻生成中的錯(cuò)誤累積問題,可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻,延遲僅0.76秒,質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01,為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn),通過讓AI模型學(xué)習(xí)解決幾何問題,能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示,幾何訓(xùn)練在四個(gè)空間智能測試基準(zhǔn)上都帶來顯著提升,其中最佳模型達(dá)到49.6%準(zhǔn)確率,超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識對培養(yǎng)AI空間智能的重要價(jià)值。